基于大部分基因都是非差异表达的,所以大多点应在log fold change=0左右,并且不随表达量的变化而变化。
4.2 差异基因列表
对于有生物学重复的的样品,我们采用DESeq2来分析差异表达基因。该方法基于负二项分布模型(K ij~ NB(μij,σij2来检测差异表达基因。
Gene baseMean log2FoldChange pvalue padj
FBgn0000370 31324.379200 -1.3665378519 5.6393206e- 176 2.9843284e-
172
FBgn0033913 17544.483454 -1.1571536021 6.3177309e- 90 1.3373372e-87 (1Gene: 基因ID
(2baseMean:所有样本矫正后的平均reads数
(3log2FoldChange:log2后的表达量差异 (4pvalue:统计学差异显著性检验指标
(5padj:校正后的pvalue。padj越小,表示基因表达差异越显著 4.3 差异基因可视化
用火山图可以推断差异基因的整体分布情况。
图 4.3.1显著性差异表达基因用红色点表示; 横坐标表示基因在不同样本中的表达倍数变化; 纵坐标表示统计学上基因表达量变化差异的显著性
对于特定基因在不同实验中的表达情况,和此基因的不同转录本在不同实验中的表达情况。
图 4.3.2 左图为regucalcin基因在两个样本中的表达差异情况; 右图为此基因在不同转录本中的表达差异情况 4.4 差异基因聚类
聚类分析用于判断差异基因在不同实验条件下的表达模式。通过将表达模式相同或相近的基因聚集成类,从而识别未知基因的功能或已知基因的未知功能。
5. 差异表达基因功能分析 5.1 GO富集分析
Gene Ontology(简称 GO, http://www.geneontology.org/是基因功能标准分类体系。研究差异基因在 Gene Ontology 中的分布情况将阐明差异基因富集的生物学功能。
5.2 信号通路富集分析
在生物体内,不同基因相互协调实现其生物学功能,通过Pathway显著性富集能确定差异表达基因参与的最主要信号通路。KEGG(Kyoto Encyclopedia of Genes and Genomes,http://www.kegg.jp/是有关Pathway的主要公共数据库(Kanehisa,2008。Pathway显著性富集分析以KEGG Pathway为单位,应用统计检验找出差异表达基因中显著性富集的Pathway。
5.3 癌基因功能注释 原癌基因(Proto-oncogene是参与细胞生长、细胞分裂和细胞分化的正 常基因,当其发生突变后(如基因序列被改变就会变成致癌基因(Oncogene。 通常在肿瘤或恶性细胞系中某些特异性癌基因会上调表达,通过了解癌基因在 实验不同组的表达情况有助于深入认识疾病的发病机理。
Cosmic( https://cancer.sanger.ac.uk/cosmic 是英国 Sanger 实验室开发并维 护的癌基因及相关注释数据库,有较高的权威性及可信度,通过与数据库进行 比对,可对差异表达基因中的癌基因部分进行鉴别和注释。 6.基因结构差异分析 6.1 可变剪切分析 对于 RNA-seq,除了 gene 水平的差异分析外,还可以进行 exon 水平 的差异分析。不用的 exon 表达,表明了有着不同的剪切方式。这时可以使用
Bioconductor 的 DEXSeq 软件包。 该分析可以给出每个基因在不同的实验条件下,外显子的使用情况。比 如上图的 10 号外显子在 control 和 knockdown 两组中的表达差别较大,此外 显子的表达量情况,也反映到了在两组中此基因的剪切形式有差异。
7. SNP 分析 7.1 SNP 检测 SNP 全称 Single Nucleotide Polymorphisms,是指在基因组上由单个核 苷酸变异形成的遗传标记,其数量很多,多态性丰富。一般而言,SNP 是指变 异频率大于 1%的单核苷酸变异。对 RNA-seq 的 SNP 分析可能得到基因在上 的 SNP 位点和 RNA 编辑位点。 Chr Chr1 Chr1 Chr1 Pos 14653 14907 14930 Ref C A A Alt T G C 7.2 SNP 筛选 对 SNP 位点进行注释、过滤、筛选,旨在找出跟表型相关性高的位点。 过滤 dbSNP 中存在的多态性位点,过滤掉同义突变
的位点。 与现有 GWAS 位点数据库比对,与 OMIM 数据库,HGMD 数据库等比 对。 7.3 GO/KEGG 富集 对高可信的 SNP 所在的基因进行 GO/KEGG 富集。