Split Reads Expression Profiling Efficiency Transcripts Detected Genes Detected
1BJ 0.885 0.738 0.147 0.114 9,910,010 0.738 32,796 15,434 (1Sample:样本名
(2IntragenicRate:比对到基因内的reads比例 (3ExonicRate:比对到外显子的reads比例 (4IntronicRate:比对到内含子的reads比例 (5IntergenicRate:比对到基因间区的reads比例 (6SplitReads:比对到两外显子交接处的reads数
(7ExpressionProfilingEfficiency:比对到外显子上的reads占总体的比例 (8TranscriptsDetected:比对上reads数大于5的转录本数 (9GenesDetected:比对上reads数大于5的基因数
3. 基因表达水平 3.1 基因表达水平定量
在RNA-seq分析中,我们可以通过定位到基因组区域或基因外显子区的reads的计数来估计基因的表达水平。Reads计数除了与基因的真实表达水平成正比外,还与基因的长度和测序深度成正相关。为了使不同基因、不同实验间估计的基因表达水平具有可比性,人们引入了RPKM的概念,RPKM(Reads Per Kilo bases per Million reads是每百万reads中来自某一基因每千碱基长度的reads数目。RPKM同时考虑了测序深度和基因长度对reads计数的影响,是目前最为常用的基因表达水平估算方法 (Mortazavi et al., 2008。
Gene_ID Sample1 Sample2 Sample3 Sample4 Sample5 Sample6
ENSG00000000003 49.32 46.94 48.91 22.51 20.60 22.95 ENSG00000000419 35.92 34.58 33.69 32.80 35.65 32.73 ENSG00000000457 1.34 0.94 1.19 2.06 2.13 2.26 ENSG00000000460 1.19 1.20 1.22 3.00 3.33 3.06
(1 Gene_ID:Ensembl基因ID
(2 Other columns:各样本中该基因的表达水平(RPKM 3.2 基因表达水平分步
每个样本所有基因的RPKM盒形图可以展示出不同实验条件下基因表达水平的分布情况。
图3.2.1 不同条件下的基因表达水平分布图 3.3 生物学重复相关性分析
生物学重复主要有两个用途:一个是证明所涉及的生物学实验可重复性强、差异小,另一个用于估计生物学变异进行差异基因检测。样品间基因表达
水平相关性是检验实验可靠性和样本选择是否合理的重要指标。相关系数越接近1,表明样品之间表达模式的相似度越高。
图3.3.1 生物学重复散点图 3.4 样本间层次聚类及PCA分析
当样本数目较多时,可以利用基因的表达量进行样本间聚类分析及PCA 分析,对样本间关系进行探究或者对实验设计进行验证。样本聚类距离或者PCA距离越近,说明样本越相似。
4. 差异基因分析 4.1 基因表达标准化
对于有生物学重复的样品,我们采用DESeq2提出的scaling factor的方法对原始的readcount进行标准化(normalization。以消除非生物学引起
的readcount的差异(最主要消除各个文库测序数据量不同带来的差异。对于标准化的结果,我们采用MA-plot或box-plot来评价。
图4.1.1 MA-plot 横坐标为表达量,纵坐标为log后的表达差异倍数