有参考基因组的转录组生物信息分析模板(2)

2019-04-22 23:31

横坐标为reads的碱基位置,纵坐标为单碱基所占的比例;不同颜色代表不同的碱基类型

2.3 测序数据过滤

测序得到的原始测序序列,里面含有带接头的、低质量的reads,为了保证信息分析质量,必须对raw reads进行过滤,得到clean reads,后续分析都基于clean reads。

数据处理的步骤如下:

(1) 去除带接头(adapter)的reads;

(2) 去除N(N表示无法确定碱基信息)的比例大于10%的reads; (3) 去除低质量reads。

RNA-seq 的接头(Adapter, Oligonucleotide sequences for TruSeqTM RNA and DNA Sample Prep Kits) 信息:

RNA 5’ Adapter (RA5), part # 15013205:

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’ RNA 3’ Adapter (RA3), part # 15013207: 5’-GATCGGAAGAGCACACGTCTGAACTCCAGTCAC(6位index)ATCTCGTATGCCGTCTTCTGCTTG-3’

图2.3 原始数据过滤结果

2.4 测序数据质量情况汇总

表2.4 数据产出质量情况一览表

Sample name Raw reads Clean reads clean bases Error rate(%) Q20(%) Q30(%) GC content(%) HS1_1 HS1_2 HS2_1 36579608 36579608 36547734 35175205 35175205 35119463 3.52G 3.52G 3.51G 0.03 0.03 0.03 97.88 96.50 97.85 92.88 90.38 92.81 49.39 49.59 49.53 数据质量情况详细内容如下:

(1) Raw reads:统计原始序列数据,以四行为一个单位,统计每个文件的测序序列的个数。

(2) Clean reads:计算方法同 Raw Reads,只是统计的文件为过滤后的测序数据。后续的生物信息分析都是基于Clean reads。

(3) Clean bases:测序序列的个数乘以测序序列的长度,并转化为以G为单位。

(4) Error rate:通过公式1计算得到。 (5) Q20、Q30:分别计算 Phred 数值大于20、30的碱基占总体碱基的百分比。

(6) GC content:计算碱基G和C的数量总和占总的碱基数量的百分比。

3 参考序列比对分析

测序序列定位算法:根据不同的基因组的特征,我们选取相对合适的软件(动植物用TopHat(Trapnell et al., 2009)、真菌或者基因密度较高的物种用Bowtie),合适的参数设置(如最大的内含子长度,会根据已知的该物种的基因模型来进行统计分析),将过滤后的测序序列进行基因组定位分析。下图为TopHat的算法示意图:

Tophat的算法主要分为两个部分:

(1) 将测序序列整段比对到外显子上。 (2) 将测序序列分段比对到两个外显子上。

我们统计了实验所产生的测序序列的定位个数(Total Mapped Reads)及其占clean reads的百分比,其中包括多个定位的测序序列个数(Multiple Mapped Reads)及其占总体(clean reads)的百分比,以及单个定位的测序序列个数(Uniquely Mapped Reads)及其占总体(clean reads)的百分比。 3.1 Reads与参考基因组比对情况统计

表3.1 Reads与参考基因组比对情况一览表

Sample name Total reads Total mapped Multiple mapped Uniquely mapped Read-1 Read-2 Reads map to '+' Reads map to '-' Non-splice reads Splice reads Reads mapped in proper pairs HS1 70350410 60529821 (86.04%) 606556 (0.86%) 59923265 (85.18%) 30176973 (42.9%) 29746292 (42.28%) 29930036 (42.54%) 29993229 (42.63%) 42357242 (60.21%) 17566023 (24.97%) 53795182 (76.47%) HS2 70238926 60232484 (85.75%) 633575 (0.9%) 59598909 (84.85%) 29987004 (42.69%) 29611905 (42.16%) 29783311 (42.4%) 29815598 (42.45%) 42528691 (60.55%) 17070218 (24.3%) 54428240 (77.49%) HT1 76161678 63555439 (83.45%) 714678 (0.94%) 62840761 (82.51%) 31592931 (41.48%) 31247830 (41.03%) 31409912 (41.24%) 31430849 (41.27%) 45227757 (59.38%) 17613004 (23.13%) 56181352 (73.77%) HT2 50666084 43461327 (85.78%) 450156 (0.89%) 43011171 (84.89%) 21654629 (42.74%) 21356542 (42.15%) 21476601 (42.39%) 21534570 (42.5%) 31347392 (61.87%) 11663779 (23.02%) 38524314 (76.04%) HW1 46573662 40246848 (86.42%) 389470 (0.84%) 39857378 (85.58%) 20028779 (43%) 19828599 (42.57%) 19923501 (42.78%) 19933877 (42.8%) 28062847 (60.25%) 11794531 (25.32%) 36101400 (77.51%) HW2 40543118 34971284 (86.26%) 335509 (0.83%) 34635775 (85.37%) 17411209 (43.02%) 17224566 (42.35%) 17289330 (42.61%) 17346445 (42.76%) 24725216 (61.1%) 9910559 (24.26%) 31246362 (77.25%) 比对结果统计详细内容如下:

(1) Total reads:测序序列经过测序数据过滤后的数量统计(Clean data)。 (2) Total mapped:能定位到基因组上的测序序列的数量的统计;一般情况下,如果不存在污染并且参考基因组选择合适的情况下,这部分数据的百分比大于 70%。

(3) Multiple mapped:在参考序列上有多个比对位置的测序序列的数量统计;这部分数据的百分比一般会小于10%。

(4) Uniquely mapped:在参考序列上有唯一比对位置的测序序列的数量统

计。

(5) Reads map to '+',Reads map to '-':测序序列比对到基因组上正链和负链的统计。

(6) Splice reads:(2)中,分段比对到两个外显子上的测序序列(也称为Junction reads)的统计,Non-splice reads为整段比对到外显子的将测序序列的统计,Splice reads的百分比取决于测序片段的长度。 3.2 Reads在参考基因组不同区域的分布情况

对Total mapped reads的比对到基因组上的各个部分的情况进行统计,定位区域分为Exon(外显子)、Intron(内含子)和Intergenic(基因间隔区域)。 正常情况下,Exon (外显子)区域的测序序列定位的百分比含量应该最高,定位到Intron (内含子) 区域的测序序列可能是由于非成熟的mRNA的污染或者基因组注释不完全导致的,而定位到Intergenic(基因间隔区域)的测序序列可能是因为基因组注释不完全以及背景噪音。


有参考基因组的转录组生物信息分析模板(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:高中语文会考试卷及详细答案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: