基于RNA测序技术的转录组从头拼接算法研究(7)

2019-03-22 21:45

录体上,就将其确定为一个错误的拼接,或者将其定位为一个假阳性的转录体。然而,对于拼接的质量,在生物学上,并没有一个固定的标准,因此我们可以采取以下两个度量去衡量拼接的质量,这两个词为敏感性与假阳性。

Trinity和Oases在老鼠和乳酸菌上的拼接的结果如图2.1所示。从图中可以看出,虽然Trinity和Oases的表现有差异,但是结果一致表明,当前的拼接算法对于乳酸菌的拼接,敏感性很高,假阳性很低,效果比较好,对于老鼠的转录组的拼接,表现却差了好多,不仅敏感性低,而且假阳性也比较高。

图2.1. Trinity和Oases在老鼠和乳酸菌上的拼接的结果 Trinity和Oases在五份数据的拼接结果如图2.2所示,随着转录组的复杂性的增加,拼接的敏感性迅速下降(图2.2a),假阳性也不断上升(图2.2b),进一步表明当前的拼接算法在处理复杂的转录组时表现很差。因此,非常有必要去进一步提高转录组的从头拼接算

26

法。

图2.2:测序数据的拼接结果

当转录组中的基因的剪接情况比较复杂时,拼接出来的图就相应的比较复杂,从这个图中去找对应转录体的路就变得很困难,所以,拼接的效果就变得往往很差了。因此,要想提高拼接的效果,必须在从图中寻找对应转录体的路这一步下功夫,建立一个更好的模型,充分利用各种信息,从而找到一个更好的路的集合。

我们应该提出的算法Bridget\,我们舍弃了Trinity中利用的穷举算法,引入了一个经典的组合优化模型一一最小路覆盖模型,来找一个尽可能小的路的集合,来解释当前观察到的所有测序片段。仅仅这样还不能保证解的唯一性,我们又通过加权,通过优化来得到一组更好的解,加权后的模型在实际中几乎可以保证得到唯一解。

目前,老鼠们普遍将提高转录组从头拼接的质量寄希望于测序片段长度的增加。Mark Chaisson等人在研宄测序片段长度对于基因组的拼接的影响时,曾经给出过一个惊老鼠的结论:对于双端测序来说,测序片段的长度较短时,增加片段长度对拼接是很有用的,但是测序

27

片段一旦超过某个阈值,增加测序片段的长度对拼接的结果影响不大。这个结论并不能不假思索地推广到转录组的拼接,毕竟转录组的拼接跟基因组的拼接有很大不同,那么对于转录组的拼接,是不是也有类似的结论呢?

为了弄清楚这个问题,我们通过模拟数据进行了深入研宄。首先,我们模拟了三个不同物种的RNA测序数据,老鼠,老鼠和乳酸菌。对于每一个物种,我们又分别生成了多份不同长度的数据。对于老鼠和老鼠,我们用一个模拟器BEERS分别生成了六份长度不同的RNA双端测序数据,序列长度分别为50bp, 75bp,lOObp, 150bp,175bp和200bp。每一份数据的中间插入的长度都为200bp,测序片段的数据量都是五千万左右,以保证有足够的测序深度。对于乳酸菌,我们利用一个Perl脚本生成了测序长度为35bp, 50bp, 75bp, lOObp和150bp的五份双端测序数据。对于每一份测序数据,中间插入的长度都是200bp,测序片段的数据量也都是五千万左右。

图2.3:老鼠RNA数据上的拼接结果比较

28

我们选用两个当前比较流行的拼接算法Trinity和Oases进行拼接,以防止因为某一个拼接算法自身的特点而导致错误的结论。对于拼接的结果,我们分别从敏感性和假阳性两个角度进行评价。虽然Trinity比Oases的拼接效果要好,但是随着测序长度的变化,二者的拼接效果的变化趋势是一致的。在老鼠的RNA测序数据上(图2.3),当测序片段长度从50bp增加到150bp时,两个算法的敏感性上升很快,敏感性也迅速下降,表明拼接的结果不断提高,但是当测序片段的长度超过150bp时,测序片段长度的继续增加对两个算法的拼接结果的影响微乎其微,具体表现为:敏感性的提高不到1%,假阳性几乎不再下降。在老鼠的测序数据上,也观察到了几乎一模一样的结果(图2.4)。

图2.4:乳酸菌RNA数据上的拼接结果比较

在乳酸菌的数据上,拼接的结果也是随着测序片段长度的增加表现出先有所提高后几乎没有什么变化的规律。不过有意思的是,在乳酸菌的数据上,测序片段的长度增加到75bp时,拼接的效果就基本

29

达到了最优值,之后测序片段长度继续增加,对拼接几乎不再有任何影响。

可见,对于转录组双端测序的片段长度,也存在一个阈值(这个阈值对不同的物种是不同的),在这个阈值之下,测序片段的长度的增加对提高从头拼接的结果有一定的影响,但是,一旦超过了这个阈值,测序片段长度的增加对拼接结果就不再有任何影响。这一方面告诉我们,不能一味地寄希望测序技术的进步来提高转录组的从头拼接;另一方面,再一次告诉我们,要想从根本上来提高转录组的从头拼接,必须通过提高算法的途径来实现,因此对拼接算法的研宄和进一步改进十分必要。

第三章Bridger:新的转录组从头拼接算法

在本章中,我们主要介绍从头拼接算法Bridger。在实际测序数据时,Bridger算法的效果达到了我们的预期的设想,这大大地缩短了从头拼接算法与基于参考基因组的拼接算法之间的差异,这也是Bridger得名的原因。

3.1拼接前的考虑

3.1.1测序数据的特点 对于RNA测序数据的生成方式,主要为:将所有的RNA打碎,继而转化为一个c DNA文库,利用第二代测序技术对文库进行测序,从

30


基于RNA测序技术的转录组从头拼接算法研究(7).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:NachOS实验报告(4个全)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: