基于RNA测序技术的转录组从头拼接算法研究(6)

2019-03-22 21:45

的敏感。所谓对剪接敏感，其意义主要是指能够处理含有剪接连接处的测序片段。基因中的转录体是由不同的外显子连接而成的，在拼接中，转录体中间的内含子会被剪掉，若将内含子的测序片段直接映射在基因组上，那么测序片段的前后两部分就会被映射两个不同的位置，当然普通的映射工具无法完成这一工作。

将数据映射到参考基因上时，我们可以针对不同的位置，可以建立不同的图。对于每一个图，只要遍历图中的路，我们就可以获取基因中的所有转录体。参考基因组的算法的步骤一为：进行序列映射；序列映射是将测序所获的序列重新定位在基因组上。把测序片段定位在基因组上后，来自不同基因的测序片段就会被映射到基因组的不同位置，形成一个个测序片段簇。转录组的拼接问题就转化为单独的转录体拼接问题。对于每一个图，只要遍历图中的路，就可以找到最终的转录体。

比较有代表性的参考基因组的拼接算法是Cufflinks和Scripture。Cufflinks算法对映射到每一个基因位置的测序片段上定义了兼容关系。利用这种兼容关系，我们可以建立一个重叠图（over lap graph)，在重叠图上，每一个测序片段可以看作图中的点，如果两个测序片段兼容，我们就给他们连一条边。重叠图中的路表示基因的各个转录体。在Cufflinks算法中，人们应用了一个最小路模型在图中寻找对应转录体的路。

Scripture算法的主要思路为：构造一个有向图连通性图（connectivity graph)，构图思路是将基因组中的每一个碱基看成一个

点，在两个碱基之间加一条边，继而构成图。从构造的图中，寻找到所有超过某一个阈值的测序深度的路，作为最后的转录体集合。据总结，参考基因组的方法主要有以下几个优点：

一，通过映射，可以将一个大的拼接问题分解成多个小的拼接问题。每一个小的拼接问题之间相互独立，从而提高了计算效率。

二，对于表达量比较低的转录体，具有一定的敏感性，对于检测较低的未翻译区，基于参考基因组的拼接算法具有十分重要的意义。

三，由于基因组是已知的，转录体间的小的空白区域可以依靠基因组序列填充。这样，转录体中，没有被测序片段也有可能被正确拼接。以上是基于参考基因组的拼接算法的优点，对于其缺点总结如下：第一，要依靠参考基因组。且拼接成果取决于的参考基因组的质量。因为生物界中，大部分生物基因组都不是很完善，寻找已知基因组十分困难。

第二，拼接成果与序列片段映射过程息息相关，在映射过程中，许多映射不到的基因组序列会被丢弃，从而造成信息丢失，这样拼接成果会大打折扣。

由以上言论中，我们已经简便地知道基于参考基因组的拼接算法的优点与缺点，故此，在实际情况中，一定要结合实际，才能使结果更加趋于完善。

2.3基因组从头拼接算法

不利用参考基因组，仅仅从测序所得的片段出发，通过一定的方法最终将转录组的全部的转录体序列拼接出来的方法，称之为基因组从头拼接算法。基于基因组的拼接算法，对于低等的真核生物的转录体拼接而言，异常简便，不过对于真核生物的转录组拼接，效果却不太如意。因此，在对转录组拼接时，我们结合实际，分析转录组的特点，这样才能得到最佳的成果。

在诸多基因组从头拼接算法中，Trinit算法是第一个专门针对转录组设计的拼接算法，同时也是老鼠们公认的最好的转录组从头拼接算法。

其算法思想是依靠测序片段构造出一个长序列，然后在根据构造出的长序列构造出连通分支，针对长序列构造的连通分支，都能构造出一个图，然后利用穷举的方法寻找到路。

Trinit算法的具体步骤是：

第一步.利用贪婪策略拼接出长序列。在该步骤中，首先要构建出一个哈希表，然后在表中记录下所有的测序数据以及出现hmer出现的次数。

第二步，依靠第一步的相关数据，从而建立出deBruijn转录体图。

在第一步中，长序列并并不能直接反映出转录组的复杂性，不过他保持着一个完整图的全部信息。因此，我们可以通过一些方法，去建造出一些图，构图思路为，将所有的长序列聚类成不同种类的连通分支，使连通分支内的长序列之间至少存在一个核昔酸的重叠区域；

其次，为每一个连通分支建立图；最终，将测序片段全部映射图中。

第三步，从构造的图中，寻找到相关的转录体的路。对于寻找转录体的路，我们可以按照如下方法：合并deBruijn图中连续且不分叉的ytmer，使其形成一个更长的序列。除去由测序错误导致的小分叉边，使图得到简化。

图得到简化之后，我们可以通过一些动态规划过程与遍历图中路的方法去确定被测序片段支持的转录体。然后再运用测序片段自身的一些信息与双端测序的相关信息，将图中路的组合数降低，继而一一列举。

就目前而言，所有的从头拼接算法都是基于deBruijn图，因此ytmer的长度十分重要。一般来讲，对于ytmer的长度，大的A值在高表达的数据或者序列长度较长的数据上表现较好。而小的A值与其相反，它只是在低表达的数据或者序列长度较短的数据上表现较好。基于这一特点，老鼠们经常使用许多不同的值对转录体进行拼接，最后再将这些不同的拼接结果逐一合并，这样才能得到更加完美的拼接效果。用这种方法拼接转录组的软件大致包括Rnnotator、Multiple-A：、Trans～ABySS与Oases_M。

虽然这种策略能得到较高的敏感性，不过却引进更多的假阳性转录体，故此，该策略并不是一个较为理想的策略。

在Trinity的算法中，我们可以根据不同的转录组数据与基因组数据，在拼接过程中，老鼠们地使用很多具有转录组数据的拼接技巧，这样，才能使拼接效果有了突破性的进展。虽然Trinity算法的拼接

效果十分明显，不过它仍然存在着很多缺点与不足之处，这需要我们在今后的学习中，逐步总结。

2.4转录组从头拼接算法的改进

在本节中，针对于不同的RNA测序数据，我们选用了目前效果最佳的两个算法，Trinity算法与Oases算法，然后利用模拟数据的方法对其进行系统化分析。从分析的结果中，我们不难发现，对于简单转录组的拼接，这些算法的表现还可以，不过对于相对来说，较为复杂的转录组的拼接，该算法的效果却不是十分明显以至于很差。

对于Trinity算法与Oases算法，我们可以通过老鼠与乳酸菌的数据表现去探究。从结果上看，老鼠的数据是依靠工具BEERS生成，它含有40,000,00个双端测序的测序片段，而每一个测序片段的长度为75bp，而插入长度为200bp。

在获得老鼠的相关数据之后，我们又利用Perl程序使之生成乳酸菌的RNA测序数据。在测试中，要保持乳酸菌的数据的可比性，数据量以及测序片段长度和插入长度与老鼠的数据量、测序片段长度一致。

如果一个拼接出来的转录体能够完全覆盖一个参考转录体，并且插入删除不超过序列长度的1%，我们就认为这个参考转录体被完整拼接了出来。

如果拼接出来的转录体的50%以上的序列不能映射到任何参考转

共8页:

基于RNA测序技术的转录组从头拼接算法研究(6).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档