推出第二代测序技术。人类基因组计划的顺利完成,使我国生物学跨上了另一层面,也充分地证明了我国具有研究遗传信息的能力。
第二次测序技术的出现,是以Roche公司的454技术与Solexa技术和ABI公司推出的SOLiD技术为代表,对于第二代测序技术而言,它不仅饱含第一代测序技术的高准确性,还极大限度地提高了遗传信息的测序通量,测序通量的提高,标志着测序时间与测序成本得以降低。例如,在研究人类基因组计划时,科学家们就使用第一代测序技术作为研究手段,在此期间,花费了近 30亿美金的研究经费,历时十三余年;相比之下,如果利用第二代的SOLiD测序技术去研究一个人的全基因组测序,只需花费几千美金与一周的时间就可以完成这一项目。虽然说第二代测序技术具有很多优点,不过针对于第二代测序的测序数据分析,却给科学家们带来了一些问题与挑战,其原因在于第二代测序技术的测序片段较短、数据量大、不利于研究与分析。
在第二代测序技术的基础上,Helicos公司又推出单分子测序技术;Pacific Biosciences公司推出单分子实时测序技术;Oxford Nanopore Technologies公司的单分子测序技术,这些技术又统称为第三代测序技术,不过,由于诸多因素的影响,就目前而言,第三代测序技术并不成熟,错误率较高,很少使用于实际应用之中。由此,第二代测序技术仍然占据测序的主流地位。
1.2.2单端测序和双端测序
6
第二代测序技术Roche 454,Illumina和ABI SOLID有单端测序(singleend)和双端测序(pairedend)两种方式。在目前,这三种技术是诸多测序方式的三大主流技术。其中,对于Roche454测序技术来说,它主要是单端测序,它的测序片段长度可以达到400bp~800bp,在单端测序中,我们经常利用到基因组骨架的组装;而Solexa测序技术与ABISOLID测序技术的测序长度相对较短,其用途主要是用于对遗传信息基因组骨架的进一步组装与填补。不过Solexa技术与ABISOLID技术不仅可以单端测序,还可以双端测序。因此,只要合理运用双端测序的信息,就可以有效地克服测序片段短的缺点。
在本节中,我们主要以Illumina为例去介绍单端测序与双端测序。对于单端测序,其测序步骤大体总结如下:首先利用一定的方法,将DNA样本进行片段化处理,使其被打碎,从而形成200-500bp长度的测序片段。此步骤完成之后,又将引物序列连接到DNA片段的另一端,然后在引物序列的末端加上一个接头,最终固定片段,这样便能从测序序列的一端读取DNA中的碱基信息。而双端测序,就是在构建待测序的DNA库时,在测序序列的两端接头上都加上测序引物结合位点,继而进行两轮测序,这样便能依靠测序序列的两端来获得DNA中的碱基信息。
在实际应用中,在设计不同数据的拼接算法时,首先我们一定要充分考虑到是否利用双端测序技术。如果利用,就应该注意以下两个方面,其一,对于DNA测序片段的本身序列信息分析一定要合理;其二,双端测序的配对信息应有效利用。这样,才能给拼接过程提供
7
更为权威的指导与参考。
1.2.3 RNA 测序
在设计拼接算法时,我们有必要介绍一下RNA测序,对于RNA测序的定义,我们可以将其解释为将高通量的测序技术应用到mRNA(信使RNA)上,然后逆转录生成的cDNA,在此过程中,就会产生了RNA测序,对于产生的RNA测序,通常被称为RNA-seq。对于RNA测序的用途,据总结,主要有如下几个方面,第一,可以利用RNA测序去研究不同基因的mRNA种类与各自基因的表达量;第二,可以借助RNA测序去分析探讨基因不同样本间的表达差异,继而为转录组的研究开拓一个有效的研究手段。在RNA测序未出现之前,对于转录组问题的研宄,研究人员主要是利用基于杂交的基因芯片技术为主要研究工具,不过由于技术上的缺陷,基于杂交的基因芯片技术无法准确地检测到新的mRNA,除此之外,此技术的灵敏度有限,对于表达水平的微小变化,也不能检测出来。
在转录组的研究中,其技术主要有传统的基因芯片技术与EST技术,不过对于这两种技术而言,RNA测序具有诸多优点。例如,RNA测序可以达到单核苷酸的分辨率,能够确定出表达量很
低的转录体,还可以研究可变剪接等等,这些成果,以上两种技术只能望尘莫及。基于RNA测序的优越性,一些专家学者便以此预测,在今后的几年或者几十年内,RNA测序技术有可能会取代传统的
8
基因芯片技术,成为转录组研究的主要工具。而在应用方面,随着时间的推移,RNA测序技术也被广泛地使用于转录组的研究。
RNA测序对于转录组的研究具有不可磨灭的划时代意义,不过凡事都具有两面性质,在生物信息学中,RNA测序技术产生的海量数据虽然给转录组的研究带来一定的机遇,不过在带来机遇的同时,也赋予了一定的挑战。因此,有效地对RNA测序数据进行合理的分析与探讨,是RNA测序技术是否在科学探索中获得一席之位的关键。关于RNA测序的主要目的,可以理解为它是研宄转录体的表达情况与比较多个不同信息样本间的转录组差异。其主要研究的问题包括了如何准确地确定DNA转录组中表达的转录体序列,在转录体序列得到表达之后,又如何估计基因中的转录体序列的表达量,继而依照转录体序列去探讨不同样本之间的差异性表达等等。在本章中,我们所谈论只是RNA测序研究的一个热点问题,即为从测序片段着手,去分析并拼接出基因中所含有的转录体序列,确定此序列,也是转录组研究的一大重要基石,在转录组的研究中必不可少,因此,合理掌握RNA测序,是研究生物信息学的基本要求之一。
1.3 测序片段的拼接
在生物学中,测序片段的拼接一直以来,都是生物界中最为棘手的问题之一,虽然诸多学者专家研究测序片段已经有了几十年的历程,不过至目前而言,这一领域的相关问题并未得到真正的解决。所
9
谓测序拼接,其意义就是将基因测序所获得的短序列通过一些方法手段,从而还原成一个较为完整的序列,该过程则称之为测序拼接。
对于遗传物质DNA中的测序片段,在针对拼接此过程时,最后得到的是一个完整的基因组序列。然而拼接RNA测序片段,由于可变剪接的存在,在拼接中,往往会得到一些彼此之间不连通的图,且每一个图的含义都是代表着一个基因位置上的转录情况。在拼接过程中得到的每一个图,我们都可以利用一定的方法去寻找与之对应的全长的转录体路。也就是说,在对转录组的拼接时,最终所获得的产物并不是一个长的测序序列,而是不计其数的转录体序列,在生物学上,我们将全体转录体统称为一个转录组。
在研究转录组时,我们可以将其合理地比喻成以下这种情况,从理论上来说,如果我们将一本书复制多份,然后利用剪刀将这些书分别剪碎,形成千千万万个细小的碎片,在剪接的过程中,我们剪书的方式都不相同,最终在这些碎片之中,我们总会找到某一个碎片与其他碎片具有相同之处,也就是说,某一个碎片与其他碎片具有一定的重叠几率。而我们依靠碎片中,这些重叠的部分,最终是完全有可能将这本书的碎片重新组合,继而拼接成未剪接时的样子,依靠碎片重叠,将整个碎片组装成一本完整的书籍,这就是生物学中的序列拼接问题的最好举例。话虽如此,不过在解决实际情况时,我们所研究的问题,远远不止这些,也没有这么简单,因为事物具有一定的偶然性。就上述问题来说,假如在剪碎片时,由于自身的原因,我们将一千万个小碎片中的一部分碎片丢失了,而另外一部分碎片又不巧被一些东
10