基于RNA测序技术的转录组从头拼接算法研究(2)

2019-03-22 21:45

第一章 绪论

随着科技的增强,生物信息学的范畴也逐步增长,生物信息学是改革开放以来,出现的一门新颖的交叉学科,它主要的研究意义是利用数学、统计学以及信息学的相关知识,再结合计算机科学的相关研究知识去探讨并解决生物学上出现的问题。又随着生物学上的基因组测序技术的突破、而分子结构的测定技术在互联网的普及下又迈入了另一层面。

据此,生物数据在科技的冲击下,沿直线上增,数以百计的生物学数据库如同雨后春算般迅速成长,这些数据给生物学的研宄提供了一定的屏障。对于复杂多变的生物数据,生物学家们需要借助一定的数学算法和计算工具去研究并处理分析这些数据。然后在从生物数据中获取更多的有用信息,周而复始,逐步沉淀,从而形成生物信息学。

在当下,对于生物信息学的研究,则主要是集中在分子生物学这一领域上。而所谓的分子生物学,它主要是研究细胞内的核酸、脂肪、蛋白质等大分子的组成、形态、结构特征等等,根据这些特征的研究数据,人类可以真正地从分子平面上了解生物的特征与生活习性,进一步了解一些微生物的结构组成,在研究细胞内大分子的结构特征时,主要是研宄细胞内的DNA重组、遗传物质的表达、以及一些大分子的结构与功能等等。

经过几十年的研究,生物信息学的发展与突破就如同催化剂般在逻辑层次上极大限度地推动了分子生物学的进步与发展。与此同时,

1

生物信息学在其他领域范畴内也产生了共鸣。在数学领域上、计算机科学领域内都留下了诸多具有挑战意味的学术问题。例如对于遗传物质的剪接研究,也有一定的冲击效果,本文也主要研究遗传物质的剪接问题。众所周知,在遗传物质的剪接过程中,mRNA(信使RNA)的产生并不单一,有着两种或者多种以上的mRNA,故此,通过翻译过程皆能产生两种或者多种以上的蛋白质,该现象在分子生物学上人们称其为可变剪接。

对于可变剪接,在生物学中,若真核生物经过一定的手段处理,基因中的内含子就会被处理掉,而所有的外显子就会相连。而基因中的外显子之间就获得不同的组合方式,从而形成不种种类的信使RNA。

就目前而言,在信息生物学上,可变剪接的方法常常用于对真核生物的处理,且越来越普遍,对于人类而言,基因中都具有多个外显子,这也是说,在人类的细胞内大约有95%以上的基因都存在着可变剪接。可变剪接的出现极大程度地增加编码的种类,这也是体现蛋白质多样性的主要因素。

在对细胞结构的研究中,我们已然知晓,细胞内所有的染色体物质皆构成一个庞大的基因组。而相对于真核生物的基因而言,原核生物的基因结构较于简普,简言之,原核生物的基因就是一段具有编码蛋白质的碱基序列,它并存在外显子与内含子,所以结构较为简单。真核生物的基因结构比原核生物的基因结构复杂得多,它不仅包括具有编码蛋白质功能的外显子(exon),还含有不具有编码蛋白质能力内

2

含子(intron),外显子与内含子的存在也是分辨原核生物与真核生物的一大因素。

基因传递遗传信息是以蛋白质的形式表达,在表达过程中,蛋白质的形成包括两个阶段,其一为转录(transcription),其二则为翻译(translation)。转录是机体的遗传信息由DNA转向RNA的过程,即以双链DNA中的一条单链为模板,以四种核苷酸为原料,在RNA聚合酶的催化作用下生成RNA的过程,其中,四种核苷酸分别为腺嘌呤(A)、鸟漂呤(G)、胞啼唼(C)、尿喷唆(U)。在转录过程中,对于每一个RNA分子,我们都称之为转录体(transcript),而一个细胞又包含着成千上万的转录体,转录体的总和即为一个转录组。转录完成之后,才完成蛋白质合成的前一部分工作,转录体还需要进入下一环节,才能合成具有生物功能的蛋白质,此环节则为翻译,所谓翻译,也就是利用RNA合成蛋白质的过程。

在本文中,研究的主要问题主要针对于转录阶段,对于翻译阶段,且不坐谈。故此,我们主要着重于介绍蛋白质合成中的转录过程,翻译过程在此且不着分析。

对于基因的转录过程,一般分为预启动、启动、核糖核酸聚合酶与启动子脱离、转录延续与转录终止这五个阶段。在转录过程中,其主要是由DNA的一条链着手,借助于RNA聚合酶与其它转录蛋白的帮助,从而合成一条对应的核糖核酸序列。该序列的作用,就是将遗传基因中的存储信息完整地复制出来。在DNA转录成RNA时,我们通过等价关系,可以将DNA中的T转换成了RNA中的U,这样便简

3

化分析。

以上言论,只对于真核生物,原核生物的转录阶段相对于真核生物,较为简单,其转录后的产物皆可以直接用于翻译蛋白质(个别噬菌体除外)。而真核生物的基因由编码蛋白质的外显子和不编码蛋白质的内含子组成,转录过程中,首先会形成mRNA前体,然后经过加工,再翻译成蛋白质。

转录组是合成蛋白质的核心部件,基于其重要性,本文则以当前一些转录组拼接算法为基础,去研究并提出了一个全新的转录组从头拼接算法(Bridger),巧妙地利用基于参考基因组算法的一些技巧来弥补目前从头拼接算法的不足。

第一章 分子生物学的背景知识

1.1生物学基础

众所周知,对于生物而言,其遗传密码是以DNA的形式存在于基因组中。而DNA分子是一个依照碱基互补配对原则,由两条核苷酸链构成的双螺旋结构的分子化合物。

在RNA的剪接过程中,由于RNA的剪接变化,转录体就会发生多种异常情况,而转录体的异常剪接,正是疾病产生的导火索。

就中国科学院近几年的研宄表明,生物所有的致病变异,就有三分之二的疾病变异产生于可变剪接阶段。在对癌症的研究中,异常的

4

可变剪接时常发生在癌细胞中,这也是导致癌细胞增值的主要原因,是产生癌症的因素之一。因此,在对遗传物质的研究时,研究可变剪接过程,对于治疗许多人类疾病(包括癌症)都有着不可磨灭的意义。

1.2测序技术

测序技术的发展对于可变剪接的研究给予了一定的便利条件。为此,在研究可变剪接时,我们有必要了解第二代测序技术与RNA测序。掌握这些知识,在分子生物学中,对于分析测序数据与设计转录组拼接算法都异常常重要。

1.2.1测序技术的发展

20世纪50年代初,测序技术在生物界中横空出世,在测序技术出现的早期,人们就懂得利用化学降解的方法去研究并测定了DNA中的多聚核糖核苷酸序列。在后来,学者Sanger与Gilbert在此基础上又分别探寻出两种不同的DNA测序方法,这些测序方法的产生,有着及其重要的意义,它标志着第一代测序技术的诞生。而Sanger的双脱氧核苗酸末端终止测序法最终占据了第一代测序的主流地位。

又历经十余年,经过六个国家的不懈努力,在2001年,完成了人类基因组计划(Human Genome Project, HGP)。时光不老,科学家们经过十年的艰辛,终于在解读基因密码上取得了一定的突破,继而

5


基于RNA测序技术的转录组从头拼接算法研究(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:NachOS实验报告(4个全)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: