基于RNA测序技术的转录组从头拼接算法研究

2019-03-22 21:45

基于RNA测序技术的转录组从头拼接算法研究

学院: 专业: 班级: 学生姓名: 学号: 指导老师: 完成日期:

I

摘要:生物信息学主要研究分子生物学领域,而对于分子生物学领域,

转录组的从头拼接又是其核心内容,即利用转录组的测序片段拼接出整个转录组中的所有表达的转录体。而RNA测序的出现,在计算上给转录组的拼接提供了一定的挑战。在目前,转录组的拼接算法主要是基于参考基因组的拼接方法与从头拼接方法。虽然基于参考基因组的方法比从头拼接方法更有突破性,不过基于参考基因组的拼接方法,仍然存在着一定的致命缺点,即为要有一个高质量的参考基因组。而从实际情况分析,绝大多数的生物根本不存在一个可供参考的已知基因组,相比之下,头拼接算法的重要性就突显而出。基于该现象,本文主要在分析当前拼接算法的基础上,提出了一个全新的转录组从头拼接算法(Bridger),巧妙地利用基于参考基因组算法的一些技巧来弥补目前从头拼接算法的不足。借助人、狗与老鼠的RNA测序数据上的测试结果,来表明Bridger比当前所有的从头拼接算法突出。除此之外,还将通过例子展示了Bridger在实际应用中重要价值。最后,提出总结,进一步介绍了转录组拼接下游的一些研究工作与研究方向。 关键词:生物信息;参考基因组;拼接算法;测序数据

Abstract: The main field of bioinformatics research in molecular

biology, and for the field of molecular biology, scratch spliced transcripts group is the core content, namely the use of transcriptase sequencing fragments of mosaic in the entire transcriptase expression of all transcripts. The emergence of RNA sequencing, spliced transcripts in the calculation to provide a certain set of challenges. At the moment,

II

stitching algorithm transcriptase mainly splicing method reference genome from scratch stitching method. Although the reference genome-based approach is more than de novo mosaic method breakthrough, but based on the reference genome splicing method, there are still some fatal flaw, that is to have a high-quality reference genome. From the analysis of the actual situation, the vast majority of organisms does not exist an alternative known reference genome, by contrast, the importance of the first stitching algorithm to highlight out. Based on this phenomenon, this paper based on the analysis of the current stitching algorithm, proposed a new de novo transcriptase stitching algorithm (Bridger), clever use of some techniques based on the reference genome de novo algorithm to supplement the current stitching algorithm. With people, test results RNA sequencing data on dogs and rats, to show all current Bridger prominent than stitching algorithm from scratch. In addition, by way of example will demonstrate the important value of Bridger in practical applications. Finally, summarize, and further describes some research work and research transcriptase downstream splicing.

Keywords: bioinformatics; reference genome; stitching algorithm;

sequencing data

III

目 录

摘要…………………………………………………………………………………………………..ii 第一章 绪论

第一章 分子生物学的背景知识

1.1生物学基础??????????????????????3 1.2测序技术............................................................................................3 1.2.1测序技术的发展…………………………………………………………………………3 1.2.2单端测序和双端测序?????????????????4 1.2.3 RNA 测序………………………………………………………………………………….5 1.3 测序片段的拼接……………………………………………………………………………6 第二章 拼接算法的研究现状分析

2.1基因组的拼接算法 ………………………………………………………………………14 2.1.1贪婪方法 ………………………………………………………………………………….16 2.1.2重叠-排列-共有序列的方法………………………………………………………17 2.1.3 De Bruijn 图方法………………………………………………………………………..18 2.2基于参考基因组的转录组拼接算法…………………………………………….20 2.3基因组从头拼接算法??????????????????22 2.4转录组从头拼接算法的改进???????????????25 第三章Bridger:新的转录组从头拼接算法

3.1拼接前的考虑?????????????????????30

3.1.1测序数据的特点???????????????????30 3.1.2测序错误的预处理??????????????????31 3.2算法的创新点?????????????????????32 3.2.1舍弃deBruijn图而去构造剪接图???????????32 3.2.3引进兼容图和最小路覆盖模型?????????????37 3.2.4通过加权巧妙地利用测序深度信息???????????38 3.3Bridger算法?????????????????????39 3.3.1利用RNA测序片段构造剪接图?????????????40 3.3.2构造兼容图?????????????????????41 3.3.3寻找最优的转录体集合????????????????43 第四章Bridger的测评

4.1测试数据和评价标准??????????????????44 4.1.1测试的数据?????????????????????45

IV

4.1.2参数设置??????????????????????45 4.2评价方法和标准????????????????????47 4.3 Bridger的优缺点???????????????????49 4.4 Bridger的下游分析..……………………………………………………………………..51 第五章 总结

参考文献 ………….………………………………………………………………………………55 致谢词 ?????????????????????????67

V


基于RNA测序技术的转录组从头拼接算法研究.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:NachOS实验报告(4个全)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: