数学模型在生物信息学教学中的应用(2)

2018-12-29 23:48

模的基因组测序中的信息分析、新基因和新SNP的发现与鉴定、完整基因组的比较研究、大规模基因功能表达谱的分析、生物大分子的结构模拟与药物分析,其远期任务是非编码区信息结构分析、遗传密码起源和生物进化的研究。 2 生物信息学的研究方向

生物信息学的发展异常迅速,现主要包括DNA序列对比、蛋白质结构对比与预测、编码区的基因识别、序列重叠群(Contigs)装配、基于结构的药物设计、非编码区的分析研究、遗传密码的起源、分子进化与比较基因组学、生物系统的建模和仿真、生物信息学技术方法的研究等几个研究方向【4-6】。

第三部分 生物信息学与数学建模的交叉

生物信息学是利用数学和计算机作为工具,不可避免地与数学建模,这一利用计算机和数学理论解决实际问题的学科,无论在研究方法和技术上,还是在运用目的上均产生一定的交叉。 1 方法和技术的交叉

生物信息学所使用的方法与技术包括数学统计方法、动态规划方法、机器学习与模式识别技术、数据库技术与数据挖掘、人工神经网络技术、生物分子的计算机模拟等,而这些恰恰是数学建模领域的核心理论与知识。 1.1 数学统计方法

数据统计、因素分析、多元回归分析是生物学研究必备的工具,而这些是数学建模的统计回归模型中最为基础的知识;隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用,与隐马尔科夫模型相关的技术是马尔科夫链(Markov Chain),而马尔科夫链模型正是数学建模中针对离散状态按照离散时间的随机转移而建立的模型。总之,生物信息学和数学建模有的第一个共同点是,都有对海量数据进行统计分析的过程。 1.2 动态规划方法

动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方法,在每个阶段做出一定的决策并影响后续的决策,最终选择一个最优决策。

当两个DNA序列长度较小时,采用动态规划算法可以很好地解决两个序列的相似性问题。当序列长度太长时,改进的BALST和FASTA算法也是基于动态规划

4

的思想。同时,动态规划在数学建模领域也被用来解决最短路线、库存管理、资源分配等生产和生活中的现实问题。 1.3 机器学习

机器学习一般采用遗传算法、神经网络或聚类分析等,模拟人类的学习过程,以计算机为工具获取知识、积累经验,在拥有大样本、多向量数据的数据分析中发挥着日益重要的作用。比如,聚类分析已经运用于癌症类型的分类,神经网络和隐马尔可夫模型对于缺乏完备理论体系的生物领域也同样奏效。以上聚类分析、神经网络和隐马尔可夫模型均为数学建模中的重点方法。 1.4 数据挖掘

数据挖掘又被称作数据库中的知识发现,在此意义上,生物信息学也是在海量的生物数据中发掘生命的奥秘。基因序列包括外显子和内含子,其中外显子只占其中的一小部分。大部分的内含子序列的作用并不为人知,如何从这些简单的ACGT序列中发现内含子如何参与基因的转录与翻译变得异常重要。比如,利用一阶和二阶马尔可夫链的方法侦测密码区。 1.5 生物分子的计算机模拟

所谓生物分子的计算机模拟就是从分子或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质,常用的方法是蒙特卡罗法和模拟退火方法。 2 目的上的相似

数学建模与生物信息学都会对大量的数据进行统计和分析,都以解决问题为最终目的,并且以求得满意解为重点,因为有时全局最优解难以得到。

5

另外,数学建模和生物信息学的研究都更强调能否具有实用性。比如生物信息学的机器学习技术中运用到了神经网路或隐马氏模型,但人们目前并不清楚该算法或模型是如何到达解的,即对其具体的机理并不十分了解。但这并不妨碍我们使用这种方法,因为这种方法具有使用成功性和可用性。在这个意义上,数学建模也经常通过此类“黑箱” 操作达到特定解。正如Cynthia Gibas和Per Jambeck在《Developing Bioinformatics Computer Skills》的前言所说,生物信息学“is often less about developing perfectly elegant algorithms than it is about answering practical questions”。从这个意义上说,数学建模与生物信息学有着目的上的相似性。

第四部分 数学建模在生物信息学中的部分应用

1.运用数学模型的预测

1993年Rost和Sander[6]提出了三级网络模型,这种神经网络方法已经成为了蛋白质结构预测普遍采用的方法。2003年闫化军等[7]人也通过神经网络算法预测蛋白质二级结构。2007年林卫中等[8]人将GM(1,1)模型应用于蛋白质二级结构类型的预测,把提取出的蛋白质氨基酸的排列信息作为伪氨基酸成分,从而较大的提高了预测的成功率。2008年邱望仁等[9]人将OET-KNN算法应用于蛋白质二级结构类型的预测,通过LZ复杂度的算法计算了伪氨基酸的成分,再用OET-KNN算法分类预测,从而也较大的提高了预测的成功率。

Bader等[10]人将Logistic回归模型用来预测蛋白质之间的生物学关系,这种运用使得通过遗传学和基因表达数据来分析蛋白质数据成为了可能。2006年王明会等[11]人将Markov链模型应用于蛋白质可溶性的预测,预测精度普遍好于或接近于神经网络、信息论和支持向量机法的结果,而且该模型的运算复杂度低,耗时也更短。2006年张菁晶等[12]人将隐马尔可夫模型运用于目标基因全基因组的预测,同量高、准确度高并且操作简单,尤其在多结构域蛋白家族的预测上优势明显。2008年刘桂霞等[13]人提出了一种带偏差单元的递归神经网络模型。该模型根据BP算法得出权系数调整规则,使得收敛速度比一般的BP网络更快,对于预测蛋白质关联图有一定的实用价值。

6

2.运用数学模型的数据分析

1997年Carr等[14]研究了大鼠脊髓的基因活动,通过聚类分析证明具有已知相似功能的基因属于一类。2006年张文彤等[15]人综合了聚类方法和进化树分析的优点,通过先聚类将数据拆分,然后根据聚类的类别构建进化树,这种方法可以很好地在大样本数据中应用,并以甲型流感病毒的H3A1序列作为实例,构建拼接出了完整的进化树结果。

2006年徐丽等[16]人针对Viterbi算法和Baum-Welch算法在隐马尔可夫模型(Hidden Markov Model)的参数估计中无法找到全局最优解,提出了基于遗传算法的HMM参数估计,这种方法用于多序列对比研究时可以更好的避免局部最优解。2007年周晓彦等[17]人通过综合模糊数学和核判别方法的优点,提出了一种基于模糊核判别分析的基因表达数据分析方法,并以多发性骨髓瘤的基因表达数据为例证实了这种方法的可行性和精确性。2007年刘万霖等[18]人介绍了构建基因调控网络的多种算法和方法,比如马尔可夫链可以用于分析时间序列微阵列表达数据;将随机和概率等引入布尔网络模型,可以增强基因网络调控的精确性;贝叶斯网络模型在Friedman和Pe’er等人做出了开拓性的工作后,在基因表达数据和调控网络方面得到了快速的发展。

参考文献

[1] 冯杰等.数学建模原理与案例.科学出版社,2007.

[2] 高隆昌,杨元著.数学建模基础理论.科学出版社,2007.

[3] 戴朝寿,孙世良. 数学建模简明教程. 高等教育出版社,2007. [4] 陶士珩. 生物信息学. 科学出版社,2007.

[5] DAVID W. MOUNT.生物信息学:中文版. 高等教育出版社,2003.

[6] Rost B, Sander C. Proc. Natl. Acad. Sci. USA, Biothysics, 1993,90:7558-7562

[7] 闫化军,傅 彦,章 毅等.神经网络方法预测蛋白质二级结构.计算机科学.2003,30(11):48-52

7

[8] 林卫中, 肖绚. 基于GM(1,1)模型的蛋白质二级结构类型预测. 计算机工程与应用, 2007, 43(34): 41-45

[9] 邱望仁, 肖绚, 林卫中. 基于OET-KNN算法的蛋白质二级结构类型预测. 计算机工程与应用, 2008, 44(29): 204-210

[10] Bader JS,Chaudhuri A,Rothberg JM,et al. Gaining confidence in high-throughput protein interaction network. Nat Biotechnol,2004,22: 78-85

[11] 王明会, 李 骜, 王娴等. Markov链模型在蛋白质可溶性预测中的应用. 生物医学工程学杂志, 2006, 23(5): 1109-1113

[12] 张菁晶,冯 晶,朱英国.全基因组预测目标基因的新方法及其应用.遗传.2006,28(10):1299-1305

[13] 刘桂霞, 于哲舟, 周春光. 基于带偏差递归神经网络蛋白质关联图的预测. 吉林大学学报(理学版), 2008, 46(2): 265-270

[14] Carr DB, Somogyi R, Michaels G. Templates for looking at gene expression clustering. Statistical Computing & Statistical Graphics Newsletter, 1997,8:20-29

[15] 张文彤, 姜庆五.聚类技术在大样本序列进化树分析中的应用.中国卫生统计.2006,23(5):393-396

[16] 徐丽,康瑞华.基于遗传算法的HMM参数估计. 湖北工业大学学报. 2006,21(4):68-71 [17] 周晓彦,郑文明.基于模糊核判别分析的基因表达数据分析方法. 华中科技大学学报(自然科学版), 2007, 35(I): 173-176

[18] 刘万霖,李 栋,朱云平等.基于微阵列数据构建基因调控网络.遗传,2007,29(12):1434-1442

8


数学模型在生物信息学教学中的应用(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:西北农林科技大学研究生学位论文开题论证的暂行规定

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: