数学建模 DNA序列分类模型（终稿）(4)

2019-04-13 21:38

B类样品对应的计算结果为：-65.0506，-49.6990，-51.0506，-54.0132，-55.0132，-41.5850，-54.2147，-68.5376，-52.9586，-53.7212，-54.9208。（2）同类样品间的差异性判定

对上面的数据，按照类为单位分别计算相应的平均值，得到A类的平均值为：

?A??60.3638，B类的平均值为：?B??53.5714。

__用公式S?2?(?n?1i?11ni_2??)_分别求A类和B类的无偏方差。（S2为方差，?i为

第i个最大概率取对数的值，?为平均概率取对数的值，?为标准差）

这样进一步得到A类和B类的标准差分别为?A?2.6464，?B?6.6158，该标准差的值较小说明同类样品间的差异性较小。

（3）不同类样品间的差异性判定

将A类的9个样品分别用A类的中间状态概率和B类的中间状态概率进行计算得到两组平均值：?A1? -60.3638，?A2? -66.2520。（?A1表示A类的9个样品用A类的中间状态概率得到平均值，?A2表示A类的9个样品用B类的中间状态概率得到平均值）

同理将B类的11个样品分别用A类的中间状态概率和B类的中间状态概率进行计算得到两组平均值：?B1? -76.2691，?B2? -53.5714。（?B1表示B类的11

________个样品用A类的中间状态概率得到平均值，B2表示B类的11个样品用B类的中间状态概率得到平均值）

A类样品的两个标准差:

SA1?2?(??n?1i?11ni_2??A1),?A1= 2.6464

2SA2?2(??n?1i?11ni_??A2),

?A2= 3.1973

(SA1表示A类样品通过A类的中间状态概率计算得到的方差，?A1表示A类样品通过A类的中间状态概率计算得到的标准差，SA2表示A类样品通过B类的中间状态概率计算得到的方差，?A2表示A类样品通过B类的中间状态概率计算得到的标准差)

A类样品中分别用A类的中间状态概率和B类的中间状态概率进行计算，所得结果的差异性：

rA??A1??A2__=0.3273|?A1??A2|（rA表示A类样品中两种中间状态概率

计算结果的相关系数）

把B类的11个样品用上述的方法做同样的处理，得到B类样品中两种中间状态概率计算结果的相关系数：

rB??B1??B2__=0.8809|?B1??B2|

上述相关系数间接刻画了两类别间的差异性大小，值越小，则说明不同类样品间的差异性越大；反之,值越大，则说明不同类样品间的差异性越小。

选取两个系数中的较差值rB作为最后的相关性系数（依照最差值选取原则，若最差值也能取得较好的结果，则得到整个结果的合理性），该值较小，从而得到不同类样品间的差异性较大。

依照上述给定的判断标准，得到马尔可夫模型的分类效果较好的结论。 7.3模型一与模型二选择的层次分析模型

本文给出了两种不同的模型对DNA序列进行了分类，现用层次分析法综合对两者进行比较，选出其中更优的一个模型。

该层次分析中，目标层为选取两个模型中更优的一个；准则层为模型好坏的评价标准，确定为两点：1.模型分类情况和给定前20个样品的分类情况的相似程度，2.模型自身的分类效果（同类样品间的差异性较小，不同类样品间的差异性较大，则自身的分类效果较好）；方案层为聚类分析延拓模型和马尔科夫模型。

根据上述的层次，给出层次分析的结构图：

图7.3.1 层次分析法的结构图

1）构造准则层对于目标层的成对比较矩阵：

?1A???1/aa??， 1?

其中，a是表示模型与给定分类相似程度与模型自身分类效果重要性之比。求得权向量为：

T?a1?； W??,?1?a1?a???参数确定：a取3，表示模型与给定分类相似程度比自身分类效果稍微重要。

2）构造方案层对准则层各因素的成对比较矩阵并求出权向量相对于指标层模型与给定分类相似程度： B1???1?1/b1b1?? ， 1?其中，b1表示聚类分析延拓模型与马尔科夫模型对于指标层模型与给定分

类相似程度。

求得权向量为：

T?b?1W1??1,?；

?1?b11?b1??参数确定：由于聚类分析延拓模型与模型给定人工序列的分类结果完全吻合，而马尔科夫模型有一条链出现偏差，取b1=5;

求得相对于指标层模型自身分类效果矩阵：

?1B2???1/b2b2??， 1?其中，b2表示聚类分析延拓模型与马尔科夫模型对于指标层模型自身分类效果；

求得权向量为：

T?b?12W2??,?，

?1?b21?b2??参数确定：由于聚类分析延拓模型和马尔科夫模型相比，模型自身分类效果较佳，取b2=3；

由此求得方案最终的权重矩阵为： W(1代入数据解得：

)T?(0.8125 ,0.. 1875) W(1 T?a?bb21a111)???1??,??? ?，?1?a1?b11?a1?b21?a1?b11?a1?b2??由结果可得聚类分析延拓模型明显优于马尔科夫模型，所以采用聚类分析延拓模型作为最终的DNA序列分类模型。

八、模型的评价与改进方向

8.1模型的优点

（1）对整个问题的解决，基于聚类分析法和马尔可夫法分别建立了模型一和模

型二，从中选择较优的模型，避免单一模型解决问题，引起较大误差。（2）建立模型一时，对传统的聚类分析法进行改进，建立了聚类分析延拓模型。（3）进行模型二的求解时，将结果存入矩阵，简化了运算，增加了效率。（4）在进行模型一和模型二的选择时，采用层次分析法，综合考虑评判分类效

果的多个因素。 8.2模型的缺点

（1）在用马尔可夫模型进行分类时，编号1-20人工DNA序列的分类结果没有达

到与已知分类结果完全一致。

（2）在进行模型一和模型二的最终选择时，综合考虑的因素还有欠缺。 8.3模型的改进方向

（1）对编号1-20人工DNA序列特征的分析还有改进之处，例如可以考虑以三联

子密码子为单位、以相邻四个碱基为单位，分析A类和B类的差异。

（2）在模型二中，采用马尔可夫法对后20条人工DNA序列和自然DNA序列进行

分类时，效果不是很理想，可以考虑引进中间变量，采用隐马尔可夫法，对模型进行改进。

九、参考文献

[1]徐全智、杨晋浩，数学建模（第二版），北京：高等教育出版社，2008.6 [2]姜启源、谢金星、叶俊，数学模型（第三版），北京：高等教育出版社，2003.8 [3]梁之舜、邓集贤、杨维权等，概率论与数理统计，中山大学数学系，1987.5 [4]彭放、杨瑞琰、罗文强等，数学建模方法，北京：科学出版社，2007.5 [5]刘祖洞，遗传学（第二版），北京：高等教育出版社，1991 [6]刘秉权，隐马尔可夫模型，2006.11

[7]吕金翅、马小龙、曹芳，DNA 序列分类的数学模型，数学的实践与认识，第31卷第1期，2001.1

[8]樊龙江，序列分析与联配，生物信息学札记

[9]李银山、杨春燕、张伟，DNA 序列分类的神经网络方法，计算机仿真，第20卷第2期，2003.2 [10]孟大志，DNA 序列中的结构与简化模型，数学的实践与认识，第31卷第1 期，2001 .1

[11]电子科技大学应用数学学院，数学实验讲义，2009.9

十、附件清单

附件1：人工制造的DNA序列附件2：自然DNA序列

附件3：A类和B类样品单个碱基丰度的计算和散点图的绘制程序

附件4：A类和B类样品不同碱基丰度之比的计算和散点图的绘制程序附件5：编号1-40样品的不同特征变量值统计表

附件6：求解编号1-20样品两两之间Lance和Williams距离的程序附件7：用聚类分析延拓法求解分类结果的程序附件8：用马尔可夫法对编号21-40人工DNA序列以及182个自然序列进行分类

的程序

附件1：人工制造的DNA序列

见文本文档Art-model-data.txt

附件2：自然DNA序列

共7页:

数学建模 DNA序列分类模型（终稿）(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档