数学建模 DNA序列分类模型（终稿）(2)

2019-04-13 21:38

xik：特征向量

i的第k个分量

dmaxdmin：不同向量代表的p维空间中任意两点间Lance和Williams距离的最大值：不同向量代表的p维空间中任意两点间Lance和Williams距离的最小值

i类的标准向量，i为A或B

yi：聚类分析中

六、数据预处理

1.A类和B类样品单个碱基丰度的计算

用maTlab编写程序（见附件3），分别求出20条已知类别的人工制造的DNA序列中，4种碱基的丰度，绘出散点图如下：

图6.1.1 单个碱基丰度比较图

分析上图可得， A类和B类DNA序列中碱基T和碱基G的丰度有明显差异，而碱基A和碱基C的丰度则比较接近。

2. A类和B类样品不同碱基丰度之比的计算

用matlab编写程序（见附件4），分别求出20条已知类别的人工制造的DNA序列中，不同碱基的丰度之比，包括fTA、fCA、fGA、fCT、fGT、fGC，绘出散点图如下：

图6.1.2 不同碱基丰度之比的比较图

分析上图可得， A类和B类DNA序列中，碱基T与碱基A的丰度之比、碱基G与碱基A的丰度之比、碱基C与碱基T的丰度之比、碱基G与碱基T的丰度之比有明显差异，而碱基C与碱基A的丰度之比、碱基G与碱基C的丰度之比则比较接近。

3.将编号1-40人工制造的DNA序列的中，碱基T的丰度、碱基G的丰度、碱基T与碱基A的丰度之比、碱基G与碱基A的丰度之比、碱基C与碱基T的丰度之比、碱基G与碱基T的丰度之比，用表格的形式加以表达（见附件5，表1）。 4.统计所有DNA序列中碱基A、T、C、G的比例，发现在未知类别的人工制造的DNA序列以及自然序列中并非只存在A、T、C、G四种碱基，还存在n、s、w、y等特殊碱基，这可能和生物自身需要完成的特定功能有关，具体列表如下：表2 特殊的DNA序列及特殊碱基种类 DNA序列特殊碱基 DNA序列特殊碱基人工—37号 s 自然—131 n 自然—71 n 自然—147 n 自然—101 n、s 自然—169 n 自然—105 r、s、w、y 由上表可知，编号1-20的人工制造的DNA序列中并未出现特殊碱基，所以

在提取特征时不需要考虑特殊碱基的影响，同样，在处理编号21-40的人工制造的DNA序列以及182条自然序列时，也不必考虑特殊碱基的影响，使用数据时，可将特殊碱基直接剔除。

七、模型的建立与求解

7.1模型一：聚类分析延拓模型

要使DNA序列的分类能够尽量科学合理，集中要解决的问题是让分类后的样品满足：同类样品间的差异性尽可能小，不同类样品间的差异性尽可能大。

为达到上述目的，引入聚类分析模型对不同的DNA序列进行分类。 7.1.1模型一的建立

聚类分析方法根据分类对象的不同可以分为两类：1.对样品所作的分类，即Q-型聚类，2.对变量所作的分类，即R-型聚类。此问题将给出的不同DNA序列看成是不同的样品，选用Q-型聚类进行具体求解。（1）样品特征变量的引入

为了刻画不同样品的性质，需要对样品引入统一的特征作为样品特征变量，特征变量的确定来源于聚类分析前对数据进行预处理得到的分析结果。

1）样品中A，C，T，G的碱基丰度样品i中A碱基丰度的计算：

FA?nA/Ni

（1）

其他碱基丰度的计算方法同上。

绘出编号1-20的人工制造的已知类别的DNA序列中4种碱基丰度的离散统计图（图6.1.1）。

观察该散点图，进行数据分析可得：DNA序列中碱基A和碱基C在分类A和B中的区分不大，均大致在相同的频率区间内波动，故不选用碱基A和碱基C的丰度作为特征区分；而DNA序列中碱基T和碱基G在分类A和B中的区分较大，A类和B类相应的碱基丰度分别集中在不同的频率区间范围内，故选用碱基T和碱基G的丰度作为特征区分。

将T的碱基丰度作为样品的第1个特征变量，记为1。将G的碱基丰度作为样品的第2个特征变量，记为2）样品不同碱基间的比例

样品i中碱基T和碱基A的比值计算：

fGT?nG/nTxx2。

（2）

其他碱基比例的计算方法同上。

绘出编号1-20的人工制造的已知类别的DNA序列中不同碱基的丰度之比的离散统计图（图6.1.2）。

观察该散点图，进行数据分析可得：DNA序列中碱基T和碱基A的丰度之比以及碱基G和碱基T的丰度之比在分类A和B中的区分较大，A类和B类相应的碱基丰度之比分别集中在不同的频率区间范围内，故选用碱基T和碱基A的丰度之比以及碱基G和碱基T的丰度之比作为特征区分。

将碱基T和碱基A的比值作为样品的第3个特征变量，记为x3。将碱基G和碱基T的比值作为样品的第4个特征变量，记为x4。

（2）样品特征数据的向量转化

把上述得到的4种特征变量分别作为一个向量的四个分量，用该向量作为样品特征向量来描述不同样品。

由附件5表1，编号1-40样品的x1、x2、x3和x4的值分别为表中的第1、2、3、6列。

于是得到编号1-20的样品的20个特征向量如下：

Y1?(0.1351, 0.3964, 0.4545, 2.9333)；Y2?(0.1532, 0.4144, 0.5667, 2.7059)；

Y3?(0.0631, 0.4505, 0.2333, 7.1429)；Y4?(0.2883, 0.1802, 0.6809, 0.6250)； Y5?(0.1081, 0.4234, 0.4615, 3.9167)；Y6?(0.1261, 0.3964, 0.3590, 3.1429)； Y7?(0.1892, 0.3604, 0.5385, 1.9048)；Y8?(0.1892, 0.3694, 0.6774, 1.9524)； Y9?(0.1532, 0.4324, 0.7391, 2.8235)；Y10?(0.1364, 0.4091, 0.7500, 3.0000)； Y11?(0.5000, 0.1000, 1.4103, 0.2000)；Y12?(0.5000, 0.1455, 1.5278, 0.2909)； Y13?(0.5182, 0.1273, 2.0357, 0.2456)；Y14?(0.5000, 0.1182, 1.6667, 0.2364)； Y15?(0.6455, 0.0636, 2.2188, 0.0986)；Y16?(0.4636, 0.0909, 1.2750, 0.1961)； Y17?(0.2636, 0.1364, 0.7436, 0.5172)；Y18?(0.5000, 0.0909, 1.7188, 0.1818)； Y19?(0.5636, 0.0727, 2.5833, 0.1290)；Y20?(0.5636, 0.0636, 2.8182, 0.1129)。

（3）不同样品的相似性度量（分析编号1-20的样品）

因为20个已知类别的DNA序列的样品变量均属于数值型数据，所以两个个体的相似度是指它们在欧氏空间中互相邻近的程度。据此，引用距离测度来描述不同样品的相似性。距离测度小的两个样品，相似性较高；反之，距离测度大的两个样品，相似性较低。

为了排除不同变量之间的相互影响，以及减弱较大数据出现时对结果的不良影响，即减弱较大值（包括异常值）的敏感度。选用Lance和Williams距离来描述距离测度，进而衡量不同样品间的相似性。此外，Lance和Williams距离还与样品变量的单位无关，使结果无量纲化。

向量Yi和向量Yj间的Lance和Williams距离为：

pdij??k?1|xik?xjk|(xik?xjk)

（3）

用公式（3）计算所有向量所代表的p维空间中所有样品点之间的两两距离。由排列组合知识，所有向量（n个）进行两两组合的个数为：Cn2，分别计算出每个组合的Lance和Williams距离。

2本次聚类中选用的向量个数为n=20，一共有C20?190种组合，用matlab编

程（见附件6 ）求解出所有组合的Lance和Williams距离，并对数据进行比较得出dmax?3.3671。

（4）根据距离测度进行分类 1）样品数据分成两类

由上述得到的dmax，查找dmax所对应的向量组合，假定该向量组合是向量Yi和向量Yj，则将第i个样品和第j个样品分为A，B两类，可以令i样品为A类，令j样品为B类。分别将Yi和Yj作为A，B两类的标准向量yA，yB对剩余样品进行分类。

2）剩余样品分类

样品i和样品j分完类后，还剩余（n-2）个样品未进行分类，将这（n-2）个样品数据分别和A类的标准向量yA进行组合，计算出每个组合的Lance和Williams距离，将所得的距离进行比较，得出最小的dmin，查找dmin所对应的向量，假定该向量是Ya，则将该向量和样品i分为一类，同属于A类。用同样的方法把这（n-2）个样品数据分别和B类的标准向量yB进行组合，得出最小的dmin，假定该组合所对应的向量是Yb，则将该向量和样品j分为一类，同属于B类。

此时得到A组为Ya，Yi。B组为Yb，Yj。

A，B两类标准的重新计算：将此时A，B组中的所有向量分别求出平均值得到A，B类的新的标准向量。 A类的标准向量：

yA?(Ya?Yi)/2

（4）

B类的标准向量：

yB?(Yb?Yj)/ 2 （5） 3）上述步骤后还剩余（n-4）个样品未进行分类，依照2）剩余样品分类给

出的方法不断重复进行计算，对所有的剩余样品均实现分类。

共7页:

数学建模 DNA序列分类模型（终稿）(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档