用判别分析的方法判定DNA序列的类别数学建模(2)

2019-05-17 13:10

故 u=(V1+V2)-1(E1-E2)

证明：见《多元统计分析引论》（方开泰，第四章定理3、1的系） Fisher准则的理论意义之一在于将制定判别规则转为讨论一维随机变量而对u（y）（一维随机变量）的讨论包含在距离判别法中。

引理二设有两个母体 ∏1、∏2 , 它们的均值、协差矩阵分别为 E1、E2 和V1、

V2 ，令Di=｛y: d2(y, ∏i)≤min d2(y, ∏j) ，j≠i｝ i=1、2 则距离判别规则为y∈∏i , 若y落在Di内， i=1、2

引理3 在引理1、2的前提与假设下，若V1=V2=V，

则有D1=｛y: (y-(E1+E2)/2)τV-1 (E1-E2)≥0｝，

D2=Rn-D1；

其中 n为随机向量变维数，W(y)= (y-(E1+E2)/2)τV-1(E1-E2)为判别函数。由引理1，引理2，引理3很容易推得

定理1 在引理3的前提与假设下，对∏1、∏2 有相应的判别区域

D1=｛y: uτ(y-E)≥0｝

D2=｛y: uτ(y-E)<0｝=Rn-D1 此 E=(E1+E2)/2。

2、模型的建立（1）、特征的提取

令∏1、∏2 分别表A类DNA序列与B类DNA序列的数字特征的随机向量母体，以片段长为110的DNA序列中所含A、C、G、T的频数（平均而言）为此序列的数字特征，其构成一四维向量（A，C，G，T）。因母体 ∏1、∏2参数未知，故需通过检验样本来估计令V1=1/(n1-1)×S1 V2=1/(n2-1×S2

此S1、S2、n1、n2分别表A类检验样本与B类检验样本的方差的n1-1倍与容量（n1=10=n2）故V1+V2=1/(n1-1×S1+ 1/(n2-1×S2=(S1+S2)/9

（2）、附加信息的检验

两个母体 ∏1、 ∏2 ，它们的分布分别为N4(E1,V1) N4(E2,V2)，4为维数需检验H0 ：E1=E2

当H0被接受时，则区分这两个母体是无意义的，建立判别函数也没意义的。当H0被否定时，这两个母体是可以区别的，检验的H0似然比统计量为∧=|E|/|E+B| 其中 E=S1+S2，B=n1*n2/(n1+n2)(E1-E2)(E1-E2)τ （E1, E2 分别表A、B类检验样本的均值）故∧=0.1293 (因为∧=|E|/|E+B| )

它遵从 ∧（4, 18,1） (m=4,n=20,k=2 ) ，查表得∧0.01(4,118,1)=0.433867, ∧＜∧0.01 高度显著，故A、B两类的指标有明显的差异，将这四组特征提取并区分A、B类

是有道理的。

（3）、判别函数和判别规则的确定

我们采用Fisher判别的方法，在Fisher准则下，E1,E2可由检验样本的统计量来估计。由于V1≠V2 ，故采用加权因子法，用 (V1+V2)/2 来估计V，设E=(E1+E2)/2 故得判别函数 W(y)=(y-E)τ((V1+V2)/2)-1(E1-E2)

判别规则为： y∈∏1, 若 W(y)>=0

y∈∏2,若 W(y)<0

判别程序D为D=（D1，D2），其中

D1=｛y | W(y)>=0｝， D2={y | W(y)<0} 。 3、模型的改进

令c、r1、r2为参数(c>0,r1+r2=1,r1>=0,r2>=0), W(y)=(y-E)τ[(S1×r1+S2×r2 )/9]-1(E1-E2)- 取c=18、r1=5/6、r2=1/6

得新的判别函数W(y)=(y-E)τ[(S1×5/6+S2×1/6 )/9] -1 (E1-E2)-log18，

此时判别规则为： y∈∏1, 若 W(y)>=0

y∈∏2,若 W(y)<0

判别程序D为D=（D1，D2），其中

logc，

c、r1、r2的取值有上述模型对检验样本的检验估算出。

D1=｛y | W(y)>=0｝， D2={y | W(y)<0}。 4、模型的求解：

制作Mathematica软件包将待判样本个体y逐一代入。

五、模型的检验与应用

（1）、对训练样本的判别归类情况如下：

序号理论实际评判１２３４５６７８９１０１１１２１３１４１５１１１１６７８９２０ＡＡＡＢＡＡＡＡＡＡＢＢＢＢＢＢ一致ＢＢＢＢＢＢＢＢＢＢ一一一一致致致致一致ＡＡＡＡＡＡＡＡＡＡＢＢＢＢ一致一致一致不同一致一致一致一致一致一致一致一致一致一致总的历史拟合率为（10+9）÷20=95% （2）、对序列归类判别

利用改进的判别函数W（y）解答问题1、2的结果如下：

问题1（按序号大小排序）：

A类：22，23，25，27，29，34，35，36，37； B类：21，24，26，28，30，31，32，33，38，39，40；

问题2（按序号大小排列）：

A类：5，7，8，9，10, 12, 13，14，15，16，17，18，19，20，21，27，28, 32，

34，35，36，38，40，41，42，43，47，49，50, 51, 52，53，58，59，

60，61，63，65，67，71，73，74, 75, 77，79，83, 84, 86，87, 88，89，93，96，97，98，99，100，102，104，106，109，112，114，116，117，119，120，121,127,128,130，136，138,141，143,146，147，150，151,152,154，155，158，171。(共84条)

B类： 1, 2, 3, 4, 6，11，22，23，24，25, 26，29，30, 31, 33，37, 39,

44，45，46，48，54，55, 56，57，62, 64, 66, 68，69, 70, 72，76，78， 80，81，82, 85，90，91, 92，94，95，101, 103，105, 107，108，110，111, 113, 115，118，122，123，124, 125，126，129，131，132, 133，134, 135，137，139，140，142，144，145，148, 149, 153，156，157，159，160，161，162，163，164， 165， 166，167，168，169，170，172, 173，174，175，176, 177，178，179，180，181, 182。 (共98条)

5、Fisher准则下误判概率求解与分析

给定一个判别程序D=（D1，D2），在执行中总会有两类可能的错误发生：第一类错误是将本属于1类的个体判归于2类，其误判的概率为 P1(D)=∫D2 f1(x)dx

第二类错误是将本属于2类的个体判归于1类，其误判的概率为 P2(D)= ∫D1 f2(x)dx

其中f1（x）、f2（x）分别表Π1、Π2 的分布密度函数，误判概率大小是衡量一个判别好坏的重要标志。

（1）、用Fisher判别方法会发生误判

如：y来自 ∏1 ，却有W（y）〈0

y来自 ∏2 ，有W（y）>= 0 如图：误判概率为图中阴影部分面积

如果Π1、Π2靠得很近，则无论用何种方法误判概率均很大，此时用判别分析意义不大。因此只有当母体的均值有着显著的差异才可作判别分析。而附加信息的检验说明了将Π1、Π2分开是有道理的。

（2）、误（错）判概率的计算

引理４：当ｎ1／ｎ2 1 时,

P{(W(y)-4△(u))/√4△(u) ≤u|∏1}=Ф(u)+1/nф(u) [2(m-1)/√4△(u) -(m+1/4)u -u3/4]+o(n-2)

此ｍ为向量的维数，△(u)为判别效率，n=n1+n2-2

ф(u)为标准正态分布密度，Ф(u)为标准正态分布函数．证明见参考文献[1]。

从引理4可以看到Ф(u)是极限分布，第二大项为修正项,误判概率有如下性质：u<0时它为正；ｍ＝１时，它不依赖于△(u)，当ｍ>1时，它随△(u)增大-而减小; ｕ＜0时，它随ｍ增大而增大。

这些理论结果与实际非常吻合。

在本题中 m=4, △(u)=(E1-E2)τ((S1+S2)/18)-1(E1-E2)，令u= -√4△(u) 则:

P1(D)=P{W(y)<0 ∣∏1}与P2(D)=P{ W(y)>=0 ∣∏2}均很小(<0.005) 若设事前概率q1>0、q2>0(q1+q2=1)

犯第1、2类错误的损失分别为c1和c2，则对于给定的判别D，由误判引起的平均损失（风险）即为c1×q1×P1(D)+c2×q2×P(D) 特别当c1=c2=1时

其数值即为平均误判概率。注：上述参数c=q2c1/q1c2；

对于c1≠c2情形，读者可参考文献[1]。

六、模型的评价与改进方向

1）通过检验样本的回报情况来很看，判错的情况很少，因此说明将样本在这样的判别函数与规则下归类是合理的。

2）通过对假设H0的似然比统计量的计算来论证数字特征的提取与DNA序列分类的合理性。

3）对于一个新的DNA序列，通过上文给出的判别函数与判别规则计算它将落入哪一个总体，从而决定此DNA序列的其它特性，这为人类提供了又一种基因及其特征检验识别的方法。

4）通过本文对错判概率的分析可以认为文中给出的判别分析法在某种程度上具有很高的分辨率。

5）对DNA序列有效判别是多元统计分析方法在生物学中的又一重大应用。 6）通过错判率与实际误判率的比较，说明理论与实际还是有一定的差距的。这根源于本容量（10个）较小，若将检验样本容量增大（>=50个），结果将更加合理。

7）由于时间限制，本文没有论证抽取4个数字特征与抽取更少的数字特征（3或者2），孰优孰劣，但文中利用似然比统计量来论证假设的合理性这种方法可以做到这一点。

8）本文在假设中忽略各种碱基之间键长及其键强对分类的影响，也忽略DNA序列中碱基排列顺序，而这些均是识别DNA序列的重要因素。

共3页:

用判别分析的方法判定DNA序列的类别数学建模(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档