用判别分析的方法判定DNA序列的类别数学建模

2019-05-17 13:10

用判别分析的方法判定DNA序列的类别

摘要

判别分析法是多元统计分析中的重要内容之一。近年来，人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。本文用Fisher判别的思想，从变量检验入手，给出了对DNA序列进行不同分类的理论依据，并探讨错判概率与判别效率之间的关系。通过对检验样本的回报情况分析可知，本文所建立的模型分辨率高（95%），错判率低（<1%），简单而易于运行，适合于各种长度的DNA序列的分类，因此实用性强，有较高的理论价值，为多元统计分析方法在生物信息学领域中应用的又一典型实例。

关键词：DNA

数、错判率。

一、问题提出

序列、Fisher判别法、判别函

1．背景

人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列，其中没有断句，也没有标点符号，除了这4个字符表示4种碱基以外，人们对它包含的内容知之甚少，难以读懂，破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。在这个目标中，研究DNA全序列具有什么结构，由这4个字符排成看似随机的序列中隐藏着什么规律，又是解读这部天书的基础，是生物信息学最重要的课题之一。对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构，充分发掘序列的结构对理解DNA全序列是十分有意义的。

2．问题

有20个已知类别的人工序列：A类，B类。

1. 从中提取特征，构造模型，找出合适的分类方法，并用该法对另20个给出的未知类别的人工序列进行分类，要求详述方法及给出计算程序。

2..对另给出的182个自然序列进行分类。

二．问题的分析

本题重在从已知类别的DNA序列中提取某些特征，构造分类方法，提取的某些特征应满足以下条件： 1）来源于已知样本。

2）具有给予未知类别的DNA序列分类的功能。 3）能较好的接受检验样本的检验。

全部地考虑各种因素（如碱基的排列组合，碱基间的键强及键长等等），无法得到分类方法。忽略以上特征，突出A、C、G、T在DNA序列中出现的频数，对这个特征利用多元统计分析方法可以达到要求。判别分析法对分类问题有着较强的适合性，而在Fisher判别法，Bayes判别法，距离判别法等方法中，Fisher判别法条件更宽、更通用。

三、符号与假设

1、

主要假设

分析DNA序列时，不考虑A、C、T、G出现的顺序。忽略碱基间间键的强弱、长短。

假设文中较小容量的子样能体现母体的一些统计特性。认为DNA序列中A、C、G、T的出现是独立的。

DNA序列中A、C、G、T对DNA序列的影响是平等的。将A类误判为B类与将B类误判为A类的损失是相等的。

（1）（2）（3）（4）（5）（6） 2、

符号的说明

协差矩阵判别区域判别效率判别函数

随机向量母体随机向量的均值

分别为标准正态分布的分布函数与分布密度矩阵的逆

向量u的转置

Vi(i=1、2): Di(i=1、2): △(u): W(y)、u(y): ∏1、∏2: Ei( i=1、2): Ф(u)，ф(u)：

V-1： uτ：

四、模型的建立

1 模型的提出（Fisher判别准则）

Fisher判别准则是借助于方差分析的思想来导出判别函数，此判别函数可以是线性的，也可以是一般的Borel函数。

设有两个母体∏1、∏2，相应的均值、协差阵分别为E1、E2 与V1、V2；任取一样本个体y（n维向量），考虑其线性函数u（y）=uτy（其中u为已知的n维向量），则在y来自∏i条件下均值与方差分别为 ei =E（u（y）︱∏i）=uτEi i=1、2 v i2=V(u（y）︱∏i)=uτVi u i=1、2

令B0= E0=

Fisher准则是适当选择u，使得 △(u) =B0/E0达到最大，此△(u)称为判别效率。一般地，我们有

引理1 若V1+V2的逆存在，则Fisher准则下的线性判别函数与判别效率分别为

u(y)=yτ(V1+V2)-1(E1-E2) △(u)=1/2(E1-E2)τ(V1+V2)-1(E1-E2)

共3页:

用判别分析的方法判定DNA序列的类别数学建模.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档