肿瘤基因图谱信息提取和分类方法研究

2019-05-24 18:31

全国第七届研究生数学建模竞赛

题目肿瘤基因图谱信息提取和分类方法研究

摘要：

本文讨论了肿瘤基因图谱信息提取方法，主要工作是提取结肠癌基因表达谱的特征基因信息，并利用神经网络进行分类识别。

对于问题一、二，本文采用了一种致癌基因信息提取与分类方法，该方法主要由四步构成：（1）利用Bhattacharyya距离法滤除无关基因；（2）采用两两冗余分析，剔除强相关冗余基因；同时，采用主成分分析方法对所选择的基因样本数据进行降维处理，得到样本的主成分量；（3）对特征提取后的基因数据采用四种神经网络（BP神经网络及三种径向基神经网络）进行分类学习，训练获得分类网络模型；（4）采用获得的分类网络模型对测试肿瘤样本进行分类，并采用留一交叉检验法和独立检验法评估四种神经网络分类器性能。结果表明：本文所采用的特征提取方法能有效提出与肿瘤相关的信息基因，选取的特征基因子集包含9个基因，且采用概率神经网络（PNN）的分类识别准确率（77.27%）最高。

对于问题三，采用小波去噪方法消除基因信息采集过程中的随机误差。为最大限度地消除噪声并保证原始数据信息损失最小，本文分别采用db3、db5、sym8、haar等不同小波基进行去噪，通过对概率神经网络分类的结果比较可知：选择haar小波基对所有数据进行消噪，提取到的特征信息基因更为有效。在独立测试实验中，概率神经网络对22个样本数据的识别准确率为100%。

对于问题四，本文采用信息融合的方法，利用加权评分法建立了融入生理学确定信息基因的多信源信息融合模型。通过对PNN-WG模型求解，验证了提出融合模型可将原有概率神经网络的分类准确性从77.27%提高到86.36%，达到了多源信息融合的目的。

最后，评价了本文模型和算法的优点，并给出了进一步研究的方向。关键词：肿瘤基因；特征提取；分类识别；小波去噪；信息融合

一、问题重述

癌症起源于正常组织在物理或化学致癌物的诱导下，基因组发生的突变，即基因在结构上发生碱基对的组成或排列顺序的改变，因而改变了基因原来的正常分布（即所包含基因的种类和各类基因以该基因转录的mRNA的多少来衡量的表达水平）。所以探讨基因分布的改变与癌症发生之间的关系具有深远的意义。

DNA微阵列（DNA microarray），也叫基因芯片，是最近数年发展起来的一种能快速、高效检测DNA片段序列、基因表达水平的新技术。它将数目从几百个到上百万个不等的称之为探针的核苷酸序列固定在小的玻璃或硅片等固体基片或膜上，该固定有探针的基片就称之为DNA微阵列。根据核苷酸分子在形成双链时遵循碱基互补原则，就可以检测出样本中与探针阵列中互补的核苷酸片段，从而得到样本中关于基因表达的信息，这就是基因表达谱，因此基因表达谱可以用一个矩阵或一个向量来表示，矩阵或向量元素的数值大小即该基因的表达水平。

随着大规模基因表达谱技术的发展，人类各种组织的正常的基因表达已经获得，各类病人的基因表达分布图都有了参考的基准，因此基因表达数据的分析与建模已经成为生物信息学研究领域中的重要课题。从DNA 芯片所测量的成千上万个基因中，找出决定样本类别的一组基因“标签”，即“信息基因”是正确识别肿瘤类型、给出可靠诊断和简化实验分析的关键所在。

通常由于基因数目很大，在判断肿瘤基因标签的过程中，需要剔除掉大量“无关基因”，从而大大缩小需要搜索的致癌基因范围。事实上，在基因表达谱中，一些基因的表达水平在所有样本中都非常接近。因此，必须对这些“无关基因”进行剔除。

但信噪比肯定不是衡量基因对样本分类贡献大小的唯一标准，肿瘤是致癌基因、抑癌基因、促癌基因和蛋白质通过多种方式作用的结果，在确定某种肿瘤的基因标签时，应该设法充分利用其他有价值的信息。有专家认为在基因分类研究中忽略基因低水平表达、差异不大的表达的倾向应该被纠正，与临床问题相关的主要生理学信息应该融合到基因分类研究中。

面对提取基因图谱信息这样前沿性课题，以下几点是解决前沿性课题的有价值的工作。

（1）由于基因表示之间存在着很强的相关性，所以对于某种特定的肿瘤，似乎会有大量的基因都与该肿瘤类型识别相关，但一般认为与一种肿瘤直接相关的突变基因数目很少。对于给定的数据，如何从上述观点出发，选择最好的分类因素？

（2）相对于基因数目，样本往往很小，如果直接用于分类会造成小样本的学习问题，如何减少用于分类识别的基因特征是分类问题的核心，事实上只有当这种特征较少时，分类的效果才更好些。对于给定的结肠癌数据如何从分类的角度确定相应的基因“标签”？

（3）基因表达谱中不可避免地含有噪声，有的噪声强度甚至较大，对含有噪声的基因表达谱提取信息时会产生偏差。通过建立噪声模型，分析给定数据中的噪声能否对确定基因标签产生有利的影响？

（4）在肿瘤研究领域通常会已知若干个信息基因与某种癌症的关系密切，建立融入了这些有助于诊断肿瘤信息的确定基因“标签”的数学模型。

二、问题分析

本文问题的关键是解决如何从基因表达数据中提取肿瘤分类特征信息以达到对基因表达谱数据进行大幅度降维的目的。

对于第一个问题，由于基因表示之间存在着很强的相关性，所以对于某种特定的肿瘤，似乎会有大量的基因都与该肿瘤类型识别相关，但一般认为与一种肿瘤直接相关的突变基因数目很少。所以，首先应基于给定数据，采用某一种基因排序方法进行基因初选。通常根据数据分布得到的经验值得到选择信息基因的个数。

对于第二个问题，相对于基因数目，样本往往很小，如果直接用于分类会造成小样本的学习问题，如何减少用于分类识别的基因特征是分类问题的核心，事实上只有当这种特征较少时，分类的效果才更好些。所以，第二步需要采用特征提取方法从初选出的信息基因子集中提取分类特征信息，因为这些初选出来的信息基因相互之间存在高度的相关性，而具有这个特点的数据集也适合于采用诸如主成分分析这类降维方法。

对于第三个问题，由于基因表达谱中不可避免地含有噪声，有的噪声强度甚至较大，对含有噪声的基因表达谱提取信息时会产生偏差。所以，需要通过建立噪声模型，分析给定数据中的噪声能否对确定基因标签产生有利的影响。对于第四个问题，在肿瘤研究领域通常会已知若干个信息基因与某种癌症的关系密切，所以需要采用信息融合的方法，建立融入有助于诊断肿瘤信息的确定信息基因的数学模型。

三、模型假设

1、所给基因数据不含奇异数据；

2、基因的功能与作用是多个基因集体作用的结果；

3、与一种肿瘤直接相关的突变基因数目很少；

4、基因表达谱中含有噪声主要由基因采集过程中随机性产生的误差构成； 5、本文利用的临床生理学信息：大约90%结肠癌在早期有5号染色体长臂APC基因的失活，而只有40%~50%的ras相关基因突变。可看作基于APC基因的分类可信度为0.9，而基于ras相关基因的分类可信度为0.4~0.5。

四、符号约定

B(g)：基因g的Bhattacharyya距离；

基因gi,gj在训练样本集中表达水平间的Pearson 相Corr_Coef(gi,gj)：关系数；

R：相关系数矩阵；

pk?(a1,a2,?,an)：网络输入向量； Tk?(y1,y2,?,yq)：网络目标向量；

Sk?(s1,s2,?,sp)：中间层单元输入向量； Bk?(b1,b2,?,bp)：中间层单元输出向量； Lk?(l1,l2,?,lq)：输出层单元输入向量； Ck?(c1,c2,?,cq)：输出层单元输出向量；

wij：输入层至中间层的连接权，i?1,2,?,n;j?1,2,?,p； vit：中间层至输出层的连接权，j?1,2,?,p;t?1,2,?,p；

?j：中间层各单元的输出阈值，j?1,2,?,p； ?j：输出层各单元的输出阈值，j?1,2,?,p； ?i：信息基因的可信度，i?1,2,?,n；

?i：神经网络输出结果赋予权值，i?1,2,?,n；

S?(S1,S2,?,Sp)：加权评分向量；

f(i)：真实信号； e(i)：信号中的噪声； s(i)：含噪声的信号。

五、问题一、二的建模与求解

肿瘤分类特征基因选取的目的在于从原始基因集合中提取出一组最能反映样本分类特性的基因以准确地刻画出事物的分类模型，从而为最终确定肿瘤分类与分型的基因标记物提供可靠线索。该特征基因集合应包含尽可能完整的样本分类信息，即不丢失原始基因集合中所蕴含的样本分类信息，可利用有效的分类器实现对基因样本的准确分类。

鉴于基因表达数据存在维数高、噪音大、样本数量小以及基因表达之间存在很大相关性等特点，本文设计了一种致癌基因信息提取与分类方法。该方法的框架模型主要由下述五步构成：

Step1 信息基因选择。采用Bhattacharyya距离衡量基因含有样本分类信息的多少，滤除无关基因；

Step2 冗余基因剔除。采用两两冗余分析，剔除强相关冗余基因；

Step3 提取主成分分量。采用主成分分析（PCA）方法对所选择的基因样本数据进行降维处理，得到样本的主成分分量；

Step4 分类模型训练和最优基因组合筛选。对特征提取后的基因数据形成的2N个候选基因子集分别采用神经网络（BP神经网络及三种径向基神经网络）进行分类学习，训练网络权值，得到分类网络模型和最优基因组合；

Step5 测试分类模型。采用获得的分类网络模型对测试肿瘤样本进行分类，并采用留一检验法和独立检验法评估四种神经网络分类器性能。

基因样本数据预处理滤除无关基因Bhattacharyya距离法(RFSC)两两冗余分析剔除强相关冗余基因特征基因子集降维处理主成分分析(PCA)致病基因分类特征提取模块建立分类模型神经网络分类器设计BPNN RBFNNPNN GRNN训练样本学习分类识别模块测试样本分类

图5-1 致癌基因信息提取与分类方法框架

5.1 数据的预处理 5.1.1均值中心化

由于样本中存在大量的来源于一个基因样本的多次重复试验数据，为保证在特征提取和分类时，这些数据之间的相关性不对结果产生较大影响，本文对这些数据进行均值中心化处理，该过程同时可在一定程度上消除数据的系统偏差。处理后，原始数据由2000维降到1909维。 5.1.2 归一化

本文使用的特征提取方法和人工神经网络分类识别算法要求首先对输入数进行归一化处理。

?,m,；k?1,2,?,p （5-1） xik?(xik??k)/?k i?1,21m???xik （5-2）

mi?11m2?k?(xik??k)2 （5-3） ?m?1i?15.2类别无关基因的滤除

由于只有少数基因与样本某一特定的表型（生物类别）相关，其余大部分基

因是同该表型无关的“类别无关基因”，或者可以理解为“噪声基因”。为有效选取样本的分类特征，本文首先利用基因之间的Bhattacharyya距离作为衡量基因含有样本分类信息多少的度量。

Bhattacharyya距离[1]体现了属性在两个不同样本中分布的差异，这种差异既

共7页:

肿瘤基因图谱信息提取和分类方法研究.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档