肿瘤基因图谱信息提取和分类方法研究(3)

2019-05-24 18:31

（4）广义回归神经网络模型（GRNN）

广义回归神经网络（General Regression Neural Network, GRNN）是在概率神经网络基础之上提出的另一种径向基神经网络模型，建立在非参数核回归的数理统计基础上，以样本数据为后验条件，执行Parzen非参数估计，网络最后收敛于样本量积聚最多的优化回归面。GRNN的拓扑结构由输入层、模式层、累加层和输出层组成。

输入层接收来自训练样本的值，传递函数是线性的，直接将输入样本传递给模式层。

模式层又称隐回归层，神经元的个数等于训练样本数。模式层中采用高斯函数作传递函数。训练过程中通过改变平滑因子?的值，从而调整模式层中各神经元的传递函数，以获得最佳的回归估计结果。?取值越大则基函数越平滑，在训练样本数目一定的情况下，平滑因子值的变化影响概率密度函数值的变化，进而影响最终预测结果。

累加层接收来自模式层的运算结果，神经元数目为样本向量的维数p加1，包括两种类型神经元，其中p个神经元计算所有模式层神经元输出的加权和，称为分子单元；另一个神经元计算所有模式层神经元的输出之和，称为分母单元。

输出层将累加层分子单元和分母单元的输出相除，算得样本的估计值。 5.5.2 神经网络致癌基因分类模型的建立

神经网络模型的输入层节点数m设置为训练样本x的基因个数；隐层节点数n为输入层节点数的2倍；由于输出目标为区分肿瘤样本和正常样本，故输出层节点数k设为1。输出目标函数T(X)的值表示训练样本类别，其中“0”表示正常样本，“1”表示肿瘤样本。输入向量X的第i个分量xi对应训练集中样本的第i个基因。

基于给定数据本文建立了四种神经网络分类器模型，分别为下面以BP神经网络为例，给出网络的训练过程及步骤。

（1）初始化。给每个连接权值wij、vit、阀值?j与?j赋予区间（-1，1）内的随机值。

kkk（2）用输入基因样本Pk?(a1,a2,?,an)、连接权wij和阀值?j计算中间层各单元的输入sj，然后用sj通过传递函数计算中间层各单元的输出bj。

（5-12）

（3）利用中间层的输出bj、连接权vjt和阀值?j计算输出层各单元的输出Lt，

bj?f(sj)j?1,2,?,p然后利用通过传递函数计算输出层各单元的响应Ct。

Lt??vjtbj??jj?1pt?1,2,?,q （5-13）

（5-14）

k（4）利用网络目标向量Tk?(y1k,y2,?,ykp)，网络的实际输出Ct，计算输出层的各单元一般化误差dtk。

（5-15）（5）利用连接权vjt、输入层的一般化误差dt和中间层的输出bj计算中间层

Cj?f(Lj)t?1,2,?,qdtk?(ytk?Ct).Ct(1?Ct)t?1,2,?,q

各单元的一般化误差etk。

e?[?dt.vjt]bj(1?bj)ktt?1q （5-16）

（6）利用输出层各单元的一般化误差dtk与中间层各单元的输出bj来修正连接权vjt和阀值?j。

vjt(N?1)?vjt(N)??.dtk.bj （5-17）

（5-18）

（7）利用中间层各单元的一般化误差，输出层各单元的输入来修正连接权和阀值。

k wij(N?1)?wij(N)??ekjai （5-19） ?j(N?1)??j(N)??ekj （5-20）

（8）随机选取下一个学习样本向量提供给网络，返回到步骤（3），直到m个训练样本样本完毕。

（9）重新从m个学习样本中随机选取一组输入和目标样本，返回步骤（3），直到网络全局误差?小于预先设定的一个极小值，即网络收敛。如果学习次数大于预先设定的值，网络就无法收敛。

（10）训练学习结束。

通用的神经网络训练的基本流程如下图所示：

初始化?t(N?1)??t(N)??.dtk加输入与期望输出计算隐层与输出层的输出调节隐层与输出层的连接权值改变训练样本N训练终止？Y迭代次数加1N迭代结束？Y输出图5-7 通用神经网络训练的基本流程

5.5.3 分类实验过程与结果分析

1、实验数据分类

在提取特征信息基因后，本文将正常样本和肿瘤样本按接近2:1的比例随机地分配到训练集和测试集中。如图5-8 所示，训练集有40 个样本，测试集有22个样本。

训练集正常14肿瘤26测试集+正常8肿瘤14

图5-8 基因表达谱实验数据集分类

2、特征基因子集筛选

采用主成分分析法得到特征基因集合中含有的11个特征基因，可以构成

215=32768个不同的基因组合，每个基因组合被称为一个特征子集。本文采用遍

历搜索算法对特征子集构成的空间进行搜索，通过二进制编码对32768个基因组合进行标记，通过对正确辨识率的排序，筛选出具有最佳分类能力和最少基因个数的特征基因子集，以此作为分类器的基因“标签”（信息基因）。通过上述方法对本文进行试验，得到其中9种基因的结合具有最佳分类能力。

表5-1列出了采用上述数据处理措施后选取的特征基因子集中9个基因的基因标签和简单功能描述。

表5-1 最佳基因组合及功能描述

序号 1 2 3 4 5 6 7 8 9

基因 X53799 M29273 U21914 L00352 X90858 R80427 X75208 D29808 M59807

基因功能描述

Human mRNA for macrophage inflammatory protein-2alpha (MIP2alpha). MYELIN-ASSOCIATED GLYCOPROTEIN PRECURSOR (HUMAN). Human duplicate spinal muscular atrophy mRNA, clone 5G7, partial cds. Human low density lipoprotein receptor gene, exon 18. H.sapiens mRNA for uridine phosphorylase.

C4-DICARBOXYLATE TRANSPORT SENSOR PROTEIN DCTB (Rhizobium leguminosarum).

H.sapiens HEK2 mRNA for protein tyrosine kinase receptor.

Human mRNA for T-cell acute lymphoblastic leukemia associated antigen 1 (TALLA-1), complete cds.

NATURAL KILLER CELLS PROTEIN 4 PRECURSOR (HUMAN); contains element MSR1 repetitive element.

3、训练与测试实验

由于实验样本少，为了获得对候选特征子集分类能力的较为可靠的估计，采取留一交叉校验和独立测试实验在训练集和测试集上分别检验分类准确率。

(1)训练集中，采用“留一法”[2](Leave-One-Out Cross Validation, LOOCV) 校验样本类型：每次保留1 个样本为测试样本，其余39 个样本用作神经网络的训

练样本。重复该过程，直到所有40 个样本都被用作过测试样本为止，从而统计得到留一交叉检验的准确率。

(2) 对于测试集，用训练集上的所有40 个样本训练神经网络，然后用训练好的神经网络识别测试集中22 个样本的类型，从而统计得到“独立测试实验”[5]( Independent Test, IT) 的分类准确率。

4、实验结果分析

表5-2 四种神经网络的分类准确性 BPNN RBFNN GRNN 神经网络分类器 PNN 97.5% 97.5% 97.5% 97.5% 留一交叉校验准确率 61.36% 63.64% 77.27% 63.64% 独立测试实验准确率由表5-2可知，对四种网络分类器，留一法检验正确率都比较高，而对于训练集采用独立测试实验时，概率神经网络（PNN）对分类的效果最好。所以，在下文的分析中，均采用PNN分类器进行分类识别。

六、问题三的建模与求解

对于第三个问题，由于基因表达谱中不可避免地含有噪声，有的噪声强度甚至较大，对含有噪声的基因表达谱提取信息时会产生偏差。为保证特征提取的有效性和分类识别的准确性，本文采用不同小波基函数对基因数据进行小波变换去噪，然后提取去噪后数据的特征信息基因，将其输入到概率神经网络分类器，得到了更为准确的分类结果。 6.1 基于小波变换的去噪方法

一个含有噪声的一维信号的模型为：

…n,? 1 （6-1） s(i)?f(i)???e(i) i?0,1,其中，f(i)为真实信号，e(i)为噪声，s(i)为含噪声的信号。信号消噪的目

的就是要将信号s(i)中的噪声e(i)对真实信号f(i)的影响减小到最小的程度。

在信号处理中，有用信号通常表现为低频信号或是一些比较平稳的信号，而噪声信号则通常表现为高频信号。在本问题中，信息基因数据为有用信号，而信息基因采集过程中产生的随机误差等为噪声，表现为高频分量。

基于小波的去噪方法就是寻找到从含噪信号空间到小波函数空间的最佳映射，即找到f?(f1,...,fn)?的估计值f?，使得其均方误差（mean-square error）?,f)最小： R(f

?,f)?n?1E(fR(f??i?fi)2 （6-2）

i?1Ln多分辨率理论认为，在尺度2J?2j?2上，y?L2(R)可分解成小波系数：

[{dj}J?j?L,aL] , k?z

（6-3）

小波去噪算法首先把含噪信号小波分解，并设定一阈值，低于该阈值的小波系数被认为是噪声产生的，从而被清零，留下的有效系数经小波逆变换后得到被

测信号的估计值，大体流程可用下式表示

DWTThresholdIDWT?????L,dy?????aL,dj??????a?f? （6-4） j??小波消噪可按以下3个步骤进行：

(1) 首先对信号进行小波分解。选择小波并确定小波分解的层次N，然后对信号S进行N层小波分解。如进行三层分解（噪声通常含在cd1，cd2，cd3中），分解过程如图6-1所示。

(2)小波分解高频系数的阈值量化。对于第1层到第N层的每一层高频系数，选择一个阈值，并且对高频系数用阈值收缩处理。

(3) 对信号进行重构。根据小波分解的第N层的低频系数和阈值量化处理后的第1层到第N层的高频系数，进行小波重构。重构过程如图6-2所示。

sca1ca2ca3cd3cd2cd1

图6-1 信号的小波分解树

rcarca1rca2rca3cd3cd2cd1

图6-2 信号的小波重构树

6.2 基于小波变换消除基因数据噪声误差

本文使用Matlab小波工具箱（Wavelet）进行阈值消噪处理。首先，在Matlab 中利用ddencmp函数产生信号默认阈值，然后利用wden 函数进行消噪处理。

语法结构：

[XD, CXD, LXD]=wden(X, tptr, sorh, scal, n, ’wavename’) [XD, CXD, LXD]=wden(C, L, tptr, sorh, scal, n, ’wavename’) 说明：

[XD, CXD, LXD]=wden(X, tptr, sorh, scal, n, ’wavename’)使用小波系数阈值，返回输入信号X除噪后的信号XD，输出参数[CXD, LXD]表示XD的小波分解结构。

共7页:

肿瘤基因图谱信息提取和分类方法研究(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档