淮南师范学院2011届本科毕业论文
15
其中A是由混合系数组成的混合矩阵,它的每个行向量中的m个元素作为m个信号源的加权系数对信号进行混合,得到对应的一个观测信号。但有些时候我们更加关心A的列向量。是A的列向量,模式可写为:
(4.2)
因此观测信号又可理解为矩阵A的列向量的一个线性组合,而对应的权重正是各个独立源信号。ai之所以被关注是因为它可以反映独立源si(t)的空间模式。例如在多导脑电的ICA分析中,A的列向量能够近似反映“脑电源信号”在大脑中的大概位置,因此具有相当丰富的生理意义。
经过A线性混合后的观测信号x (t)的各个分量将不再是独立的,即:
(4.3)
ICA算法的目的是:在混合矩阵A和源信号未知的情况下,仅利用观测信号x和源信号是统计独立这一假设,尽可能真实地分离出源信号s,这就是所谓的盲源分离问题(Blind Source Separation,简称BSS)。更确切地说就是以分离结果相互独立为前提,寻找一个线性变换分离矩阵W,称之为解混矩阵,将它施加到观测信号x(t),使得各输出信号尽可能的相互独立。这里的W从信号处理的角度来看可称之为空间滤波器,如果从神经网络的角度就是输入输出间的连接权值。当w通过某种优化算法得到后,便有:
y(t)=Wx(t)=WAs(t) (4.4)
这里输出y(t)是源信号s(t)的一个估计,y(t)的每个分量都是由观测信号线性组合而成,组合的系数是解混阵W中对应的行向量的各个元素。换句话说,简简单单的每个分量是由W中对应的行向量滤波的结果,故W的行向量又常称为ICA的空间滤波器。
16
基于独立分量算法的脑电信号分析
令P=WA,则P可以用来衡量ICA算法的分离性能,当作性能矩阵。显然当P=I ( I为单位矩阵)时,估计的性能是一个最理想的情况,y(t)=s (t)。但是从盲源分离的观点来看,y(t)中的各个分量与s (t)相比存在次序的不同以及对应分量幅度相差一个常数项,这种情况称为ICA问题的不确定性,事实上造成这种不确定性的原因正是因为没有相关独立源的先验知识。这里P可以不再是单位矩阵,但具有这样的性质:每行、每列有且仅有一个非零元素。根据矩阵理论,P总可以按下式进行分解:
P=WA=RS (4.5)
式中,R是一个置换矩阵,S是一个对角阵,这两个矩阵就定义了性能矩阵P。根据P的性质,不难得出这样的结论:如果各个分量统计独立,则P a(t)的各个分量仍然相互独立。这一性质同时也间接说明了ICA的输出结果具有次序和幅度的不确定性。因此从另一方面可以说明,如果W是一个解混阵,则对P进行归一化和重新排序后,一定可以得到一个单位矩阵。
除了源信号相互独立这一基本假设外,在上述ICA模型的分析中还存在一些其它的限制条件,它们也是保证模型得以确立的前提。主要有下面几条: 1)在源信号s1(t),s2(t)...sn(t)中至多只有一个是正态分布的; 2)观测信号数目要大于或等于源信号的数目; 3)矩阵A是列满秩的;
4)观测信号不含噪声或只能是加性低噪声。 4.1.2 ICA判据
在对观测信号进行处理时,假设它们的源信号是相互独立的,则分离出的各个分量之间也必须是相互独立的。由中心极限定理我们知道高斯性与相互独立有着密切的关系。同时在前面也己经提到,利用ICA分析得到的分量必须是非高斯分布,才能充分体现ICA的优势。ICA理论及分离算法的关键在十如何度量分离结果的独立性。从事ICA的科研工作者从不同的角度提出了进行ICA的各种判据,
淮南师范学院2011届本科毕业论文
17
如非高斯性负嫡判据、最小互信息(Minimization of Mutual Information, MMI)、最大似然密度估计判据(Infomax)等。 4.1.3高斯性负熵判据
在ICA应用中最基本的限制条件是:独立分量必须是非高斯的。那么我们来看为什么高斯变量使ICA的应用成为不可能。假设混合阵A是正交的,信号源是高斯分布,则观测信号X1和X2:为高斯分布,且不相关,它们的联合密度为:
(4.6)
可以看到联合密度分布是完全对称的,所以混合矩阵A的列向量方向没有任何信息,无法对混合阵A进行估计。确切地说,在变量是高斯分布的情况下,我们只能用ICA估计正交变换。因此非高斯分布成为估计ICA模型的前提条件。然而几乎在所有的经典统计理论中,变量都被假设为高斯分布。正是这一条件的限制才使ICA的研究很长时间一直处于低谷。
概率论中的中心极限定理这一经典理论告诉我们:在一定条件下,多个独立分布和的分布趋向于高斯分布。将该理论应用到ICA问题里可以得出这样的结论:观测信号是多个独立源的线性组合,所以其高斯性比源信号的高斯性强。换句话
说,源信号的非高斯性比观测信号的非高斯性要强。即非高斯性愈强就愈独立。 假设数据向量X是多个独立变量的线性组合,且每个独立变量都有明确的分布,首先我们先估计一个变量,认为它是所有的xi线性和:
,i=1,2?N,如果
是我们如何中心极限定理使得
,则Y就是独立变量了。问题
,而实际上我们对A又是未知的,所以
,
也是无法得到确切的W,但是我们能得到很近似的估计。我们定义则
。此时我们看到Y是Si的线性和,权值是zi。
18
基于独立分量算法的脑电信号分析
根据以上的结论我们知道比任何一个Si更加趋向于高斯分布,而事实上它
又是其中的一个si。显而易见,在这种情况下只有一个zi不为零。此时的W使得
最大非高斯。
在一定的限制条件下,可以找到一个特定的分布具有最大的信息熵。而上述定理中的这个特定的分布恰好是高斯分布。那么我们以这样一个特定分布作为参考,就可以用信息熵来描述一个分布与高斯分布之间的偏离程度,也即非高斯性。负熵就是如此定义的:
(4.7)
由上述定义可以得出负熵J(y)具有这样的性质:J(y)≥0,当且仅当y也是高斯分布时等号成立。
负熵的一个重要性质是:对于可逆的线性变换保持不变。显然,与微分熵对于正交变换保持不变的特性相比负熵需要的条件更加宽松。在ICA中,该性质使得可以将边缘负熵(yi)作为代价函数,然后寻找线性变换W使其最大化。这就导致了ICA算法中负熵判据的有效性。 4.1.4互信息判据
对ICA进行估计的另一种方法是互信息的最小化。互信息
(NutualInformation,NI)是用来度量随机变量之间独立性的基本准则,同时也是盲源分离问题里一个极为重要的判据。为了给出互信息的定义,下面有必要先介绍K-L散度(Kullback-Leibler divergence)的概念。K-L散度又称为K-L熵或相对熵,在统计学里是用来度量两个分布之间的差异程度。两个分布p1(x)和p2(x)之间的K-L散度定义为:
(4.8)
淮南师范学院2011届本科毕业论文
19
4.2 ICA典型算法
ICA方法的具体实现包括两个方面,一是确定目标函数,二是选择优化算法ICA以统计独立为基本原则,如何衡量独立性是一切ICA算法必须面临的根本问题。这就要求选择一个恰当的目标函数。从信息论观点出发,使得输出分量统计独立的一个最自然的标准就是要求输出分量的互信息为O。围绕着最小化互信息的信息熵类型目标函数有多种形式,对应的各种算法都存在一个共同的难题,即确定概率密度函数的近似算法,并且要考虑独立源是超高斯以及亚高斯两种情况。
1995年,Bell和Scjnowski提出的Infomax算法是一种自组织神经网络算法,该算法的目标函数是输出分量的联合微分熵,当网络选择合适的非线性函数时,它的最大化可以直接导致互信息最小。该算法在应用中得到的实际结果比理论上预期的要好,具有很强的实用性,因此受到广泛的关注。
另外,负熵也是ICA中一个极其重要的判据,负熵最大化也可导致互信息最小化。
对于同一个目标函数可以有不同的优化算法。常见的优化算法主要有梯度法以及牛顿迭代法等。在ICA的众多算法中,有两种处理方式不同的梯度算法:一种是在线学习算法 (on-1ine learning)另外一种是批处理算法(batch mode)。前者在每接受一个新的样本时更新网络权值,而后者的每次更新需要一批数据参与运算。ICA算法的好坏不仅取决于目标函数的选择,而且还与优化算法的性能有着很大的关系。衡量一个优化算法的主要性能指标有收敛速度,占用内存情况,稳定性等。
下面就简要介绍一下最常见的两种ICA算法:Infomax算法和fastICA算法。
4.3 Infomax及扩展Infomax算法
Infomax算法是一种基于信息论的前向反馈自神经网络的算法其基本原理如图所示: