样本熵

2019-08-31 12:03

样本熵

熵原本是一个热力学概念，是用来描述热力学系统混乱(无序)程度的度量。在信息论建立之后，关于上的概念和理论得到了发展。作为衡量时间序列中新信息发生率的非线性动力学参数，熵在众多的科学领域得到了应用。八十年代最常用的熵的算法是K-S熵及由它发展来的E-R熵，但这两种熵的计算即使对于维数很低的混沌系统也需要上万点的数据，而且它们对于噪声很敏感，时间序列叠加了随机噪声后这两种熵的计算可能不收敛[65]。九十年代初，Pincus提出的近似熵(APEN, Aproximate Entropy)主要是从衡量时间序列复杂性的角度来度量信号中产生新模式的概率大小，产生新模式的概率越大，序列的复杂性越大，相应的近似熵也越大。近似熵已成功应用于生理性时间序列的分析，如心率信号，血压信号，男性性激素分泌曲线等时间序列的复杂性研究中，还预示了近似熵表征人的某些生理变化情况的能力[66,67]。样本熵(Sample Entropy)是由Richman和Moornan[12]提出的一种新的时间序列复杂性的度量方法。样本熵在算法上相对于近似熵算法的改进：相对于近似熵而言，样本熵计算的则是和的对数。样本熵旨在降低近似熵的误差，与已知的随机部分有更加紧密的一致性，样本熵是一种与现在的近似熵类似但精度更好的方法。与近似熵相比，样本熵具有两大优势：第一，样本熵不包含自身数据段的比较，它是条件概率的负平均自然对数的精确值，因此样本熵的计算不依赖数据长度；第二，样本熵具有更好的一致性。即如一时间序列比另一时间序列有较高的值的话，那对于其他m和r值，也具有较高的值。

样本熵的具体算法

设原始数据为长度为N的时间序列，表示为?u(i):1?i?N?。

X.(,N?m?1)，其中1）构造一组m维空间的向量X(1),X(2),..X(i)??u(i),u(i?1),.u.(.i,?m)?.。

2）定义向量X?i?和X?j?之间的距离d?X?i?,X?j??为两向量对应元素中差值最大的一个，即：

d?X(i),X(j)??maxu(i?k)?u(j?k).

k?0~m?13）对于每一个{i:1?i?N?m?1}，在容许偏差为r的情形下，统计

d?X(i),X(j)??r的数目，计为

Nm(i)，并计算此数目与距离总数的比值，计作：

1N?mm?Ci(r) N?mi?1Cim?r??Nm(i)/?N?m?

4）对所有的i求平均值计作?m(r)，即?m(r)?

5）将维数m增加1，变成m?1重复上述1）-4）过程得到Cim?1(r)，?m?1(r)。

Cim?1(r)?Nm?1(i)/(N?m?1)

N?(m?1）1m?1(r)??Ci(r)

N?(m?1)i?1?m?1(N,m,r)为： 6）理论上此序列的样本熵SampEnSampEn(m,r)?lim??1n??m?1(r)/?m(r)??

N??实际中N不可能取?，当N取有限值时，估计：

SampEn(N,m,r)??1n??m?1(r)/?m(r)?

SampEn(N,m,r)的值与参数N，m，r的选取有关。不同的嵌入维度m和

相似容限r对应的样本熵值也不同。Pincus曾指出，r取原始数据标准偏差的

(N,m,r)的值对序列长度N的依赖性m?1或m?2时SampEn0.1~0.25倍，

最好，此时计算所得的样本熵具有较为合理的统计特性。

分析上式子可以看出，样本熵实际上是对数据长度N，相似容限r，m点数据段互相相似情况下m?1点数据段互相相似的条件概率CP的负平均自然对数的近似值。样本熵在算法上相对于近似熵算法的改进，具有如下性质：(1)样本熵不包含自身数据段的比较，因此它是条件概率的负平均自然对数的精确值，因此样本熵的计算不依赖数据长度；(2)样本熵具有更好的一致性。即如一时间序列比另一时间序列有较高的值的话，那对于其他m和r值，也具有较高的值；(3)样本熵对于丢失数据不敏感。即使数据丢失多达1/3，对计算值影响依然很小。

样本熵的计算可以按照上述定义去进行，但实际上，这些步骤有很多冗余计算，效率低，速度慢，不利于实时运用。洪波，陈天祥等在定义的基础上，引入了二值距离阵的概念，提出了一种使用的快速算法，大致流程如下：

第一步：对N点序列，先计算N?N二值距离矩阵D?[dij]N?N。

?1,d[X(i),X(j)?r]dij??.

0,d[X(i),X（j)]?r?第二步，利用矩阵D中的元素，按照行递增的顺序，每两行(当m?2时)或每三行(当m?3时)的矩阵元素按斜线方向的组合进行“与”运算，把每一行的

32斜线“与”的结果累加后除以N??m?1?，即可得到Ci?r?和Ci?r?。如图1所示。

Ci2?r???dj?1N?1ij?d?i?1??j?1?.

N?mN?1C?r??3i?dij?d?i?1??j?1??d?i?2??j?2?j?1N??m?1?.

C13?r?3C2?r?3C3?r?d11d12d13d14d15d21d22d23d24d25d31d32d33d34d35d41d42d43d44d45d51d52d53d54d55C12?r?2C2?r?C32?r?2C4?r?

图1

比如，m?2时，我们要判断d?X(2),X?4??r?是否成立，等价于判断d?u(2),u?4??r?和

d?u(3),u?5??r?是否同时成立。即d24*d35?1是否成立，这就是上述斜线求“与”的

过程。实际计算过程中m?2和m?3可以放在同一个循环中进行，并且只有在

m?2斜线求“与”结果不为“1”的地方才有必要进行m?3的斜线求“与”

过程。

3223第三步：由Ci?r?和Ci?r?分别计算?(r)和?(r)。

(N,m,r)。第四步：计算SampEn

二、近似熵

近似熵使用一个非负数来表示一个时间序列的复杂性，越复杂的时间序列对应的近似熵越大。其具体算法如下：

u1,u2,...,u?N?对于给定的长度为N的时间序列????，构造一组m维空间的X1,X2,...,X?N?Xi?ui,ui?1?,u?i?2?,...,u?i?m?1??向量????，其中??????。定

Xjd[X?i?,X?j?]Xi义向量??和??之间的距离为为两对应元素中差值最大的一个，即：

d[X?i?,X?j?]?maxu?i?k?1??u?j?k?1?, k?1,2,...,m?1

对于每一个i?1?i?N?m?1?，定义

Cim?r??n/?N?m?1?

式中 n——d??X?i?,X?j????r的X?i?的个数。

Cim?r?表示以X?i?为中心，在窗口长度为m，容许偏差为r的情形下，其余向量

从而表示所有X?j?与X?i?的X?i?与X?j?的距离d[X?i?,X?j?]小于r的概率，

关联(规律性)程度?j?i?,定义关联函数：

近似熵定义为：

?m?r???N?m?1??i?1?1N?m?1lnCim?r?

SApEn?m,r??lim??m?r???m?1?r??

N??

一般而言，此极限以概率1存在。实际工作中N不可能为?。当N为有限值时，

S算得的是ApEn的估计值，记为：

SApEn?m,r,N???m?r???m?1?r?

样本熵.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档