第6讲联合熵与条件熵

2019-04-01 16:49

第6讲联合熵与条件熵

信息熵H(X)反映了随机变量X的取值不确定性。当X是常量时，其信息熵最小，等于0；当X有n个取值时，当且仅当这些取值的机会均等时，信息熵H(X)最大，等于logn比特。我们拓展信息熵H(X)的概念，考虑两个随机变量X和Y的联合熵H(XY)和条件熵H(Y|X)。

1. 联合熵

设X，Y是两个随机变量，则(X,Y)是二维随机变量，简写为XY。二维随机变量XY的联合概率分布记为p(xy)，即 p?xy??Pr?X?x,Y?y? 根据信息熵的定义可知，XY的信息熵为 H(XY)?

定义1.1 二维随机变量XY的信息熵H(XY)称为X与Y的联合熵（joint entropy）。它反映了二维随机变量XY的取值不确定性。我们把它理解为X和Y取值的总的不确定性。练习：

假设有甲乙两只箱子，每个箱子里都存放着100个球。甲里面有红蓝色球各50个，乙里面红、蓝色的球分别为99个和1个。试计算H(XY)

我们将联合熵概念推广到任意多离散型随机变量上。定义1.2 一组随机变量X1,X2,?,XN的联合熵定义为

?p(xy)I(xy)??p(xy)logx,yx,y1 p(xy)H(X1X2?XN)?

x1,x2,?,xN?p(x1x2?xN)I(x1x2?xN)

注：为了简化记号，我们有时把X1X2?XN记为XN，把x1x2?xN记为xN。物理意义：

（1）H(X1X2?XN)是这一组随机变量平均每一批取值

{X1?x1,X2?x2,?XN?xN}

所传递的信息量。

（2）若N-维随机变量X1X2?XN表示某信源产生的任意一条长度为N的消息，则

H(X1X2?XN)是平均每条长度为N的消息的信息量。因此，若该信源产生一个长度为N

的消息，则在不知道其它条件的情况下，对该消息所含信息量的最优估计为N-维信息熵

H(X1X2?XN)。

联合熵的性质：

联合熵熵函数的一种特殊形式，所以熵函数的任何数学性质都适用于联合熵，包括：非负性、可加性、严格上凸性和最大离散熵原理，等等。

当然，联合熵还有自己的特殊性质。

定理1.4（联合熵的独立界）H(X1X2?XN)?H(X1)?H(X2)???H(XN) 其中等号成立的充要条件是所有随机变量相互独立。

证明：这里仅证明H(XY)?H(X)?H(Y)，一般情形可类似证明。设对于XY的联合分布为p(xy)，X和Y的概率分布简记为p(x)，p(y)。由于

p?x???p?x,y?, p?y???p?x,y?

yx我们有

p?x?p(y) 左-右=?p?xy?log

p(xy)x,y注意，p(x)p(y)构成一个概率分布。应用信息不等式可得

?p?xy?logx,yp?x?p(y)?0

p(xy)其中等号成立的充要条件是p(xy)?p(x)p(y)，即X与Y相互独立。证毕

2. 条件熵

条件自信息：I(y|x)?log1

p(y|x)对于任何取值x，Y|X?x是一个带条件的随机变量，其信息熵为

H(Y|X?x)???p(y|x)logp(y|x)

y再对所有x求熵的平均值可得如下条件熵：

定义2.1 设X,Y是两个离散型随机变量，联合分布为p(xy)。X相对于Y的条件熵H(X|Y) 定义为条件自信息I(X|Y)的期望，即

H(X|Y)??p(xy)I(x|y)

x,y物理意义：H(X|Y)表示在已知Y取值的前提下，X取值的不确定性，亦即X的每个取值平均所提供的与Y无关的信息量。

定理2.2（条件熵非负性）对于任何离散型随机变量X与Y，都有H(Y|X) ≥0，其中等号成立当且仅当Y是X的函数，即X的取值可确定Y的取值。证明根据定义

H(Y|X)???p(xy)logp(y|x)?0x,y

由于上述加式中各加项都≤0，所以该加式=0的充要条件是各加项=0，即对于任何x和y，p(y|x)=1或者p(y|x)=0，亦即对于任何x，P(Y|x)是退化分布。这表明当X的取值确定时，Y的取值随即确定，即Y是X的函数。证毕定理2.3（熵的链法则）对于随机变量序列X1,X2,…和任何N≥1

H(X1?XN)?H(X1) ? H(X2|X1) ?? ? H(XN|X1?XN?1) 简记为

H(X)?H1 ? H2????HN 其中H1=H(X1)，H2=H( X2|X1)，…，HN=H(XN|X1X2 …XN-1)。

证明：首先根据定义直接可得

H(XY)= H(X)+H(Y|X)

应用上述等式，对N用归纳法可证明熵的链法则。细节略。证毕意义：将多个随机变量的联合熵转化为这些随机变量的条件熵之和，可简化计算。注：链法则与熵的可加性是等价的。思考：

下列不等式是否成立，其中各等号成立的充要条件是什么？

H(X1)?H(X1X2)?H(X1X2X3)

这个性质说明什么？请读者尝试命名该性质。

定理2.4（条件熵递减性）对于任何随机变量X和Y，有

H(Y|X)≤ H(Y)

其中等号成立的充要条件是Y与X相互独立。证明一：根据链法则，

H(XY)=H(X)+H(Y|X)

再根据联合熵的独立界定理，立刻可得

H(Y|X)≤ H(Y)

其中等号成立的充要条件是X与Y统计独立。证毕在条件熵中，条件越少，熵值越大。相反，条件越多，熵值越小。这可理解为，我们知道的越多，则事物的不确定性越小。

证明二：应用Jessen不等式证明。证毕

3. 计算公式

令X，Y为离散的随机变量。公式1. H(Y|X)?H(XY)?H(X) 公式2. H(Y|X)?P(X)H(P(Y|X))

其中P(X)是X的概率分布，为行向量，P(Y|X)是X到Y的条件概率矩阵，H(P(Y|X))是条件概率矩阵中各个行分布P(Y|x)的熵H(Y|x)所组成的列向量。证明：

|)??p(x)HY(x|)x?P(X)HP(Y(X|))例3.1 设P(X)?(0.4,0.6)且

P(Y|X)???0.960.04??0.040.96??

则

H(Y|X)?P(X)H(P(Y|X))?(0.4,0.6)H(??0.960.04??0.040.96??)?(0.4,0.6)??H(0.96,0.04)?

?H(0.04,0.96)???H(0.96,0.04)记号：以后对于任何N，我们将N维随机向量X1,X2,…XN简记为XN。

证毕

共2页:

第6讲联合熵与条件熵.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

第6讲 联合熵与条件熵

第6讲联合熵与条件熵