『Information and coding theory』熵、相对熵、互信息都是些啥子哟,了解一哈

一、熵

① 什么是熵

熵

可以看到,在概率不均匀的时候,熵是小于2^3, i.e. 3bit,采用了概率大的马匹编码短的原则,这和二元哈夫曼编码应该是一个道理。

② 数学定义

熵定义

可以注意到,Eg(X)其实就是熵,所以熵又解释为随机变量log 1/p(X)的期望值。

③ 性质

1
2
3
· H(X)≥0
· H_b(X)=(log_b a)H_a(X) 其实就是个换底公式
· H(X)分布为凹函数,可以看下图所示

H(X)与P(X)关系图

另外可以从上图看到,当p=1/2H(p)取得最大值,1比特,当p=0,1的时候H(p)=0,因为变量这时不再是随机的,所以不具有不确定度。

④ 联合熵和条件熵

联合熵和条件熵

公式2-20两边同时取数学期望E即得定理2-14,但其实用下面的韦恩图记更加方便。

1
2
3
· 推论: H(X,Y|Z)=H(X|Z)+H(Y|X,Z)
记忆方法: 如果把Z去掉的话其实就和公式2-14一样了,证明思路与2-14一致,感觉很多证明只要从定义出发就可以证得,所以定义一定要牢记
· H(X|Y)=Σ_{y∈Y}p(y)H(X|Y=y) 在题目提供联合分布和边际分布的时候用这个公式计算,其实也就是定义2-10

⑤ 熵的链式法则

熵的链式法则1

熵的链式法则2

二、相对熵

① 定义

相对熵

注意,因为相对熵并不对称,也就是说D(p||q)≠D(q||p),同时注意熵也不对称

② 条件相对熵

条件相对熵

③ 相对熵的链式法则

相对熵的链式法则

1
记忆方法: 可以根据贝叶斯概率公式来记,骆源老师说所有信息论适用的公式全部都是由概率论公式推到得来的,所以大部分都很相似。

Note: 2-70没看明白,为什么第一部分是p(x,y)也可以变成D(p(x)||q(x)),这个需要再看看。

三、互信息

① 定义

互信息

我们不难发现,互信息其实就是一个某种形式的相对熵:

1
I(X;Y)=D(p(x,y)||p(x)p(y))

X⊥Y时,H(X|Y)=H(X),条件熵和条件概率是一个道理的。用韦恩图来表示I(X;Y)就如第③小节中,图《熵与互信息之间的关系》所示,可以看到,I(X;Y)即中间重叠的部分。那么,这个互信息有什么用呢,举个例子:通信信道的系统输出信号概率依赖于输入信号,由此可以通过互信息就可以表示它的信道容量C。下图是一个二元对称信道,具体内容可以参考[1],大概领会一下精髓 :)。

二元对称信道

② 条件互信息

条件互信息

它是在给定Z时由于Y的知识而引起关于X的不确定度的缩减量。

③ 熵与互信息的关系

熵与互信息的关系

这些性质用韦恩图理解的话就很简单了。

很多信息论巨复杂的公式其实是“看”出来的,而不是证出来的 —— 骆源老师说的23333

④ 互信息的链式法则

互信息的链式法则1

互信息的链式法则2

其实对于条件熵也好,条件互信息也好,他们的条件链式法则去掉条件之后公式其实和不带条件的一样,所以记住一个就记住了两个。

要点总结

1

2

Reference

[1] Book. Elements of Information Theory (second edition)

[2] Slides. http://home.ustc.edu.cn/~lzhq28/

[3] Slides. Course: 信息论与编码. Prof. Luo

辛苦整理,转载请注明出处,下次可能会写写Markov Chain相关的内容