一、熵
① 什么是熵
可以看到,在概率不均匀的时候,熵是小于2^3, i.e. 3bit
,采用了概率大的马匹编码短的原则,这和二元哈夫曼编码应该是一个道理。
② 数学定义
可以注意到,Eg(X)
其实就是熵,所以熵又解释为随机变量log 1/p(X)
的期望值。
③ 性质
1 | · H(X)≥0 |
另外可以从上图看到,当p=1/2
时H(p)
取得最大值,1比特,当p=0,1
的时候H(p)=0
,因为变量这时不再是随机的,所以不具有不确定度。
④ 联合熵和条件熵
公式2-20两边同时取数学期望E即得定理2-14,但其实用下面的韦恩图记更加方便。
1 | · 推论: H(X,Y|Z)=H(X|Z)+H(Y|X,Z) |
⑤ 熵的链式法则
二、相对熵
① 定义
注意,因为相对熵并不对称,也就是说D(p||q)≠D(q||p)
,同时注意熵也不对称!
② 条件相对熵
③ 相对熵的链式法则
1 | 记忆方法: 可以根据贝叶斯概率公式来记,骆源老师说所有信息论适用的公式全部都是由概率论公式推到得来的,所以大部分都很相似。 |
Note: 2-70没看明白,为什么第一部分是p(x,y)
也可以变成D(p(x)||q(x))
,这个需要再看看。
三、互信息
① 定义
我们不难发现,互信息其实就是一个某种形式的相对熵:
1 | I(X;Y)=D(p(x,y)||p(x)p(y)) |
当X⊥Y
时,H(X|Y)=H(X)
,条件熵和条件概率是一个道理的。用韦恩图来表示I(X;Y)
就如第③小节中,图《熵与互信息之间的关系》所示,可以看到,I(X;Y)
即中间重叠的部分。那么,这个互信息有什么用呢,举个例子:*通信信道的系统输出信号概率依赖于输入信号,由此可以通过互信息就可以表示它的信道容量C
*。下图是一个二元对称信道,具体内容可以参考[1],大概领会一下精髓 :)。
② 条件互信息
它是在给定Z时由于Y的知识而引起关于X的不确定度的缩减量。
③ 熵与互信息的关系
这些性质用韦恩图理解的话就很简单了。
很多信息论巨复杂的公式其实是“看”出来的,而不是证出来的 —— 骆源老师说的23333
④ 互信息的链式法则
其实对于条件熵也好,条件互信息也好,他们的条件链式法则去掉条件之后公式其实和不带条件的一样,所以记住一个就记住了两个。
要点总结
Reference
[1] Book. Elements of Information Theory (second edition)
[2] Slides. http://home.ustc.edu.cn/~lzhq28/
[3] Slides. Course: 信息论与编码. Prof. Luo
辛苦整理,转载请注明出处,下次可能会写写Markov Chain相关的内容