最大化互信息:
I(X;Z)=H(X)−H(X|Y)
argmaxθI(X;Y)=argmaxθ(−H(X|Y))=argmaxθEq(X,Y)log(q(X|Y))
最小化KL散度
KL(q||p)=∑q(x)logq(x)p(x)=∑q(x)logq(x)−∑q(x)logp(x)
因为,KL散度≥0,最小化KL散度即相当于最大化互信息的下界,即是
argmaxθ=Eq(x)log(p(x))
这就是交叉熵
q是输入样本的分布,p是输出的分布