一、信息论基础
信息熵
一个集群中, 一类数据的出现概率假设为p,那么它所对应的信息量为-log p。考虑当p=1时,表示该集群中只有一个分类,那么这类集群包含的信息量为0。反之让p接近0时,表示该数据为小概率事件,那么这类时间发生所包含的信息量将会巨大。
对于整个集群的信息量,是由各类数据的权重累加而成,公式即为:
H ( X ) = ∑ i − P ( x i ) l o g P ( x i ) H(X)=\sum_{i}^{} -P(x_{i})log P(x_{i}) H(X)=∑i−P(xi)logP(xi)
这也被称为集群的信息熵
条件熵
如果集群X有个映射Y,那么还能够做一个条件概率的信息熵。
我们假设,映射Y,或者说标签Y,有n个分类,分别为 Y 1 , Y 2 . . . Y n {Y_{1},Y_{2}...Y_{n}} Y1,Y2...Yn。对于第i个分类下,又对应了k个X集群,即:
X = X 1 , X 2 . . . X k X={X_{1},X_{2}...X_{k}} X=X1,X2...Xk
那么就有 Y = Y i Y=Y_{i} Y=Yi是的条件熵 H ( X ∣ Y i ) = ∑ i − P ( x i ) l o g P ( x i ) H(X \mid Y_{i})=\sum_{i}^{} -P(x_{i})log P(x_{i}) H(X∣Yi)=∑i−P(xi)logP(xi)
再将所有的 Y i Y_{i} Yi按比例累加起来,就得到了整个函数集的条件熵了。
H ( X ∣ Y ) = ∑ y ∈ Y P ( y ) H ( X ∣ Y = y ) H(X \mid Y)=\sum_{y \in Y}^{} P(y)H(X \mid Y=y) H(X∣Y)=∑y∈Y