信息论
信息量
- I(x) = -log( P )
- I为信息量
- P为x发生的概率
熵
- 混乱程度的度量,不确定的局面表示很混乱
- 系统里信息量的期望值
- H(x) = -sum( P(i) * log( P(i) ) )
相对熵(KL散度)
- 用于度量两个概率分布间的差异性信息
- D_KL(S | O) = sum( P_S(x) * log_2( 1 / P_O(x) ) ) - sum( P_S(x) * log_2( 1 / P_S(x) ) )
- S是真实规律
- O是模型推算规律
交叉熵
- D_KL(S | O)中的O
- H(p, q) = sum( p(x) * log( 1/q(x) ) )
- p为真实规律
- q为模型推算规律
损失函数
- 均方差损失函数
- 可用于回归问题,可用于分类问题
- torch.nn.MSELoss()
- 交叉熵损失函数
- 更适合分类问题
- torch.nn.CrossEntropyLoss()