第一章
统计学习方法三要素:模型、策略、算法。
模型
- 概率模型
伯努利模型 : 定义在取值为0,1的随机变量上的概率分布(条件概率分布)
0-1分布
p(x)=θx(1−θ)1−x p ( x ) = θ x ( 1 − θ ) 1 − x ,随机变量 x x 只取0,1两个值- 二项分布
,表示 x=1 x = 1 发生 k k 次的概率, 表示每一次实验 x=1 x = 1 的概率 - 经验风险:
Remp=1N∑i=1N(L(xi,f(xi))) R e m p = 1 N ∑ i = 1 N ( L ( x i , f ( x i ) ) ) - 结构风险:
Rsrm=1N∑i=1N(L(xi,f(xi)))+λJ(f) R s r m = 1 N ∑ i = 1 N ( L ( x i , f ( x i ) ) ) + λ J ( f )
策略
- 极大似然:经验风险最小化。
模型为条件概率分布,损失函数为对数损失函数时,经验风险最小化等价于极大似然估计。 - 贝叶斯估计:结构风险最小化。
模型为条件概率分布,损失函数为对数损失函数,模型复杂度由模型先验概率表示时,结构风险最小化等价于最大后验概率估计。
算法
- 极大似然估计:最大化似然函数,求取能使似然函数最大的值
- 贝叶斯估计:最大后验概率估计,求取能使其后验分布最大的值
假设随机变量
Ai
A
i
(独立同分布)表示第
i
i
次试验:
极大似然估计
似然函数: L(θ)=∏ni=1p(Ai)=θk(1−θ)n−k L ( θ ) = ∏ i = 1 n p ( A i ) = θ k ( 1 − θ ) n − k
argmaxθlog(L(θ))=argmaxθlog(θk(1−θ)n−k)=argmaxθ(klogθ+(n−k)log(1−θ))(53)(54) (53) arg max θ l o g ( L ( θ ) ) = arg max θ l o g ( θ k ( 1 − θ ) n − k ) (54) = arg max θ ( k log θ + ( n − k ) log ( 1 − θ ) )
对 θ θ 求偏导,令等式为0,可得,
kθ−n−k1−θ=0 k θ − n − k 1 − θ = 0
解得 θ=kn θ = k n贝叶斯估计
最大后验概率估计 p(θ|A1,A2...An) p ( θ | A 1 , A 2 . . . A n ) , θ θ 为随机变量, p(θ) p ( θ ) 为模型先验概率服从β分布 β(θ;a,b)=θa−1(1−θ)b−1C β ( θ ; a , b ) = θ a − 1 ( 1 − θ ) b − 1 C , C C 为常数,β分布是伯努利分布的共轭先验分布
故
对等式右边取对数,求偏导,令等式为0,可得
其中, a,b a , b 的取值
β β 分布概率密度函数
- 条件概率分布: P(Y|X) P ( Y | X )
- 损失函数: L(Y,P(Y|X))=−logP(Y|X) L ( Y , P ( Y | X ) ) = − log P ( Y | X )
- 似然函数: L(θ)=∏ni=1p(yi|xi,θ) L ( θ ) = ∏ i = 1 n p ( y i | x i , θ )
- 经验风险最小化:
minθRemp=minθ1n∑i=1nL(yi,p(yi|xi,θ))=minθ1n∑i=1n(−log(p(yi|xi,θ))=minθ−1n∑i=1nlogp(yi|xi,θ)⇔maxθ1n∑i=1nlogp(yi|xi,θ)=maxθ1nlog(∏i=1np(yi|xi,θ))⇔maxθL(θ)(60)(61)(62)(63)(64)(65) (60) min θ R e m p = min θ 1 n ∑ i = 1 n L ( y i , p ( y i | x i , θ ) ) (61) = min θ 1 n ∑ i = 1 n ( − l o g ( p ( y i | x i , θ ) ) (62) = min θ − 1 n ∑ i = 1 n l o g p ( y i | x i , θ ) (63) ⇔ max θ 1 n ∑ i = 1 n l o g p ( y i | x i , θ ) (64) = max θ 1 n l o g ( ∏ i = 1 n p ( y i | x i , θ ) ) (65) ⇔ max θ L ( θ )