统计学习方法_第一章:统计学习及监督学习概论

本文介绍了统计学习方法中的概率模型与非概率模型,包括它们的本质区别。详细阐述了统计学习的三要素:模型、策略和算法,并以伯努利模型为例,解释了极大似然估计与贝叶斯估计。此外,讨论了生成模型与判别模型的差异,并分析了经验风险最小化与结构风险最小化。最后,通过习题解答展示了如何通过经验风险最小化推导极大似然估计。
摘要由CSDN通过智能技术生成

一些概念

1、概率模型与非概率模型。
概率模型:为条件分布p(y|x),是生成模型
非概率模型:z=g(x),是判别模型
这二者区别不在于映射形式,本质区别是概率模型一定可以表示为联合概率分布的形式,但非概率模型不一定存在这样的联合概率分布。
2、统计学习方法三要素
方法=模型+策略+算法

模型:模型的假设空间包含所有可能的条件概率分布或决策函数。
策略:统计学中的策略一般指损失函数或是代价函数;常用的有1)0-1损失。2)平方损失。3)绝对损失。4)对数损失。
机器学的目标及是极小化损失函数的数学期望:
R e x p _{exp} exp(f)= E p [ L ( Y , f ( x ) ) ] E_p[L(Y,f(x))] Ep[L(Y,f(x))]
= ∫ \displaystyle \int L(y,f(x))P(x,y) dxdy

经验风险最小化:极小化损失函数平均值;
结构风险最小化:在经验风险最小化的基础上加上正则项

泛化误差上街 :对于二分类问题,当假设空间是有限个函数的集合{f1,f2,f3…fn}时,对任一一个函数f,至少以概率1- δ \delta δ, 0 < δ < 1 0<\delta<1 0<δ<1,不等式
R ( f ) R(f) R(f)<= R ^ ( f ) \hat{R}(f) R^(f)+ ϵ ( d , N , δ ) \epsilon(d,N,\delta) ϵ(d,N,δ) 成立;
其中 ϵ ( d , N , δ ) \epsilon(d,N,\delta) ϵ(d,N,δ)= 1 2 N ( l o g ( d ) + l o g ( 1 δ ) ) \sqrt{\frac{1}{2N}(log(d) + log(\frac{1}{\delta}))} 2N1(log(d)+log(δ1))

生成模型:模型给定了输入X产生输出Y的生成关系,如朴素贝叶斯,隐马尔科夫模型等。
判别模型:由数据直接学习决策的函数F(x)作为决策模型;关心的是对给定的X,应该预测什么样的输出Y。如:k近邻,感知机,决策树,逻辑回归,等

第一章习题
1.1说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。
伯努利模型是定义在0-1取值的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或者贝叶斯估计来估计结果为1的概率。
解:1)三要素:极大似然估计和贝叶斯估计的模型都是伯努利模型;极大似然估计用的是经验风险最小化的策略,贝叶斯估计用的是结构风险最小化的策略;极大似然估计一般是对似然函数进行求导得到参数严格的解析解,贝叶斯估计无法通过传统的微积分等手段得到严格的解析解,而是通过数值计算得出一个近似的数值解.

极大似然法 L ( θ ) = ∏ i = 1 n P ( A i ) = θ k ( 1 − θ ) n − k L(\theta)=\prod_{i=1}^{n}P(A_i)=\theta^k(1-\theta)^{n-k} L(θ)=i=1n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值