统计学习方法第一章概论

三要素:方法 = 模型 + 策略 + 算法

损失函数:度量模型一次预测的好坏(loss function/ cost function)
风险函数:度量平均意义下模型的好坏

损失函数:(1)0-1损失函数
(2)平方损失函数
(3)绝对损失函数
(4)对数损失函数 -log P(Y|X)
风险函数:损失函数的期望(对于训练集的平均损失)
学习目标是选择期望风险最小的模型

极大似然估计是经验风险最小化。
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等于极大似然估计。

样本容量小会产生过拟合。
结构风险最小化是为了防止过拟合。
结构风险最小化是加上正则化项或者罚项。
m i n f ∈ F 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) min_{f \in F} \frac{1}{N}\sum_{i=1}^{N} L(y_i, f(x_i)) + \lambda J(f) minfFN1i=1NL(yi,f(xi))+λJ(f)
第一项为经验风险,第二项为正则化项, λ \lambda λ为调整两者之间的关系的系数。
L 2 L_2 L2范数: L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 + λ 2 ∣ ∣ w ∣ ∣ 2 L(w) = \frac{1}{N}\sum_{i=1}^{N}(f(x_i;w) - y_i)^2 + \frac{\lambda}{2}||w||^2 L(w)=N1i=1N(f(xi;w)yi)2+2λw2
L 1 L_1 L1范数: L ( w ) = 1 N ∑ i = 1 N ( f ( x i ; w ) − y i ) 2 + λ ∣ ∣ w ∣ ∣ 1 L(w) = \frac{1}{N}\sum_{i=1}^{N}(f(x_i;w) - y_i)^2 + \lambda||w||_1 L(w)=N1i=1N(f(xi;w)yi)2+λw1
正则化符合奥卡姆剃刀原理。在所有可选择的模型中,能够很好的解释已知数据并且十分简单才是最好的模型。
复杂的模型有较小的先验概率,简单的模型有较大的先验概率。

贝叶斯估计中最大后验概率估计(MAP)是结构风险最小化。
当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。

学习方法对未知数据的预测能力称为繁华能力。
过拟合是指对已知数据预测得好,对未知数据预测不好。

生成方法 => 生成模型:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型。P(Y|X)=P(X,Y)/P(X)
典型的生成模型:朴素贝叶斯,隐马尔可夫

判别方法 => 判别模型:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型,即判别模型。
典型的判别模型:k近邻法,感知机,决策树,逻辑斯蒂回归,最大熵,支持向量机(SVM),提升方法,条件随机场等。

分类问题

二分类问题的评价指标:精确率(precision)和召回率(recall)
TP:正类预测成正类(预测正确 true positive)
FN:正类预测成负类(预测错误 false negative)
FP:负类预测成正类(预测错误 false positive)
TN:负类预测成负类(预测正确 true negative)

精确率:P = TP / (TP + FP)
召回率:R = TP / (TP + FN)
F1值:精确率和召回率的均值
2/F1 = 1/P + 1/R => F1 = 2TP/(2TP + FP + FN)
当精确率和召回率都搞时,F1值也会高。

标注问题

回归问题

一元回归,多元回归
最常用的损失函数是平方损失函数,最小二乘法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值