统计学习方法第一章概论

最新推荐文章于 2024-09-06 14:14:04 发布

HYM-Enchanted

最新推荐文章于 2024-09-06 14:14:04 发布

阅读量102

点赞数

本文链接：https://blog.csdn.net/weixin_43758492/article/details/104513159

版权

三要素：方法 = 模型 + 策略 + 算法

损失函数：度量模型一次预测的好坏（loss function/ cost function）
风险函数：度量平均意义下模型的好坏

损失函数：（1）0-1损失函数
（2）平方损失函数
（3）绝对损失函数
（4）对数损失函数 -log P（Y|X）
风险函数：损失函数的期望（对于训练集的平均损失）
学习目标是选择期望风险最小的模型

极大似然估计是经验风险最小化。
当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等于极大似然估计。

样本容量小会产生过拟合。
结构风险最小化是为了防止过拟合。
结构风险最小化是加上正则化项或者罚项。
$min_{f \in F} \frac{1}{N}\sum_{i=1}^{N} L(y_i, f(x_i)) + \lambda J(f)$
第一项为经验风险，第二项为正则化项， $\lambda$ 为调整两者之间的关系的系数。
$L_2$ 范数： $\frac{1}{N}\sum_{i=1}^{N}(f(x_i;w) - y_i)^2 + \frac{\lambda}{2}||w||^2$
$L_1$ 范数： $\frac{1}{N}\sum_{i=1}^{N}(f(x_i;w) - y_i)^2 + \lambda||w||_1$
正则化符合奥卡姆剃刀原理。在所有可选择的模型中，能够很好的解释已知数据并且十分简单才是最好的模型。
复杂的模型有较小的先验概率，简单的模型有较大的先验概率。

贝叶斯估计中最大后验概率估计（MAP）是结构风险最小化。
当模型是条件概率分布，损失函数是对数损失函数，模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计。

学习方法对未知数据的预测能力称为繁华能力。
过拟合是指对已知数据预测得好，对未知数据预测不好。

生成方法 => 生成模型：由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型，即生成模型。P(Y|X)=P(X,Y)/P(X)
典型的生成模型：朴素贝叶斯，隐马尔可夫

判别方法 => 判别模型：由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型，即判别模型。
典型的判别模型：k近邻法，感知机，决策树，逻辑斯蒂回归，最大熵，支持向量机（SVM），提升方法，条件随机场等。

分类问题

二分类问题的评价指标：精确率（precision）和召回率（recall）
TP：正类预测成正类（预测正确 true positive）
FN：正类预测成负类（预测错误 false negative）
FP：负类预测成正类（预测错误 false positive）
TN：负类预测成负类（预测正确 true negative）

精确率：P = TP / (TP + FP)
召回率：R = TP / (TP + FN)
F1值：精确率和召回率的均值
2/F1 = 1/P + 1/R => F1 = 2TP/(2TP + FP + FN)
当精确率和召回率都搞时，F1值也会高。