三要素:方法 = 模型 + 策略 + 算法
损失函数:度量模型一次预测的好坏(loss function/ cost function)
风险函数:度量平均意义下模型的好坏
损失函数:(1)0-1损失函数
(2)平方损失函数
(3)绝对损失函数
(4)对数损失函数 -log P(Y|X)
风险函数:损失函数的期望(对于训练集的平均损失)
学习目标是选择期望风险最小的模型
极大似然估计是经验风险最小化。
当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等于极大似然估计。
样本容量小会产生过拟合。
结构风险最小化是为了防止过拟合。
结构风险最小化是加上正则化项或者罚项。
m
i
n
f
∈
F
1
N
∑
i
=
1
N
L
(
y
i
,
f
(
x
i
)
)
+
λ
J
(
f
)
min_{f \in F} \frac{1}{N}\sum_{i=1}^{N} L(y_i, f(x_i)) + \lambda J(f)
minf∈FN1∑i=1NL(yi,f(xi))+λJ(f)
第一项为经验风险,第二项为正则化项,
λ
\lambda
λ为调整两者之间的关系的系数。
L
2
L_2
L2范数:
L
(
w
)
=
1
N
∑
i
=
1
N
(
f
(
x
i
;
w
)
−
y
i
)
2
+
λ
2
∣
∣
w
∣
∣
2
L(w) = \frac{1}{N}\sum_{i=1}^{N}(f(x_i;w) - y_i)^2 + \frac{\lambda}{2}||w||^2
L(w)=N1∑i=1N(f(xi;w)−yi)2+2λ∣∣w∣∣2
L
1
L_1
L1范数:
L
(
w
)
=
1
N
∑
i
=
1
N
(
f
(
x
i
;
w
)
−
y
i
)
2
+
λ
∣
∣
w
∣
∣
1
L(w) = \frac{1}{N}\sum_{i=1}^{N}(f(x_i;w) - y_i)^2 + \lambda||w||_1
L(w)=N1∑i=1N(f(xi;w)−yi)2+λ∣∣w∣∣1
正则化符合奥卡姆剃刀原理。在所有可选择的模型中,能够很好的解释已知数据并且十分简单才是最好的模型。
复杂的模型有较小的先验概率,简单的模型有较大的先验概率。
贝叶斯估计中最大后验概率估计(MAP)是结构风险最小化。
当模型是条件概率分布,损失函数是对数损失函数,模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。
学习方法对未知数据的预测能力称为繁华能力。
过拟合是指对已知数据预测得好,对未知数据预测不好。
生成方法 => 生成模型:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测模型,即生成模型。P(Y|X)=P(X,Y)/P(X)
典型的生成模型:朴素贝叶斯,隐马尔可夫
判别方法 => 判别模型:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型,即判别模型。
典型的判别模型:k近邻法,感知机,决策树,逻辑斯蒂回归,最大熵,支持向量机(SVM),提升方法,条件随机场等。
分类问题
二分类问题的评价指标:精确率(precision)和召回率(recall)
TP:正类预测成正类(预测正确 true positive)
FN:正类预测成负类(预测错误 false negative)
FP:负类预测成正类(预测错误 false positive)
TN:负类预测成负类(预测正确 true negative)
精确率:P = TP / (TP + FP)
召回率:R = TP / (TP + FN)
F1值:精确率和召回率的均值
2/F1 = 1/P + 1/R => F1 = 2TP/(2TP + FP + FN)
当精确率和召回率都搞时,F1值也会高。
标注问题
回归问题
一元回归,多元回归
最常用的损失函数是平方损失函数,最小二乘法