统计学习三要素
方法=模型+策略+算法
模型:
1.决策函数的集合
2.参数空间
3.条件概率的集合
4.参数空间
策略:
损失函数
风险函数
O-1损失函数
平方损失函数
绝对损失函数
对数损失函数
损失函数的期望
经验风险
提醒:
经验风险最小化与结构风险最小化
当样本容量很小时,会有过拟合。
结构风险最小化,防止过拟合提出的策略。等价于正则化。
最优模型就是求解最优化问题。
算法:如果最优化问题有显式的解析式,算法比较简单。但通常解析式不存在,就需要数值计算的方法。
正则化与交叉验证
交叉验证:训练集 用于训练模型
验证集 用于模型选择
测试集 同于最终对学习方法的评估
1.简单交叉验证
2.S折交叉验证
3.留一交叉验证
泛化能力
泛化误差性质:样本容量增加,泛化误差趋于0
生成模型与判别模型
生成模型:
条件概率
朴素贝叶斯法和隐马尔可夫模型
常见:
1. 判别式分析
2. 朴素贝叶斯Native Bayes
4. K近邻KNN
5. 隐马尔科夫模型HMM
6. 贝叶斯网络
7. sigmoid belief networks
8. 马尔科夫随机场Markov random fields
9. 深度信念网络DBN
10. 隐含狄利克雷分布简称