目录
什么是机器学习?
利用计算机从历史数据在找出规律,并把这些规律用到对未来不确定场景的决策。
机器学习的典型应用:
(1)关联规则:啤酒+纸尿片,购物篮分析
(2)聚类:用户细分精准营销
(3)朴素贝叶斯:垃圾邮件检测
(4)决策树:风险识别
(5)ctr预估:互联网广告:百度的前多少个词条(商业广告)(按照点击率排)
基本术语
- 学习(训练):从数据中学得模型的过程
- 训练集:参与模型训练的样本集合
- 测试:学得模型后,使用其样本进行预测的过程
- 测试集:被预测的样本集合
- 假设:学得模型对应的关于数据的某种潜在规律
- 分类:输出结果是离散值
- 回归:输出结果是连续值
- 监督学习:训练样本有标记
- 无监督学习:训练样本无标记
- 泛化能力:学得模型适用于新样本的能力
- 独立同分布:样本空间的全体样本都服从一个未知的分布,且相互独立
归纳与演绎
-
归纳:
从特殊到一般的“泛化”:从样例(训练样本)中学习。 -
演绎:
从一般到特殊的“特化”:从数学公理推导出定理
归纳偏好
-
机器学习应该有偏好
-
归纳偏好原则一: 奥卡姆剃刀(j简单优先)(比如光滑曲线A)
经验误差与过拟合
1、真实值与预测值
误差:模型输出与样本真实值之间的差异
- 错误率:分类错误样本数占总样本数比例
- 精度:1-错误率
- 训练误差:模型在训练集上的误差
- 泛化误差:模型在新样本上的误差
- 目标:得到泛化误差小的模型/学习器
- 实际:新样本未知
以经验误差代表泛化误差
- 模型从训练样本中学得适用于所有潜在样本的“普遍规律”
2、“过”与“不及”
- 过拟合:用力过猛
- 欠拟合:用力不足
评估方法
1、训练集与测试集
- 目标:对于模型/学习器的泛化误差进行评估
- 专家样本:训练集+测试集
- 训练集:训练误差
- 测试集:测试误差
用测试误差近似表示泛化误差(要求独立同分布&互斥)
2、测试误差与泛化误差
测试误差
- 留出法
- 交叉验证
- 自助法
(1)留出法
- 训练集+测试集:互斥互补
- 训练集训练模型,测试集测试模型
- 合理划分、保持比例
- 单次留出与多次留出
- 多次留出法:如对专家样本随机进行100次训练集/测试集划分,评估结果取平均
(2)交叉验证法
- K折交叉验证:将专家样本等份划分为K个数据