机器学习
目录
绪论
含义:研究关于‘学习算法’的学问(通过计算 的手段,利用经验(数据)来改善系统自身的性能)。
基本术语:
数据集:
(色泽=浅白,根蒂=蜷缩,敲声=浑浊),(色泽=乌黑,根蒂=蜷缩,敲声=浑浊)........
示例/样本:每条记录(色泽=浅白,根蒂=蜷缩,敲声=浑浊)
属性/特征:色泽,根蒂,敲声
属性值:浅白,乌黑
训练/学习:从数据中学得模型/学习器的过程。训练数据,训练样本,训练集,假设,真相/真实
样例:((色泽=浅白,根蒂=蜷缩,敲声=浑浊),好瓜)有了标记的示例,称为样例。
预测任务:希望通过对训练集进行学习,建立一个从输入空间到输出空间的映射f:x->y。
学习任务分类:分类(离散值),回归(连续值),二分类( 类,负类),聚类(将训练集分成若干组)。
训练集是否有标记信息,可分为两大类:监督学习(分类,回归),无监督学习(聚类)。
模型评估与选择
错误率:分类错误的样本数占样本总数的比例,E=a/m
精度:1-错误率
误差:模型的实际预测输出与样本的真实输出之间的差异
训练误差/经验误差:模型在训练集上的误差
泛化误差:模型在新样本上的误差
过拟合:学习器将训练样本学的太好了,可能将训练样本自身的一些特点当作了所有潜在样本都具有的一般性质,使泛化性能下降。-----过配
欠拟合:对训练样本的一般性质尚未学好----欠配
评估方法
对一个包含m个样例的数据集D={(x1,y1),(x2,y2),....,(xn,yn)},从中产生训练集S和测试集T。
- 留出法
常见做法:2/3~4/5的样本训练,剩下的样本测试
- 交叉验证法
数据集D划分为k个子集,k折交叉验证p次,也就是最终的评估结果是p次的k折交叉验证结果的均值。
常见的:10次10折交叉验证法
交叉验证法特例:
留一法:数据集D,包含m个样本,k=m。
缺陷:训练m个模型开销叫大。
- 自助法
给定包含m个样本的数据集D,采样产生D’,每次随机从D中挑选一个样本,拷贝放入D’,然后在将该样本放入D,重复m次,所以我们就得到了包含m个样本的数据集D’,显然,D中有一部分会在D’中多次出现。
样本在m次采样中不被采到的概率是 ( 1 − 1 / m )^m
也就是说,D中的数据有36.8%的概率出现在D’中。
优点:在数据量较小的情况下有用,而且从初始数据集中产生了多个不同的训练集,对集成学习有很大的好处。
缺点:自助法产生的数据集会改变初始数据集的分布,引入估计偏差。
调参与最终模型
参数配置不同,学得模型的性能会有显著的差别。 学习算法的很多参数在实数范围内取值,可能不行,所以要对每个参数选定范围和变化步长,但是这样的参数往往不是最佳值,但是是权衡计算开销和性能折中的结果。
例子:如果有3个参数,每个参数5个候选值,每一组训练/测试集有 5 ^3 = 125 个模型考查。
性能度量:衡量模型泛化能力的评价标准
- 错误率与精度
- 查准率,查全率与F1
学习笔记出处: