一、绪论
机器学习:基于经验做出预测。主要内容是从数据中产生“模型”的算法,即“学习算法”。
经验:经验通常以数据形式存在
(色泽=青绿;根蒂=蜷缩;敲声=浊响
色泽=乌黑;根蒂=稍蜷;敲声=沉闷
色泽=浅白;根蒂=硬挺;敲声=清脆)
数据集:一组记录的集合
示例(样本):每条记录
属性:(色泽;根蒂;敲声)
属性值:(青绿;蜷缩;浊响)
属性空间(样本空间,输入空间):属性张成的空间
特征向量:示例在属性空间对应的坐标向量
维数:每个示例属性的数量
学习(训练):从数据中学的模型
训练数据:训练中使用的数据
训练样本:训练中使用的每个样本
训练集:训练样本组成的集合
假设:学得模型对应关于数据的某种潜在的规律
标记:训练样本结果信息
样例:拥有标记的示例
分类:预测任务为离散值,例如”好瓜“”坏瓜“
回归:预测任务为连续值
测试:使用模型进行预测的过程
聚类:按照属性值将示例分组
泛化:学得模型适用于新样本的能力
假设样本空间中全体样本服从一个未知的”分布“D,我们获得的每个样本都是独立的从这个分布上采样获取的,即”独立同分布“,训练样本越多,D信息越多,越有可能通过学习获得具有强泛化能力的模型。
归纳:从具体的事实归接触一般性规律
演绎:从一般到特殊的”特化“过程
归纳偏好:机器学习算法在学习过程中对某类假设的偏好
假设空间:将所有假设组成的空间
版本空间:与训练集一致的”假设空间“
二、模型空间
错误率:分类错误的样本数占样本总数的比例
精度:1-错误率
误差(分为训练误差和泛化误差):学习器的实际预测输出与样本的真实输出的差异
过拟合:把训练样本自身的特点当成所有潜在样本的特点,导致泛化性能下降。
欠拟合:指队训练样本的一般性质未学好
评估
测试集:测试学习器对新样本的判别能力。以测试集的”测试误差“作为泛化误差近似。(测试集尽量与训练集互斥)
产生训练集和测试集的方法:
1.留出法
直接将数据集华为两个互斥的集合,训练集S,测试集T
(一般采用若干次随即划分、重复进行实验取平均值作为结果)
2.交叉验证法
将数据集分为k个大小相似的互斥子集(每个子集尽量保持数据分布一致性,分层采样),每次利用k-1个训练集,一个作为训练集,最终返回k次实验的均值。
(若k=m,留一法)