1.1 引言
- 机器学习:一门致力于研究如何通过计算的手段,利用经验来改善系统自身性能的一门学科。
- 主要研究内容:关于在计算机上从数据中产生“模型”的算法,即**“学习算法”**。
1.2 基本术语
- 数据的一条记录
- 数据集
- 示例/样本sample
- 属性/特征
- 属性空间/样本空间/输入空间
- 特征向量
- 学习/训练:从数据中学得模型的过程,这个过程通过执行某个学习算法来完成
- 训练数据
- 训练样本
- 训练集
- 假设:学得模型对应了关于数据的某种潜在的规律
- 真相/真实ground-truth:这种潜在规律本身,学习过程就是为了找出或逼近真相
- 模型/学习器:可看作学习算法在给定数据和参数空间上的实例化
- 标记label:
- 样例example:拥有了标记信息的示例
- 标记空间/输出空间
- 分类:预测的是离散值
- 回归:预测的是连续值
- 二分类、正类、负类、多分类
- 测试、测试样本
- 聚类、簇
- 监督学习、无监督学习:根据训练数据是否拥有标记信息
- 机器学习的目标:使学得的模型泛化能力强
1.3 假设空间
- 归纳:从特殊到一般的“泛化”过程