绪论
1.2 基本术语
- 数据集 data set / 样本
- 属性(attribute)/ 特征(feature)
- 属性空间(attribute space)
- 特征向量(feature vector)
- 分类(classification) 预测离散值:正类(positive class)/反类(negative class)
- 聚类 (clustering)
- 根据训练数据是否拥有标记信息,学习任务分为两大类:监督学习(supervised learning)/无监督学习(unsupervised learning)
- 泛化能力(generalization):学的模型用于新样本的能力
1.3假设空间
- 归纳(induction)从特殊到一般
- 演绎(deduction)
模型评估与选择
2.1 经验误差与过拟合
- 错误率(error rate):分类错误的样本书占样本总数的比例
- 过拟合(overfitting)/欠拟合(underfitting)