第三章 输出: 知识表达
3.1 表 (决策表)
3.2 线性模型
- 回归:预测数值型变化的过程
- 可用来回归预测,也可用来分类。(高维空间是超平面)
3.3 树
- 在叶子节点上包含平均数值型值得决策树称为回归树
3.4 规则
-
分类规则
将规则转换成决策树时,
-
关联规则
-
包含例外的规则
从逻辑上,基于例外的规则可以简单地用if…then…else语句改写。
-
表达能力更强的规则
归纳逻辑编程 inductive logic programming
3.5 基于实例的表达(instance-based learning)
- 保存实例本身,将类未知的新实例与现有类已知的实例联系起来进行操作
- 直接在样本上工作,而不是推断出规则集和决策树。
- 基于实例的学习是懒惰的,尽可能延缓实质性的工作。
- 最近邻分类方法、k-近邻法(k-nearest-neighbor),欧几里得距离,所有属性被规范化。
- 名目属性(如颜色红、黄、蓝标签类),怎么表达距离?
- 属性重要性:加权 ,从训练集上获得合适的属性权值;
- 没有必要保留所有的训练实例:
- 实例过多计算缓慢、占用存储空间
- 不能对所学到的知识给出一个清晰的数据结构
3.6 聚类
- 输出采用一个显示实例如何落入聚类的图形形式;
- 有些聚类算法允许一个实例可以属于多个聚类,维恩图(Venn diagram)etc;