《白话大数据与机器学习》笔记
分类
1. 朴素贝叶斯
- 朴素贝叶斯提供了一种思维方式,即通过先验概率换算得到后验概率从而对决策分类的方法
已知条件:
- 类条件概率密度参数表达式
- 先验概率
- 基础公式:
参数说明:
- 样本空间划分为D1~Di共i个部分
- P表示括号内事件发生的概率
- 等式左边表示当事件x发生时Dj发生的概率
- 应用公式:
参数说明:
- P(A),事件A的先验概率
- P(B),事件B的先验概率,也叫标准化常量
- P(B|A),称为似然度,即A发生情况下B发生的概率
- P(A|B),称为后验概率,即B发生情况下A发生的实际概率
2. 朴素贝叶斯的分类
- 高斯朴素贝叶斯
即以正态分布式的高斯概率密度公式进行分类拟合,适用于数据符合正态分布的情况 - 多项式朴素贝叶斯
用于多维度向量的分类,常用于文章分类 - 伯努利朴素贝叶斯
即以抛硬币式的伯努利公式进行分类拟合,适用于数据符合布尔类型的情况
3. 决策树
- 决策树用于描述一次决策过程中与决策有关的数据是如何影响决策结果的,例如:
- 举例是基于主观判断的决策过程,需要一种科学客观的方法找到使决策树最简化的方式,可通过计算信息增益确定
- 决策树构建过程:
- 找到信息增益最大的字段A
- 找到信息增益最大的切分点v(连续型或枚举型)
- 决定根节点字段及其切分点
- 对切分后的两部分在去除根节点字段A的条件下再次计算信息增益找寻根节点和切分点
- 根据数据混乱程度确定决策树的层数(可以直接指定层数或将全字段切分后再减少层数)
4. 信息增益
- 枚举型字段,计算整个样本的信息熵(又称