算法基础知识之分类和聚类

《白话大数据与机器学习》笔记

分类

1. 朴素贝叶斯

  1. 朴素贝叶斯提供了一种思维方式,即通过先验概率换算得到后验概率从而对决策分类的方法
    已知条件:
    1. 类条件概率密度参数表达式
    2. 先验概率
  2. 基础公式:
    朴素贝叶斯基础
    参数说明:
    1. 样本空间划分为D1~Di共i个部分
    2. P表示括号内事件发生的概率
    3. 等式左边表示当事件x发生时Dj发生的概率
  3. 应用公式:
    朴素贝叶斯应用
    参数说明:
    1. P(A),事件A的先验概率
    2. P(B),事件B的先验概率,也叫标准化常量
    3. P(B|A),称为似然度,即A发生情况下B发生的概率
    4. P(A|B),称为后验概率,即B发生情况下A发生的实际概率

2. 朴素贝叶斯的分类

  1. 高斯朴素贝叶斯
    即以正态分布式的高斯概率密度公式进行分类拟合,适用于数据符合正态分布的情况
  2. 多项式朴素贝叶斯
    用于多维度向量的分类,常用于文章分类
  3. 伯努利朴素贝叶斯
    即以抛硬币式的伯努利公式进行分类拟合,适用于数据符合布尔类型的情况

3. 决策树

  1. 决策树用于描述一次决策过程中与决策有关的数据是如何影响决策结果的,例如:
    决策树举例
  2. 举例是基于主观判断的决策过程,需要一种科学客观的方法找到使决策树最简化的方式,可通过计算信息增益确定
  3. 决策树构建过程:
    1. 找到信息增益最大的字段A
    2. 找到信息增益最大的切分点v(连续型或枚举型)
    3. 决定根节点字段及其切分点
    4. 对切分后的两部分在去除根节点字段A的条件下再次计算信息增益找寻根节点和切分点
    5. 根据数据混乱程度确定决策树的层数(可以直接指定层数或将全字段切分后再减少层数)

4. 信息增益

  1. 枚举型字段,计算整个样本的信息熵(又称
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值