data mining - 实用机器学习工具与技术 - 读书笔记( 一 )

总共就 400 来页对数据挖掘的描述,剩下都是对 Weka Workbench 用法的讲解。

这里写图片描述

开始讲了 2 个比较入门级别的算法, 不知道如何翻译,扎抄原文如下:

  • Inferring Rudimentary Rules
  • Statistical Modeling

第一个算法也叫1R: Simplicity First: 最简单最优先法则

1) 根据每个不同的属性的值,设置一套与结论匹配的规则。如果与结论对应(假设其他属性值不变,因为某个属性值导致了结果经常出现),这个属性值代表的规则就为 true, 反之,则为 false; 把为 false 的记录简单相加,并除以符合这个属性的所有记录的个数,得到这个属性的某一些值与结论不合符的比例,比例最小的属性则对结论的关键性决定就越强

2) 根据第一条规则,为什么要计算“不符合”的属性比例,而不是计算“符合”属性的比例,这样不是更快捷?

这里写图片描述

这里写图片描述

第二个算法是基于统计建模来判别属性值与结果的概率,核心思想是 - 每个属性同等重要与独立不相关

1) 假设有四个 Attribute, Outlook, Temperature, Humidity, Windy. 有一个结果 play ( true, false). 这四个属性对结果来说,是同等重要的,没有相互依懒或者权重的关系。

2)我们计算每个属性值对应结果 play(true, false) 的概率, 如下图所示: 归纳了每个属性值的两类概率:在本属性区域内的概率,和在整个数据集当中对应的概率

这里写图片描述

那么对于给定的一个预测值,我们预测它对应的 play(true, false) 对应的概率,是这样计算的:
假设:Outlook = Sunny, Temperature = cool , Humidity = high , Windy = true , Play = ?

P(play=yes)=2/9X3/9X3/9X3/9X9/14=0.0053
P(play=false)=3/5X1/5X4/5X3/5X5/14=0.0206

有一种异常,当一个属性值 比如 Temperature = Hard Cool, 那么概率就是 0 了。 我们可以这样解决:凑份子

P(play=yes)=(2+up1)/(9+u)X(3+up2)/(9+u)X(3+up3)/(9+u)..

这里, p1 + p2 + p3 = 1. 那么我们就可以给这些附上权重,当然有点违背 Statistics Modeling 的初衷。

统计建模的概率计算法则:

P(H|E)=P(E1|H)P(E2|H)P(E3|H)P(E4|H)P(H)P(E)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

dbLenis

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值