data mining - 实用机器学习工具与技术 - 读书笔记（一）

最新推荐文章于 2023-05-08 11:11:00 发布

dbLenis

最新推荐文章于 2023-05-08 11:11:00 发布

阅读量1.1k

点赞数

分类专栏： BusinessIntelligence/DataWareHousing 文章标签： modeling

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wujiandao/article/details/45582983

版权

BusinessIntelligence/DataWareHousing 专栏收录该内容

57 篇文章 0 订阅

订阅专栏

总共就 400 来页对数据挖掘的描述，剩下都是对 Weka Workbench 用法的讲解。

这里写图片描述

开始讲了 2 个比较入门级别的算法, 不知道如何翻译，扎抄原文如下：

Inferring Rudimentary Rules
Statistical Modeling

第一个算法也叫1R: Simplicity First: 最简单最优先法则

1) 根据每个不同的属性的值，设置一套与结论匹配的规则。如果与结论对应（假设其他属性值不变，因为某个属性值导致了结果经常出现），这个属性值代表的规则就为 true, 反之，则为 false; 把为 false 的记录简单相加，并除以符合这个属性的所有记录的个数，得到这个属性的某一些值与结论不合符的比例，比例最小的属性则对结论的关键性决定就越强

2) 根据第一条规则，为什么要计算“不符合”的属性比例，而不是计算“符合”属性的比例，这样不是更快捷？

这里写图片描述

这里写图片描述

第二个算法是基于统计建模来判别属性值与结果的概率，核心思想是 - 每个属性同等重要与独立不相关

1）假设有四个 Attribute, Outlook, Temperature, Humidity, Windy. 有一个结果 play ( true, false). 这四个属性对结果来说，是同等重要的，没有相互依懒或者权重的关系。

2）我们计算每个属性值对应结果 play(true, false) 的概率，如下图所示: 归纳了每个属性值的两类概率：在本属性区域内的概率，和在整个数据集当中对应的概率

这里写图片描述

那么对于给定的一个预测值，我们预测它对应的 play(true, false) 对应的概率，是这样计算的：
假设：Outlook = Sunny, Temperature = cool , Humidity = high , Windy = true , Play = ?

$P ( play = yes ) = 2/9 X 3/9 X 3/9 X 3/9 X 9/14 = 0.0053$
$P ( play = false ) = 3/5 X 1/5 X 4/5 X 3/5 X 5/14 = 0.0206$

有一种异常，当一个属性值比如 Temperature = Hard Cool, 那么概率就是 0 了。我们可以这样解决：凑份子

$P ( play = yes ) = ( 2 + up1)/( 9 + u) X ( 3 + up2) / ( 9 + u ) X ( 3 + up3) / ( 9 + u) …..$

这里， p1 + p2 + p3 = 1. 那么我们就可以给这些附上权重，当然有点违背 Statistics Modeling 的初衷。

统计建模的概率计算法则：

P (H | E) = P ( E 1 | H ) * P ( E 2 | H ) * P ( E 3 | H ) * P ( E 4 | H ) * P ( H ) P ( E )

$P(H|E) = \frac {P(E1|H)*P(E2|H)*P(E3|H)*P(E4|H)*P(H)}{ P ( E ) }$

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

dbLenis 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。