PS:该系列数据都可以在图灵社区(点击此链接)中随书下载中下载(如下)
从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis) 或者关联规则学习(association rule learning)。
1 关联分析
Apriori算法
优点:易编码实现。
缺点:在大数据集上可能较慢。
使用数据类型:数值型或者标称型数据。
关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以由两种形式:频繁项集或者关联关系。频繁项集(frequent item sets) 是经常出现在一块的物品的集合,关联规则(association rules) 暗示两种物品之间可能存在很强的关系。
交易号码 | 商品 |
---|---|
0 | 豆奶,莴苣 |
1 | 莴苣,尿布,葡萄酒,甜菜 |
2 | 豆奶,尿布,葡萄酒,橙汁 |
3 | 莴苣,豆奶,尿布,葡萄酒 |
4 | 莴苣,豆奶,尿布,橙汁 |
一个项集的支持度(support) 被定义为数据集中包含该项集的记录所占的比例。如,{豆奶}的支持度为4/5,{豆奶,尿布}的支持度为3/5。
可信度或置信度(confidence) 是针对一条诸如{尿布}→{葡萄酒}的关联关系定义的。这条规则的可信度被定义为 支 持 度 ( { 尿 布 , 葡 萄 酒 } ) 支 持 度 ( { 尿 布 } ) = 3 / 5 4 / 5 = 3 4 = 0.75 \frac{支持度(\{尿布,葡萄酒\})}{支持度(\{尿布\})}=\frac{3/5}{4/5}=\frac{3}{4}=0.75 支持度({
尿布})支持度({
尿布,葡萄酒})=4/53/5=43=