机器学习(Machine Learning and Data Mining)CS 5751——final复习记录 因为是整理来给自己看的,所以都是大纲……
因为是整理来给自己看的,所以都是大纲……
关联规则挖掘
Association Rule Mining
给定一组transactions, 寻找rules,根据其他items来预测item的出现。
support和confidence
关联挖掘在于找出所有满足条件的关联规则:
(1)support大于minsup threshold
(2)confidence大于minconf threshold
具体步骤:
(1)frequent itemset generation
[找出频率大于minsup的itemsets]
(2)rule generation
[从binary partitioning里找出高confidence的规则]
关联性挖掘的问题
复杂度:O(NMw)
N:number of transactions[可以用DHP和vertical-based挖掘算法]
N:number of candidates【2^d】[修剪pruning]
reduce NM:使用高效的存储方法
处理问题:Apriori principle
Apriori principle:如果一个Itemset是频繁的的,那么他的子集也是频繁的。
也被