数据挖掘
文章平均质量分 84
老杨0511
人生应当精彩,拿酒来
展开
-
决策树学习(上)——深度原理剖析及源码实现
引言本文给大家分享的主题是决策树(Decision Tree)的原理剖析并附上代码实现供大家参考。由于基于决策树的算法较多,因此文章分为上下篇。上篇主要剖析决策树原理、需要掌握的信息论知识以及Java源码实现等内容。下篇内容包括基于决策树的ID3、CART以及C4.5等著名算法的深入比较、理解以及完整代码实现。原创 2015-08-14 16:52:16 · 5661 阅读 · 2 评论 -
Aprior并行化算法在Spark上的实现
本文为大家分享的Spark实战案例是K-频繁项集挖掘——Apriori并行化算法的实现。关联数据挖掘、频繁项集挖掘的常用算法有Apriori,Fp-growth以及eclat算法。这里我使用Apriori算法进行频繁项集挖掘。Apriori算法于2006年12月被国际权威的学术组织ICDM评为数据挖掘领域的十大经典算法。原创 2015-08-12 08:59:45 · 4647 阅读 · 0 评论 -
Apriori算法——深度剖析及源码实现
引言在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品居然摆在一起。但这一奇怪的举措却使尿布和啤酒的稍量大幅增加了。这可不是一个笑话,而是一直被商家所津津乐道的发生在美国沃尔玛连锁超市的真实案例。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这个发现为商家带来了大量的利润,但是如何从浩原创 2015-09-01 17:40:15 · 7551 阅读 · 0 评论 -
决策树学习(下)——ID3、C4.5、CART深度剖析及源码实现
引言在《决策树学习(上)——深度原理剖析及源码实现》中,我们讨论了决策树的基本原理、所需要掌握的信息论知识,并在文章的最后给出了Java源码实现。在这一节,我们继续讨论基于决策树学习的算法。由于基于决策树的算法比较多且受篇幅限制,本文我们只讨论著名的ID3、C4.5以及CART算法,并在文章最后给出源码实现。ID3与C4.5原创 2015-08-29 10:03:11 · 13789 阅读 · 3 评论 -
浅谈数据挖掘与机器学习
引言在大多数非计算机专业人士以及部分计算机专业背景人士眼中,机器学习(Data Mining)以及数据挖掘(Machine Learning)是两个高深的领域。在笔者看来,这是一种过高”瞻仰“的习惯性错误理解(在这里我加了好多定语)。事实上,这两个领域与计算机其他领域一样都是在融汇理论和实践的过程中不断熟练和深入,不同之处仅在于渗透了更多的数学知识(主要是统计学),在后面的文章中我会努力将这些数学知原创 2015-08-17 22:17:41 · 47459 阅读 · 2 评论