mahout探索之旅---开篇

零零散散的学习了很多常用算法,也没有系统的总结过一次,有前辈多次指出学习知识要经常注重总结,从总结规律中学习新的知识。接下来两三个月着重总结一下mahout分布式计算算法库框架。数据挖掘算法按功能分四类:分类、聚类、预测、关联(协同过滤)。

聚类:常言道“人以群分、物以类聚”。一个聚类即是一个类物体的集合,集合的个体是相似的,不同聚类中的个体是不相似的。同类事物的距离最短,不同类事物的距离最长。在mahout算法库中有canopy、k-means、mean-shift、hierarchical、spectral、minhash等一些算法;

分类:分类是一种基于训练样本数据区分另外的样本数据标签的过程。mahout算法库中分类模块包含的算法有:logistic Regression、bayesian、SVM、random forests、HMM;

关联:关联在mahout里面也加协同过滤,又称推荐算法。基于两件事件间的关联来探索事件间的相似度,而不去理会他们之间的因果性。在mahout算法库中包含基于项目的协同过滤算法、频繁项集挖掘算法。

在学术应用中,mahout被用于数据分析研究中,在大规模数据分析和数据挖掘中使用hadoop和mapreduce来进行并行计算分析。

我在工作学习中,把主要精力都放在算法应用中,从现有算法中发觉更大的商业利益和有利于国计民生的道路。寒假时期间看涂子沛的著作《大数据》,有很深的感触,感慨之前写博文都是在一板一眼的写教程,后来发现这样不行,没有指导意义。还是得从思想来匡扶教育,泯正人心。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值