
Mahout
xiaomin_____
努力~~
展开
-
深入了解推荐引擎组件(基于Apache Mahout和Elasticsearch)
推荐引擎根据用户的特定需求帮助用户缩小选择范围。在这篇文 章中,我们一起来探秘推荐引擎各部分是如何协同工作的。我们将根据电影评分数据,用协同过滤的方法来推荐电影。其关键部分是基于Apache Mahout的协同过滤算法来建立和训练机器学习模型,以及基于Elasticsearch的搜索技术来简化推荐系统的开发。什么是推荐?推荐(Recommendation)是机器学习的一个分支,通过分析...原创 2016-04-23 21:20:33 · 137 阅读 · 0 评论 -
协同过滤推荐算法在MapReduce与Spark上实现对比
MapReduce为大数据挖掘提供了有力的支持,但是复杂的挖掘算法往往需要多个MapReduce作业才能完成,多个作业之间存在着冗余的磁盘 读写开销和多次资源申请过程,使得基于MapReduce的算法实现存在严重的性能问题。大处理处理后起之秀Spark得益于其在迭代计算和内存计算上的 优势,可以自动调度复杂的计算任务,避免中间结果的磁盘读写和资源申请过程,非常适合数据挖掘算法。腾讯TDW Sp...原创 2016-03-25 11:35:56 · 158 阅读 · 0 评论 -
Mahout中数据的存储方式
用意: 希望了解Mahout中数据的存储方式, 它如何避免java object带来的冗余开销。学完知识,要进行些实战 去分析数据。 花了些时间看了看Mahout的源码和官方资料,记录下自己的一些收获。文字写了很多, 有点啰嗦了, 但是这些东西都是我这段时间学习推荐系统的一些感悟,希望感兴趣的朋友可以耐心看看,指点指点。 一、Mahout内容补充 1. Mahout本质上是一个开源...原创 2016-03-25 11:36:29 · 161 阅读 · 0 评论 -
使用Mahout实现协同过滤 spark
Mahout使用了Taste来提高协同过滤算法的实现,它是一个基于Java实现的可扩展的,高效的推荐引擎。Taste既实现了最基本的基 于用户的和基于内容的推荐算法,同时也提供了扩展接口,使用户可以方便的定义和实现自己的推荐算法。同时,Taste不仅仅只适用于Java应用程序,它 可以作为内部服务器的一个组件以HTTP和Web Service的形式向外界提供推荐的逻辑。Taste的设计...原创 2016-03-25 11:37:34 · 298 阅读 · 0 评论 -
Mahout推荐算法API详解
Mahout推荐算法API详解Hadoop家族系列文章, 主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop,...原创 2016-03-26 08:38:49 · 125 阅读 · 0 评论 -
Mahout数据承载
推荐数据的处理是大规模的,在集群环境下一次要处理的数据可能是数GB,所以Mahout针对推荐数据进行了优化。 Preference在Mahout中,用户的喜好被抽象为一个Preference,包含了userId,itemId和偏好值(user对item的偏好)。Preference是一个接口,它有一个通用的实现是GenericPreference。 因为用户的喜好数据是...原创 2016-03-27 12:06:32 · 143 阅读 · 0 评论