bigdata
冉小苏
这个作者很懒,什么都没留下…
展开
-
Kafka在大数据中的应用
Kafka适用大数据处理的原因:支持存储任何类型和格式的数据 使用商业硬件来存储大量数据 是一个高性能和可伸缩的系统 将数据存储在磁盘上,可以用来服务不同的数据管道;可用于实时事件处理和批处理 由于数据和系统冗余,它是高可靠的管理Kafka的高容量高容量的写入或高消息写入吞吐量 高容量的读取或高消息读取吞吐量 高容量的复制速度 高磁盘刷新或I/O 生产者读取和消...原创 2019-03-06 20:27:06 · 3010 阅读 · 0 评论 -
TFIDF案例
TF-IDF(term frequency-inverse document frequency)是一种用于咨询检索与咨询探勘的常用加权技术。--TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。 字词的重要性随着它在文件中出现的次数成正比增加 但同时会随着它在语料库中出现的频率成反比下降--TF-IDF加权的各...原创 2019-03-06 15:28:36 · 1874 阅读 · 0 评论 -
hadoop-mr案例-itemcf
电子商务网站是个性化推荐系统重要地应用的领域之一 -亚马逊就是个性化推荐系统的积极应用者和推广者,亚马逊的推荐系统深入到网站的各类商品,为亚马逊带来了至少30%的销售额。 不光是电商类,推荐系统无处不在。 QQ好友推荐;新浪微博的你可能感兴趣的人;优酷,土豆的电影推荐;豆瓣的图书推荐;大众点评的餐饮推荐;世纪佳缘的相亲推荐;天际网的职业推荐等等。思考:----购买成功后:购买了该商品的...原创 2019-03-06 15:28:11 · 429 阅读 · 0 评论 -
PageRank计算
什么是Pagerank-PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。-是Google创始人拉里.佩奇和谢尔盖.布林于1997年创造的-PageRank实现了将链接价值概念作为排名因素#计算环境--Hadoop-2.7.1--四台主机--两台RM的HA--离线计算框架MapReduce算法原理---思...原创 2019-03-04 22:01:27 · 1459 阅读 · 0 评论 -
[转载] spark优化 来自美团
[转载] spark优化 来自美团前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、 流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用 Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单...转载 2019-04-03 09:20:11 · 235 阅读 · 0 评论 -
flume监听文件数据--发送到kafka中
flume安装:(略,见前面内容)kafka安装:(略,见前面内容)创建kafka topicbin/kafka-topics.sh --create --zookeeper master:2181,slave1:2181,slave2:2181 --replication-factor 1 --partitions 2 --topic test【前面进行了环境配置了就可以直接用ka...原创 2019-05-15 15:55:24 · 3715 阅读 · 0 评论