- 博客(5)
- 资源 (21)
- 收藏
- 关注
原创 用MapReduce做相似度分析
Q: 有一批数据(10亿量级),数据内容包括: 列 类型 id INT content String id为key,全局唯一 content为一个句子 列之间以\t分割 like: 1 “互联网够公司的日志无处不在,web日志,js日志,搜索日志,监控日志等等” 2 "对于这些日志的离线分析(Hadoop),wget&r
2013-12-23 19:32:34 15641 1
原创 Kafka(二):环境搭建&测试
参考:Kafka QuickStart 在一台机器上构建一个3个节点的kafka集群,并测试producer、consumer在正常情况下的行为,以及在lead broker/follow broker失效情况下的行为 1.下载并解压kafka 0.8.0 release $ mkdir kafka $ wget http://apache.dataguru.cn/kafka/0.
2013-12-18 19:17:03 52091 3
原创 Kafka(一):基础
1. 引言 互联网够公司的日志无处不在,web日志,js日志,搜索日志,监控日志等等。对于这些日志的离线分析(Hadoop),wget&rsync虽然人力维护成本较高,但可以满足功能行需求。但对于这些日志的实时分析需求(例如实时推荐,监控系统),则往往必须要引入一些“高大上”的系统。 传统的企业消息系统(例如WebSphere)并不是非常适合大规模的日志处理系统,理由有三: 1) 过于关注可
2013-12-18 19:15:32 44004 2
原创 大众点评数据平台架构变迁
最近和其他公司的同学对数据平台的发展题做了一些沟通,发现各自遇到的问题都类似,架构的变迁也有一定的相似性。 以下从数据&架构&应用的角度对2012.07-2014.12期间大众点评数据平台的架构变迁做一个概括性的总结,希望对还处在数据平台发展初期的同学有一些帮助,欢迎线下沟通。
2013-12-18 19:04:37 21294 3
原创 一封模块短板分析的邮件
针对国君提出的“map1-stat在极限情况下cpu idle在33%,无法再压下去,而目前处理的瓶颈在与统计线程的计算。统计线程处理逻辑存在短板,没有最有效的利用CPU,”(简称短板问题),进行了如下场景分析: .......
2013-12-18 18:52:48 5315 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人