![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
传输
yfk
这个作者很懒,什么都没留下…
展开
-
Kafka(二):环境搭建&测试
参考:Kafka QuickStart在一台机器上构建一个3个节点的kafka集群,并测试producer、consumer在正常情况下的行为,以及在lead broker/follow broker失效情况下的行为1.下载并解压kafka 0.8.0 release$ mkdir kafka$ wget http://apache.dataguru.cn/kafka/0.原创 2013-12-18 19:17:03 · 52079 阅读 · 3 评论 -
Sqoop:容错
对于一个传输工具/平台,传输任务失败不可怕,可怕的地方在于“脏数据”如何处理,3种思路:1. 临时表:使用临时表缓存数据,然后在一个transaction中将临时表的数据move到目的表2. 自定义回滚:通过用户自定义的语句/方法,在任务失败后,执行清数据操作3. 传输任务的幂等性:如果一个任务失败了,产生了脏数据,解决问题后,再跑一次任务,能够最终正确,例如hive写入使用INSERT OVERWRITE,原创 2014-01-03 19:16:48 · 15670 阅读 · 1 评论 -
Hadoop数据传输工具sqoop
概述sqoop是Apache顶级项目,主要用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。sqoop架构:sqoop架构非常简单,其整合了Hive、Hbase和Oozie,通过map-reduce任务来传输数据,从而提供并发特性和容错。sqoop的进一步发展可以参考:A Ne原创 2013-03-24 19:22:05 · 64123 阅读 · 4 评论 -
Kafka(一):基础
1. 引言互联网够公司的日志无处不在,web日志,js日志,搜索日志,监控日志等等。对于这些日志的离线分析(Hadoop),wget&rsync虽然人力维护成本较高,但可以满足功能行需求。但对于这些日志的实时分析需求(例如实时推荐,监控系统),则往往必须要引入一些“高大上”的系统。传统的企业消息系统(例如WebSphere)并不是非常适合大规模的日志处理系统,理由有三:1) 过于关注可原创 2013-12-18 19:15:32 · 43971 阅读 · 2 评论