- 博客(9)
- 资源 (29)
- 收藏
- 关注
原创 MapReduce任务中文部分正常,部分乱码
集群上提交的mr任务,发现结果中有的中文正常,有的中文是论码。分析了一下,应该是集群中hadoop节点的编码配置不一样。可以加上下面的参数:mapred.child.env="LANG=en_US.UTF-8,LC_ALL=en_US.UTF-8" ;
2017-02-20 10:29:18 1155
转载 论SparkStreaming的数据可靠性和一致性
Driver HA由于流计算系统是长期运行、且不断有数据流入,因此其Spark守护进程(Driver)的可靠性至关重要,它决定了Streaming程序能否一直正确地运行下去。Driver实现HA的解决方案就是将元数据持久化,以便重启后的状态恢复。如图一所示,Driver持久化的元数据包括:Block元数据(图1中的绿色箭头):Receiv
2017-02-19 11:34:17 1035
转载 Spark Streaming场景应用|Kafka数据读取方式
Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论。本篇文章主要着眼于我们目前的业务场景,只关注Spark Streaming读取Kafka数据的方式。 Spark Streaming 官方提供了两种方式读取Kafka数据:一是Receiver-based Ap...
2017-02-19 11:33:05 1210
原创 Spark实现二次排序
1、HDFS文件说明 文件为普通的文本文件,无压缩,\001分割,共3列,一次为province_id,city_id,city_uv需要按照province_id升序,city_uv降序操作2、代码var data = sc.textFile("/home/hdfs/test_second")var rdd1=data.map(_.split("\001")).map(fields=>(f...
2017-02-18 15:17:36 1305
转载 整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.
2017-02-17 15:16:57 834
转载 Spark streaming基于kafka 以Receiver方式获取数据 原理和案例实战
本博文讲述的内容主要包括:1,SparkStreaming on Kafka Receiver 工作原理机制 2,SparkStreaming on Kafka Receiver案例实战 3,SparkStreaming on Kafka Receiver源码解析一:SparkStreaming on Kafka Receiver 简介:1、Spark-Stream
2017-02-16 10:03:11 1185
原创 Spark技术博客
IBM:https://www.ibm.com/search/csass/search/?q=Spark&sn=dw&lang=zh&cc=CN&en=utf&hpp=20&dws=cndw&lo=zh
2017-02-15 10:19:10 720
转载 Spark-Streaming之window滑动窗口应用
Spark-Streaming之window滑动窗口应用,Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。网官图中所示,就是对每三秒钟的数据执行一次滑动窗口计算,这3秒内的3个RDD会被聚合起来进行处理,然后过
2017-02-15 10:18:40 8362
转载 Flume 中文件channel VS 内存channel (File Channel VS Memory Channel)
当设计Flume数据流程图时,决定使用什么类型的channel将是至关重要的。在写这篇文章是,当前有几个channel可供选择,分别是Memory Channel, JDBC Channel , File Channel,Psuedo Transaction Channel。比较常见的是前三种channel。具体使用那种channel,需要根据具体的使用场景。这里我详细讲解File Channel
2017-02-14 17:36:51 6548
rpmbuild-demo工程
2015-01-21
Weka源代码详细分析系列
2012-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人