自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 资源 (29)
  • 收藏
  • 关注

原创 MapReduce任务中文部分正常,部分乱码

集群上提交的mr任务,发现结果中有的中文正常,有的中文是论码。分析了一下,应该是集群中hadoop节点的编码配置不一样。可以加上下面的参数:mapred.child.env="LANG=en_US.UTF-8,LC_ALL=en_US.UTF-8" ;

2017-02-20 10:29:18 1155

转载 论SparkStreaming的数据可靠性和一致性

Driver HA由于流计算系统是长期运行、且不断有数据流入,因此其Spark守护进程(Driver)的可靠性至关重要,它决定了Streaming程序能否一直正确地运行下去。Driver实现HA的解决方案就是将元数据持久化,以便重启后的状态恢复。如图一所示,Driver持久化的元数据包括:Block元数据(图1中的绿色箭头):Receiv

2017-02-19 11:34:17 1035

转载 Spark Streaming场景应用|Kafka数据读取方式

Spark Streaming 支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论。本篇文章主要着眼于我们目前的业务场景,只关注Spark Streaming读取Kafka数据的方式。 Spark Streaming 官方提供了两种方式读取Kafka数据:一是Receiver-based Ap...

2017-02-19 11:33:05 1210

原创 Spark实现二次排序

1、HDFS文件说明 文件为普通的文本文件,无压缩,\001分割,共3列,一次为province_id,city_id,city_uv需要按照province_id升序,city_uv降序操作2、代码var data = sc.textFile("/home/hdfs/test_second")var rdd1=data.map(_.split("\001")).map(fields=>(f...

2017-02-18 15:17:36 1305

转载 整合Kafka到Spark Streaming——代码示例和挑战

作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.

2017-02-17 15:16:57 833

转载 Spark streaming基于kafka 以Receiver方式获取数据 原理和案例实战

本博文讲述的内容主要包括:1,SparkStreaming on Kafka Receiver 工作原理机制 2,SparkStreaming on Kafka Receiver案例实战 3,SparkStreaming on Kafka Receiver源码解析一:SparkStreaming on Kafka Receiver 简介:1、Spark-Stream

2017-02-16 10:03:11 1185

原创 Spark技术博客

IBM:https://www.ibm.com/search/csass/search/?q=Spark&sn=dw&lang=zh&cc=CN&en=utf&hpp=20&dws=cndw&lo=zh

2017-02-15 10:19:10 720

转载 Spark-Streaming之window滑动窗口应用

Spark-Streaming之window滑动窗口应用,Spark Streaming提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据,会被聚合起来执行计算操作,然后生成的RDD,会作为window DStream的一个RDD。网官图中所示,就是对每三秒钟的数据执行一次滑动窗口计算,这3秒内的3个RDD会被聚合起来进行处理,然后过

2017-02-15 10:18:40 8362

转载 Flume 中文件channel VS 内存channel (File Channel VS Memory Channel)

当设计Flume数据流程图时,决定使用什么类型的channel将是至关重要的。在写这篇文章是,当前有几个channel可供选择,分别是Memory Channel, JDBC Channel , File Channel,Psuedo Transaction Channel。比较常见的是前三种channel。具体使用那种channel,需要根据具体的使用场景。这里我详细讲解File Channel

2017-02-14 17:36:51 6548

java8 32位 64位 jdk8 最新下载地址

java8 32位 64位 jdk8 最新下载地址

2018-01-06

阿里巴巴Java开发手册V1.2.0

阿里巴巴Java开发手册V1.2.0

2017-05-24

protobuf-2.5.0.tar.gz

protobuf-2.5.0.tar.gz

2015-07-06

rpmbuild-demo工程

一个rpm build打包的示例工程,下载完成后可以解压成/home/wang/rpmbuild目录,然后到SPEC目录中执行rpmbuild -ba dteworker-client.spec 即可完成打包

2015-01-21

hive函数大全 函数参考

hive函数大全 ,非常全的文档!

2013-12-17

BIEE11g 入门培训

BIEE11g 入门培训,非常适合初学者入门~

2013-11-08

BIEE11g 详细安装文档

BIEE11g非常详细的安装文档,亲自安装成功!

2013-11-08

Weka源代码详细分析系列

Weka源代码详细分析系列,和http://download.csdn.net/download/mythee/2238812里面是一模一样的,介绍的非常详细

2012-05-08

junit 3.8 jar包

junit 3.8 jar包

2012-04-05

sqlserver jar包 jdbc驱动

sqlserver jar包 jdbc驱动

2012-04-05

oracle jar包 jdbc驱动程序

oracle jar包 jdbc驱动程序!java开发常用jar包

2012-04-05

mysql jdbc驱动程序 jar包

mysql-connector-java-5.0.8-bin.jar mysql驱动程序 jar包

2012-04-05

ant apache 1.7 jar

ant apache 1.7 jar!java web开发常用jar包

2012-04-05

Stuct2权威指指南完整版上

讲的是Struct2,非常适合初学者

2012-03-05

java spring全解 详细教程 原理

讲解spring的资料,非常适合初学者!!!

2012-03-05

设计模式可复用面向对象软件的基础

设计模式的开山之作,一句话:没看过此书,不要说懂设计模式!

2011-10-24

JAVA与模式 带标签 清晰版 阎宏

JAVA与模式,带标签,很清楚!讲解讲的很详细,例子也很好!

2011-10-24

java 反射机制例子

讲解了JAVA中反射机制,包含例子,代码!对初学者很有用

2011-10-04

LDAP 资料代码实例

关于LDAP的资料,经常用的,包含新建,查询,删除,修改

2011-10-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除