大数据系统开发笔记
文章平均质量分 57
RangeYan2012
欢迎大家与我交流技术问题!我的QQ:332478640
展开
-
pyspark 读写lzo 文件例子
pyspark 读写lzo 文件例子from pyspark import SparkContextfrom pyspark import SparkConfconf = SparkConf().setAppName("ta_yanshu")sc = SparkContext(conf=conf)filerdd = sc.newAPIHadoopFile("s3n://2原创 2016-07-08 19:50:21 · 5011 阅读 · 1 评论 -
flume开发--自定义Sink
kafka可以通过自定义Sink的方式实现数据搜集并写入各种LOTP数据库,下面的例子是通过自定义Source实现数据写入分布式K-V数据库Aerospike.1. 自定义Sink代码如下package kafka_sink.asd;import java.io.IOException;import java.net.ConnectException;import java.uti原创 2016-11-29 12:09:20 · 8160 阅读 · 2 评论 -
flume开发-自定义拦截器(Interceptor)
拦截器是简单的插件式组件,设置在source和channel之间。source接收到的时间,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。flume官方实现了很多拦截器也可以自定义拦截器。通过实现自定义的拦截器可以对日志进行ETL。自定义拦截器只需要实现Interceptor的继承类。具体步骤如下:1. 实现一个In原创 2017-01-04 14:55:21 · 6111 阅读 · 0 评论 -
hive使用经验总结(持续更新中)
下面是使用hive过程中一些心得体会,有不对的地方欢迎大家拍砖。原创 2016-12-27 18:06:00 · 1263 阅读 · 0 评论 -
spark开发笔记-scala 读lzo文件两种写法
spark开发笔记-scala 读写lzo文件两种写法方法一:val files = sc.newAPIHadoopFile("s3n:///方法二:val files = sc.newAPIHadoopFile[LongWritable, Text, LzoTextInputFormat]("s3n:///原创 2017-01-06 17:08:24 · 4714 阅读 · 1 评论 -
Aerospike数据库实战(五) -- Aerospike C Client 开发
1. C Client 安装sudo yum install openssl-develsudo yum install gcc gcc-c++wget -S "http://www.aerospike.com/artifacts/aerospike-client-c/3.1.18/aerospike-client-c-3.1.18.el6.x86_64.tgz" tar -zxvf a原创 2017-01-09 14:43:57 · 1955 阅读 · 1 评论 -
hive中的order by , sort by, distribute by, cluster by
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql原创 2017-02-07 17:01:03 · 709 阅读 · 0 评论 -
hive 中udf,udaf,udtf
UDF步骤:1.继承org.apache.hadoop.hive.ql.exec.UDF2.实现evaluate函数,evaluate函数支持重载[java] view plain copypackage cn.sina.stat.hive.udf; import java.util.Arrays; import org.原创 2017-03-08 11:20:23 · 858 阅读 · 0 评论