Spark
RangeYan2012
欢迎大家与我交流技术问题!我的QQ:332478640
展开
-
[翻译]Spark编程指南(Python版)
译者说在前面:最近在学习Spark相关的知识,在网上没有找到比较详细的中文教程,只找到了官网的教程。出于自己学习同时也造福其他初学者的目的,把这篇指南翻译成了中文,笔者水平有限,文章中难免有许多谬误,请高手不吝赐教。 本文翻译自Spark Programming Guide,由于笔者比较喜欢Python,在日常中使用也比较多,所以只翻译了Python部分,不过Java和Scala大同小异。转载 2016-05-04 17:40:38 · 551 阅读 · 0 评论 -
pyspark 读写lzo 文件例子
pyspark 读写lzo 文件例子 from pyspark import SparkContext from pyspark import SparkConf conf = SparkConf().setAppName("ta_yanshu") sc = SparkContext(conf=conf) filerdd = sc.newAPIHadoopFile("s3n://2原创 2016-07-08 19:50:21 · 5035 阅读 · 1 评论 -
Hbase踩坑-pre-splitting
问题描述:线上程序在写hbase时,hbase有时候会挂掉。 问题详细现象:程序写hbase时写压力都集中到某一个region server上。 基于以上现象研究了hbase region split机制。在默认情况下hbase会根据自动splitting机制进行region分片。当一个table刚被创建的时候,Hbase默认的分配一个region给table。也就是说这个时候,所有的读写请求原创 2017-01-03 19:46:43 · 4476 阅读 · 0 评论 -
spark开发笔记-scala 读lzo文件两种写法
spark开发笔记-scala 读写lzo文件两种写法 方法一: val files = sc.newAPIHadoopFile("s3n:/// 方法二: val files = sc.newAPIHadoopFile[LongWritable, Text, LzoTextInputFormat]("s3n:///原创 2017-01-06 17:08:24 · 4738 阅读 · 1 评论