Spark
RangeYan2012
欢迎大家与我交流技术问题!我的QQ:332478640
展开
-
[翻译]Spark编程指南(Python版)
译者说在前面:最近在学习Spark相关的知识,在网上没有找到比较详细的中文教程,只找到了官网的教程。出于自己学习同时也造福其他初学者的目的,把这篇指南翻译成了中文,笔者水平有限,文章中难免有许多谬误,请高手不吝赐教。本文翻译自Spark Programming Guide,由于笔者比较喜欢Python,在日常中使用也比较多,所以只翻译了Python部分,不过Java和Scala大同小异。转载 2016-05-04 17:40:38 · 562 阅读 · 0 评论 -
pyspark 读写lzo 文件例子
pyspark 读写lzo 文件例子from pyspark import SparkContextfrom pyspark import SparkConfconf = SparkConf().setAppName("ta_yanshu")sc = SparkContext(conf=conf)filerdd = sc.newAPIHadoopFile("s3n://2原创 2016-07-08 19:50:21 · 5049 阅读 · 1 评论 -
Hbase踩坑-pre-splitting
问题描述:线上程序在写hbase时,hbase有时候会挂掉。问题详细现象:程序写hbase时写压力都集中到某一个region server上。基于以上现象研究了hbase region split机制。在默认情况下hbase会根据自动splitting机制进行region分片。当一个table刚被创建的时候,Hbase默认的分配一个region给table。也就是说这个时候,所有的读写请求原创 2017-01-03 19:46:43 · 4501 阅读 · 0 评论 -
spark开发笔记-scala 读lzo文件两种写法
spark开发笔记-scala 读写lzo文件两种写法方法一:val files = sc.newAPIHadoopFile("s3n:///方法二:val files = sc.newAPIHadoopFile[LongWritable, Text, LzoTextInputFormat]("s3n:///原创 2017-01-06 17:08:24 · 4752 阅读 · 1 评论