pyspark 读写lzo 文件例子

最新推荐文章于 2022-05-11 21:29:04 发布

RangeYan2012

最新推荐文章于 2022-05-11 21:29:04 发布

阅读量5k

点赞数

分类专栏：原创 Python 大数据 Spark 大数据系统开发笔记

本文链接：https://blog.csdn.net/yanshu2012/article/details/51863565

版权

原创同时被 3 个专栏收录

58 篇文章 1 订阅

订阅专栏

大数据

15 篇文章 1 订阅

订阅专栏

Python

9 篇文章 0 订阅

订阅专栏

pyspark 读写lzo 文件例子

from pyspark import SparkContext
from pyspark import SparkConf


conf = SparkConf().setAppName("lzo_test")
sc = SparkContext(conf=conf)

filerdd = sc.newAPIHadoopFile("s3n://20160707/tag-20160707-32-00002.lzo","com.hadoop.mapreduce.LzoTextInputFormat","org.apache.hadoop.io.LongWritable","org.apache.hadoop.io.Text")
filerdd.map(lambda x: x[1]).map( lambda x: (x.split("\t")[0],x.split("\t")[1])).saveAsHadoopFile("/tmp/tag-20160707-32-00002-new.lzo","org.apache.hadoop.mapred.TextOutputFormat",compressionCodecClass="com.hadoo
p.compression.lzo.LzopCodec")
sc.stop()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

RangeYan2012

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
pyspark 读写lzo 文件例子

pyspark 读写lzo 文件例子from pyspark import SparkContextfrom pyspark import SparkConfconf = SparkConf().setAppName("ta_yanshu")sc = SparkContext(conf=conf)filerdd = sc.newAPIHadoopFile("s3n://2
复制链接

扫一扫