spark开发笔记-scala 读lzo文件两种写法

最新推荐文章于 2022-09-26 12:29:58 发布

RangeYan2012

最新推荐文章于 2022-09-26 12:29:58 发布

阅读量4.7k

点赞数 2

分类专栏：原创大数据系统开发笔记 Spark

本文链接：https://blog.csdn.net/yanshu2012/article/details/54140038

版权

原创同时被 3 个专栏收录

58 篇文章 1 订阅

订阅专栏

大数据系统开发笔记

8 篇文章 0 订阅

订阅专栏

Spark

4 篇文章 0 订阅

订阅专栏

spark开发笔记-scala 读写lzo文件两种写法

方法一：

val files = sc.newAPIHadoopFile("s3n://<YOUR_BUCKET>/<YOUR_PATH_TO_LZO_FILES/*.lzo", classOf[com.hadoop.mapreduce.LzoTextInputFormat],

classOf[org.apache.hadoop.io.LongWritable],classOf[org.apache.hadoop.io.Text]).map(_._2.toString)

方法二：

val files = sc.newAPIHadoopFile[LongWritable, Text, LzoTextInputFormat]("s3n://<YOUR_BUCKET>/<YOUR_PATH_TO_LZO_FILES/*.lzo").map(_._2.toString)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

RangeYan2012

关注关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spark下读写lzo文件（java）

xyf123的专栏

10-15

9360

1、编译安装hadoop-lzo 这个网上已经说的很详细了，具体可以参考这个链接： hadoop使用LZO压缩 http://running.iteye.com/blog/969800 2、具体如何配置lzo，上面的文档已经有了，但是为了讨论问题，这里再复制一下： a、修改hadoop配置文件core-site.xml Xml代码

Spark算子--Scala版本(头歌)

m0_53510670的博客

06-14

3457

第1关转换算子之map和distinct算子代码如下： importorg.apache.spark.rdd.RDD importorg.apache.spark.{SparkConf,SparkContext} objectEduCoder1{ defmain(args:Array[String]):Unit={ valconf=newSparkConf().setAppName("educoder1").setMaster...

1 条评论您还未登录，请先登录后发表或查看评论

Spark平台中，对lzo压缩文件的读取--Scala实现

ice_kind的博客

03-31

5769

#记录一个坑#在Spark中，有时需要对lzo压缩文件的读取。这里采用的是newAPIHadoopFile()来进行读取 val configuration = new Configuration() configuration.set("io.compression.codecs", "org.apache.hadoop.io.compress.DefaultCodec,org.apac...

Spark配置启用LZO压缩

AaronLwx的博客

05-15

2333

假设你已经配好操作系统的LZO以及Hadoop的LZO 这里直接去配Spark的LZO，不然Spark提交作业的时候如果涉及到文件操作的话会报错 [hadoop@hadoop004 conf]$ pwd /home/hadoop/app/spark-2.3.3-bin-2.6.0-cdh5.7.0/conf [hadoop@hadoop004 conf]$ vim vim spark...

读写lzo

godspeedlaile9的专栏

01-22

1547

一、读lzo 在《Hadoop 2.2.0安装和配置lzo》文章中介绍了如何基于 Hadoop 2.2.0安装lzo。里面简单介绍了如果在Hive里面使用lzo数据。今天主要来说说如何在Hadoop 2.2.0中使用lzo压缩文件当作的数据。　　lzo压缩默认的是不支持切分的，也就是说，如果直接把lzo文件当作Mapreduce任务的输入，那么Mapreduce只会用一个Map来

spark 读取lzo 环境依赖

最新发布

guitarCC的博客

09-26

996

bug:由于lzo压缩本身不属于hadoop体系自带压缩方式以及spark自带的解析方式，所以往往需要额外配置，idea 本地环境想要读取lzo文件，就要使本地环境支持lzo依赖出于开发的便利，需要idea中读取到lzo压缩的数据

spark-scala-hdfs-docker-example：使用Scala的Spark将文件写入HDFS，并使用Docker“ scale”自动添加新的Spark工人

02-19

spark-scala-hdfs-docker-example 使用Scala的Spark可以使用Docker“ scale”自动添加新的Spark工人，从而将文件读/写到HDFS 默认值：工作区目录位于/ app Jar文件位于/app/app.jar。主类是app.Main 如果要...

spark-Scala-介绍-教程-入门-手册-调研1

08-03

如果使用`java`命令，需要确保`scala-library.jar`在classpath中。 5. **Scala开发环境** 安装Scala通常涉及下载安装包并设置环境变量`SCALA_HOME`和`PATH`。Windows用户可以选择MSI安装包，自动配置环境变量。...

Spark算子--Scala版本 educoder

m0_56494324的博客

04-22

2192

第1关：转换算子之map和distinct算子 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object EduCoder1 { def main(args: Array[String]): Unit = { val conf =new SparkConf().setAppName("educoder1").setMaster("local") val sc

头歌educoder Spark算子--Scala版本实训答案

热门推荐

hhy1500549796的博客

05-18

1万+

Hadoop Core 学习笔记(二) lzo文件的写入和读取

kukuyaoye的专栏

01-08

1069

zhuanzi :http://guoyunsky.iteye.com/blog/1266226 压缩是绕不开的话题,因为当今很多程序的压力还是在IO.特别是Hadoop这种分布式存储和运算框架,单台机器的IO,网络通信IO都是压力和挑战.关于Hadoop为什么要用Lzo来压缩而没有选用传统的压缩方法,我这里不再阐述.相关资料很多.有兴趣的可以查看cloudera这篇博客:http:

lzo文件的解压缩命令

zh515858237的专栏

04-26

9122

lzop -d xxx.lzo

基于CDH5集群配置snappy压缩

Ganymede的Hadoop世界

11-04

2459

基于CDH5集群配置snappy压缩

Spark程序中如何启用lzo压缩？

penriver的博客

04-20

2515

LZO是一个无损的数据压缩库，相比于压缩比它更加追求速度，官网地址是：http://www.oberhumer.com/opensource/lzo，相比gzip,bzip，lzo的压缩率不高，但是压缩、解压速度都比较高。启用lzo的压缩方式对于小规模集群是很有用处，压缩比率大概能降到原始日志大小的1/3。同时压缩和解压缩的速度也比较快。本文讲解如何在hadoop集群中配置lzo，并在spark中启动lzo

Spark-RDD-Scala 算子操作数据源分析

"data01.txt 是一个用于 Spark RDD Scala 算子操作的示例数据文件，包含多行数据，每行数据由四部分组成：姓名、技能领域、在该领域的评分（可能是技能掌握程度）和未知字段。数据涉及多个计算机科学和技术主题，如...