hadoop中使用lzo压缩详解

本文介绍了在Hadoop中使用LZO压缩的方法,包括其优点、缺点和适用场景。LZO压缩速度快,但需要额外安装并建立索引。通过将lzop压缩的数据上传到HDFS,运行WC命令,然后创建索引,可以实现对大文件的有效支持。
摘要由CSDN通过智能技术生成

1、简介

  • 规则:
    lzo压缩不是hadoop中自带的,需要安装
    可以切分,但是需要建立

  • 优点:
    压缩/解压速度比较快,合理的压缩率;支持 split,是 hadoop 中最流行的压缩格式;可以在 linux 系统下安装 lzop 命令,使用方便。

  • 缺点:
    压缩率比 gzip 要低一些; hadoop 本身不支持,需要安装;在应用中对 lzo 格式的文件需要做一些特殊处理(为了支持 split 需要建索引,还需要指定 inputformat 为 lzo 格式)。

  • 应用场景:
    一个很大的文本文件,压缩之后还大于 200M 以上的, 而且用的比较频繁,可以考虑,而且单个文件越大, lzo 优点越越明显。

lzo编译安装详解: https://blog.csdn.net/weixin_46122692/article/details/109825440

hadoop集群支持压缩详解: https://blog.csdn.net/weixin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值