1、简介
-
规则:
lzo压缩不是hadoop中自带的,需要安装
可以切分,但是需要建立 -
优点:
压缩/解压速度比较快,合理的压缩率;支持 split,是 hadoop 中最流行的压缩格式;可以在 linux 系统下安装 lzop 命令,使用方便。 -
缺点:
压缩率比 gzip 要低一些; hadoop 本身不支持,需要安装;在应用中对 lzo 格式的文件需要做一些特殊处理(为了支持 split 需要建索引,还需要指定 inputformat 为 lzo 格式)。 -
应用场景:
一个很大的文本文件,压缩之后还大于 200M 以上的, 而且用的比较频繁,可以考虑,而且单个文件越大, lzo 优点越越明显。
lzo编译安装详解: https://blog.csdn.net/weixin_46122692/article/details/109825440
hadoop集群支持压缩详解: https://blog.csdn.net/weixin