Hive的几种常见的压缩格式_hive常用的压缩格式有哪些-CSDN博客

本文链接：https://blog.csdn.net/zll_1234/article/details/97100297

该博客探讨了在Hive中使用不同压缩格式（RCfile, ORC, sequencefile, parquet, Avro）的性能测试。通过建立大表、装载数据、执行SQL查询，得出各格式的测试结果，展示了它们在大数据处理中的性能表现。" 112072815,10539818,在Linux上安装Python3并保留Python2,"['Linux安装', 'Python3', '编程语言']

摘要由CSDN通过智能技术生成

一.测试背景

工作中想把历史的结构化数据到Hive中进行查询，由于数据较大，需要进行压缩，
根据Hive官方提供的几种压缩格式分别进行写入，读取，OLAP计算的性能测试，
以求找到最好的压缩格式。

二.测试方法概述

1、数据来源：采用生产上数据抽样，大小为100G。原始日志格式为textfile文件（标准JSON）。
2、测试平台：公司Ambari测试平台，物理内存100G。
3、测试方法：将textfile文件通过脚本自动录入到Hive里，形成大表。（注：解析JSON数据的serde使用 hdp hive自带的hive-hcatalog-core.jar 里面的org.apache.hive.hcatalog.data.JsonSerDe类）
4、从大表创建基于各种不同存储方式的分区表。
5、核心组件HDP版本选择

三.实际操作

1.建立大表js_data

CREATE TABLE IF NOT EXISTS data_ysz.js_data (referer STRING,ip STRING,
articleId STRING,catalogCode STRING, userAgent STRING,sessionId STRING,
title STRING,deviceId STRING,url STRING,visitTime STRING,catalogId STRING,
atype STRING,domain STRING,action STRING,visitDate STRING) 
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe';