一.测试背景
工作中想把历史的结构化数据到Hive中进行查询,由于数据较大,需要进行压缩,
根据Hive官方提供的几种压缩格式分别进行写入,读取,OLAP计算的性能测试,
以求找到最好的压缩格式。
二.测试方法概述
1、数据来源:采用生产上数据抽样,大小为100G。原始日志格式为textfile文件(标准JSON)。
2、测试平台:公司Ambari测试平台,物理内存100G。
3、测试方法:将textfile文件通过脚本自动录入到Hive里,形成大表。(注:解析JSON数据的serde使用 hdp hive自带的hive-hcatalog-core.jar 里面的org.apache.hive.hcatalog.data.JsonSerDe类)
4、从大表创建基于各种不同存储方式的分区表。
5、核心组件HDP版本选择
三.实际操作
1.建立大表js_data
CREATE TABLE IF NOT EXISTS data_ysz.js_data (referer STRING,ip STRING,
articleId STRING,catalogCode STRING, userAgent STRING,sessionId STRING,
title STRING,deviceId STRING,url STRING,visitTime STRING,catalogId STRING,
atype STRING,domain STRING,action STRING,visitDate STRING)
ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe';