Hive查询性能测试记录

最新推荐文章于 2024-07-16 22:39:54 发布

ZHBR_F1

最新推荐文章于 2024-07-16 22:39:54 发布

阅读量6.6k

点赞数

分类专栏：大数据文章标签： hive 数据存储性能测试大数据

本文链接：https://blog.csdn.net/zhbr_f1/article/details/72781039

版权

大数据专栏收录该内容

20 篇文章 0 订阅

订阅专栏

一、测试环境

HDFS 七个节点，五个dn，两个nn。Hive配置在其中一个nn，使用MySQL远程元数据库，同一个节点同时开启hiveserver2和metastore。所有节点内存一致，30GB，CPU为Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40GHz （x86_64）。所有节点通通过两台真实物理机虚拟（使用XenServer虚拟）。

二、样本数据

数据存储在HDFS，格式为parquet，存在分区。每条记录如下：

id | <tm, k1..k350, t351..t500>

根据id分区，分区数为1000。字段类型：id int， tm String， kn 为int， tn 为double。

按业务场景，每秒每个分区（设备）产生一条数据，共501个字段（500个测点+timestamp），每天每分区产生172800条数据。共有两天的数据，样本总容量为172800*1000*2=345600000。

三、Hive表建立

（1）创建内部表

create table wt_csv_newtb (tm string,

k1 int, k2 int .. k350 int, t351 double,

t352 double .. t500 double)

partitioned by (id int) stored as parquet;

（2）创建1000分区