Hive实战篇

最新推荐文章于 2024-05-10 22:10:22 发布

坤坤不爱吃鱼

最新推荐文章于 2024-05-10 22:10:22 发布

阅读量1.6k

点赞数 1

分类专栏：大数据文章标签： hive flink apache

本文链接：https://blog.csdn.net/weixin_44033210/article/details/123952417

版权

大数据专栏收录该内容

32 篇文章 12 订阅

订阅专栏

Hive实战和调优

1.数据一致性问题

对与多次修改以及只追加记录的数据的表，如何保证一致性：

id	name	sex	times_tamp
1	root	female	2022-04-04 13:24:00
2	hadoop	female	2022-04-04 13:24:30
1	flink	male	2022-04-04 13:25:00
1	hive	male	2022-04-04 13:26:00

通过开窗，排名，取最新的时间戳的数据，得到

id	name	sex	timestamp
1	hive	male	2022-04-04 13:26:00
2	hadoop	female	2022-04-04 13:24:30

多条记录去重，SQL如下

SELECT
	id,
	name,
	sex,
	times_stamp 
FROM
	( SELECT id, name, sex, times_tamp, row_number () over ( PARTITION BY id ORDER BY times_tamp ) num FROM tb1 ) t1 
WHERE
	num =1

2.Jion扫描全表问题

由于业务问题，Hive使用了分区表，但是无法使用分区字段指定分区数据，因为jion的条件不固定在那个分区内。

原SQL（小表，join全量大表）：

SELECT
	id,
	NAME,
	sex,
	age,
	money 
FROM
	tabe1 A
	LEFT JOIN table2 B ON A.id = B.id 
	AND A.userid = B.userid 
	AND A.pid = B.pid

优化(先where在Join)`where userid IN ( SELECT userid FROM tabe1 GROUP BY userid )`：

SELECT
	id,
	NAME,
	sex,
	age,
	money 
FROM
	tabe1 A
	LEFT JOIN (
	SELECT
		* 
	FROM
		table2 
	WHERE
	userid IN ( SELECT userid FROM tabe1 GROUP BY userid )) AS B ON A.id = B.id 
	AND A.userid = B.userid 
	AND A.pid = B.pid

3.分区和分桶，设置文件格式

SQL,如下

SELECT
	id,
	NAME,
	sex,
	age,
	money 
FROM
	( SELECT * FROM tabe1 whrere statdate = '2022-04-06' ) A
	LEFT JOIN ( SELECT * FROM tabe2 whrere statdate = '2022-04-06' ) B ON A.userid = B.userid

优化`按日期分区，按userid分桶`

CREATE TABLE tb1 (
id string, 
userid string, 
money DOUBLE )
PARTITIONED BY ( `statdate` string ) 
CLUSTERED BY ( `userid` ) INTO 10 BUCKETS
STORED AS ORC

其它

FlinkSql on Hive 向Hive插入批量数据出现小文件问题

跟FlinkSql程序的提交并行度有关，多少个并行度，生成多少个文件。根据数据量大小确定并行度

FlinkSql on Hive 读取Hive表数据的并行度跟HIve的分区数有关，FlinkSql默认开启多个TaskManager。

坤坤不爱吃鱼

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive实战篇

Hive实战和调优1.数据一致性问题对与多次修改以及只追加记录的数据的表，如何保证一致性：idnamesextimes_tamp1rootfemale2022-04-04 13:24:002hadoopfemale2022-04-04 13:24:301flinkmale2022-04-04 13:25:001hivemale2022-04-04 13:26:00通过开窗，排名，取最新的时间戳的数据，得到idname
复制链接

扫一扫