一般查询hive表中某个字段是否存在某个值,会使用如下查询语句
select * from 表名 where dt=XXXX and 字段 like '%某个值%' limit 10;
这种比较适合hive表数据量较小的情况,出现limit10,hive会默认判断此表数据量不大,只开启一个map进行查询,
如果对于大表,比如好几百G上T的数据量,这么大的数据量只开一个map一方面查询慢,另一方面,因为数据量太大容易把机器跑崩。
采用以下方式即可,加上group by,然后就会依据hive表的文件数,开启对应个数的map端查询,这样查询更快也更健康
select 字段 from 表名 where dt=XXXX and 字段 like ‘%某个值%’ group by 字段 limit 10;
比如这边用到的例子,hive表分区数据950G,一共1001个文件,采取上面的方式group by后,一共生成1001个map端,查询速度快多了。