Hive
关于Hive
光脚虾
这个作者很懒,什么都没留下…
展开
-
SQL优化:使用distribute by 防止数据倾斜
distribute by :用来控制map输出结果的分发,即map端如何拆分数据给reduce端。 会根据distribute by 后边定义的列,根据reduce的个数进行数据分发,默认是采用hash算法。当 distribute by 后边跟的列是:rand()时,即保证每个分区的数据量基本一致...原创 2020-02-11 22:11:47 · 18953 阅读 · 1 评论 -
Hive中not in函数的坑点
Hive中的not in函数有一个隐藏的陷阱,当not in() 中的数值包含NULL,匹不上的数据会返回NULL而不是True。所以当在where中使用not in子查询进行筛选,一定要记得去除NULL值。样例代码:--not in的原始结果select num,num not in (null,'2'), num not in (null,'2') and true from(sel...转载 2019-07-16 23:13:45 · 1520 阅读 · 0 评论 -
HIVE自定义UDF时5.1.5-jhyde报红
问题:在自定义UDF时IDEorg\pentaho\pentaho-aggdesigner-algorithm\5.1.5-jhyde报红原因:引用jar包找不到解决方法:下载jar,上传到maven本地库路径org/pentaho/pentaho-aggdesigner-algorithm/5.1.5-jhyde下https://public.nexus.pentaho.org/#bro...原创 2019-07-17 15:11:46 · 1402 阅读 · 1 评论 -
HIVE实际开发问题:select * 和 select count(*) 条数不一样
前置目前是做一个大数据平台迁移的项目,传输完数据后,在部署生产环境之前需要对功能模块进行测试,测试时对hive每张表都造了一条数据问题情况检查到某张表的时候sql语句:select * from table;结果显示是这样的:select count(*) from table;当我count(*)时候 结果显示是这样的明明表里面有数据,但是count 的结果是0解决...原创 2019-12-04 10:38:37 · 4225 阅读 · 0 评论 -
Hive 实际开发问题:||分割符,特殊分隔符处理
今天遇到一个问题,上游给过来的建表原创 2019-12-12 11:28:04 · 3107 阅读 · 0 评论