hive
wppwpp1
这个作者很懒,什么都没留下…
展开
-
hive 死锁问题解决
1,执行插入order_info表调度是,查看调度任务发生的运行状态,发现order_info表运行失败,导致后续所有依赖该任务暂停。2.查看具体order_info任务的日志,发现该表被锁了,导致数据无法alter table 、rename、insert等操作3. 进行任务重跑,所有发生锁表的任务任务都处于等待状态3.1:为了不影响重要指标产出先将order_info的依赖任务取消,采用优先将后续任务dwd_log_full_di任务跑完, 部分重要指标依赖该表,在运行过程中发...原创 2020-09-01 23:30:04 · 2241 阅读 · 0 评论 -
HQL的like % 语法使用注意点
1,直接使用 会查不出来结果select * from xxtable where user_no like '%05144%' limit 10;2,下面语法可以正常查询出来结果select * from xxtable where user_no like '%'+'05144'+'%' limit 10;...原创 2020-05-08 16:43:59 · 453 阅读 · 0 评论 -
sparkSQL 读取本地文件,写入到hive
1,因业务需要,把本地的文件根据相关表需要导入到hive中,具体代码如下:import com.alibaba.fastjson.{JSON, JSONException, JSONObject}import com.crgt.bigdata.CarLogToHdfs.FlowReportimport org.apache.hadoop.fs.Pathimport org.apach...原创 2020-05-08 14:35:09 · 1634 阅读 · 0 评论 -
Spark无法读取hive 3.x的表数据
通过Ambari2.7.3安装HDP3.1.0成功之后,通过spark sql去查询hive表的数据发现竟然无法查询HDP3.0 集成了hive 3.0和 spark 2.3,然而spark却读取不了hive表的数据,准确来说是内表的数据。原因hive 3.0之后默认开启ACID功能,而且新建的表默认是ACID表。而spark目前还不支持hive的ACID功能,因此无法读取ACID表的数...转载 2019-10-14 11:43:11 · 203 阅读 · 0 评论 -
hive udf 获取分区的最大日期
1,因业务需要,需要获取最新的分区时间,本例使用的是20191011格式的分区时间,如果是2019-10-11好像也支持,如select maxpt('default.table1');2,引用的 pom.xml如下properties> <project.build.sourceEncoding>UTF-8</project.build.sourc...原创 2019-10-10 15:03:39 · 3025 阅读 · 0 评论 -
hive udf 写入到redis的Set 集合中
1,因业务需求,需要把hive的数据写入到reids的Set集合中,看网上都是写入到hash的实现,故自己写了一个写入Hash的实现2,需要的pom.xml文件<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId&...原创 2019-10-10 15:16:06 · 853 阅读 · 0 评论