- 博客(5)
- 收藏
- 关注
原创 HIVE SQL数据倾斜情况以及解决办法
如何查看历史所有数据倾斜的任务参考之前的博客 获取YARN上执行时间最长的JOB列表,并查看是否存在数据倾斜1. JOIN 数据倾斜1.1 空值问题select t1.idfrom table_a t1left join table_b t2on t1.id = t2.id如果 t1.id 存在过多的NULL值,那么可能会造成数据倾斜解决办法如下 (将NULL赋 随机值)...
2019-06-30 23:38:59 4231
原创 获取YARN上执行时间最长的JOB列表,并查看是否存在数据倾斜
处理思路1、通过 HistoryServerRestApi 获取YARN JOB的基本信息 (包括JOB的 ID和名称,开始时间和结束时间)http://<history server http address:port>/ws/v1/history/mapreduce/jobs?startedTimeBegin=%s&startedTimeEnd=%s2、对 执行时间...
2019-06-29 15:46:29 3534
原创 HIVE表 占用HDFS空间 TOP表查询
思路1、通过Hive元数据,获取到表和HDFS的对应关系2、通过 pyhdfs工具类的get_content_summary方法 快速获取到占用HDFS大小代码如下# requirements.txtMySQL-python==1.2.5PyHDFS==0.2.1torndb==0.3#coding:utf-8import pyhdfsimport torndbhive_...
2019-06-29 12:36:06 1095
原创 HIVE 字段级血缘分析 写入Neo4j
Step 1. 利用HIVE Hook LineageLogger 获取字段之间的依赖关系注意:LineageLogger Hook 是Hive2.0版本之后存在的,如果HIVE版本不够需要升级HIVE版本。PS.CDH有的HIVE版本添加此功能下面以hive 2.5.3版本为例添加参数vim /usr/local/hive/conf/hive-site.xml<property&...
2019-06-28 19:11:06 12133 9
原创 HIVE SQL 计算留存率 思路
问题计算每日访问用户 在之后日期的 留存数基础表 每日访问用户IDcreate external table if not exists user_visit_date ( user_id bigint comment '用户ID') comment '每日访问用户'partitioned by (p_day date comment '分区日期')stored as parque...
2019-06-26 19:26:55 6147 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人