自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 HIVE SQL数据倾斜情况以及解决办法

如何查看历史所有数据倾斜的任务参考之前的博客 获取YARN上执行时间最长的JOB列表,并查看是否存在数据倾斜1. JOIN 数据倾斜1.1 空值问题select t1.idfrom table_a t1left join table_b t2on t1.id = t2.id如果 t1.id 存在过多的NULL值,那么可能会造成数据倾斜解决办法如下 (将NULL赋 随机值)...

2019-06-30 23:38:59 4231

原创 获取YARN上执行时间最长的JOB列表,并查看是否存在数据倾斜

处理思路1、通过 HistoryServerRestApi 获取YARN JOB的基本信息 (包括JOB的 ID和名称,开始时间和结束时间)http://<history server http address:port>/ws/v1/history/mapreduce/jobs?startedTimeBegin=%s&startedTimeEnd=%s2、对 执行时间...

2019-06-29 15:46:29 3534

原创 HIVE表 占用HDFS空间 TOP表查询

思路1、通过Hive元数据,获取到表和HDFS的对应关系2、通过 pyhdfs工具类的get_content_summary方法 快速获取到占用HDFS大小代码如下# requirements.txtMySQL-python==1.2.5PyHDFS==0.2.1torndb==0.3#coding:utf-8import pyhdfsimport torndbhive_...

2019-06-29 12:36:06 1095

原创 HIVE 字段级血缘分析 写入Neo4j

Step 1. 利用HIVE Hook LineageLogger 获取字段之间的依赖关系注意:LineageLogger Hook 是Hive2.0版本之后存在的,如果HIVE版本不够需要升级HIVE版本。PS.CDH有的HIVE版本添加此功能下面以hive 2.5.3版本为例添加参数vim /usr/local/hive/conf/hive-site.xml<property&...

2019-06-28 19:11:06 12133 9

原创 HIVE SQL 计算留存率 思路

问题计算每日访问用户 在之后日期的 留存数基础表 每日访问用户IDcreate external table if not exists user_visit_date ( user_id bigint comment '用户ID') comment '每日访问用户'partitioned by (p_day date comment '分区日期')stored as parque...

2019-06-26 19:26:55 6147 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除