集群运维
文章平均质量分 63
阿武z
这个作者很懒,什么都没留下…
展开
-
数仓ETL代码优化 - 表字段 被过滤和聚合的次数
优化案例假设以下代码,在不同的调度任务中重复出现。那么是否可以抽出公共代码,减少资源使用。-- 是否可以将埋点里 搜索相关的 整合成一张表select *from app_event_trackingwhere op_type = '搜索'-- 是否可以将每日的用户下单情况 整合成公共层表select user_id, ...from order_itemwhere cre...原创 2020-03-12 17:41:10 · 316 阅读 · 1 评论 -
数仓ETL代码优化 - 找到经常在一起做JOIN的表
效果如图经常在一起做关联的表,可以更加的高内聚、低耦合,专表专用。建立中间层,让代码冗余变少,提高调度效率、减少资源使用。参考代码 Code...原创 2020-03-11 22:58:46 · 391 阅读 · 0 评论 -
数据仓库-元数据简单总结
元数据 是什么数据的数据。对使用者提供解释说明,方便快速找到想要的数据。对开发者提供开发模型指导,提供优化方向,监控异常质量。元数据主要分为两大类:技术、业务一、技术元数据1、表的基本信息、存储信息2、计算资源3、调度信息4、数据质量5、血缘关系二、业务元数据1、维度建模(维表、业务过程、指标)2、应用层(报表、数据产品)元数据 怎么做1、收集HIV...原创 2020-02-23 16:11:09 · 857 阅读 · 0 评论 -
数据仓库是什么,如何建立(总结)
一、是什么官方解释:面向主题的、集成的、相对稳定、反应历史变化,用于企业的管理决策分析。开发者角度:通过接入各种数据源,打破数据壁垒,根据业务方的需求,设计方便使用和准确的数据模型,高效将结果输出给业务方。业务方角度:能快速准确提供数据,给公司的日常运营和领导决策提供数据支持和指导。二、如何建立1、分析业务需求、确认仓库主题2、确定总线矩阵3、设计分层架构4、规范约束5、维度...原创 2020-01-28 16:42:56 · 1498 阅读 · 2 评论 -
HIVE元数据使用场景落地(python版本)
一、背景参考数仓-HIVE元数据收集指标二、使用场景举例1、调度元数据通知-关键任务完成时间异常-关键任务没按时完成2、存储元数据占用HDFS空间TOP表HDFS文件数 新增TOP表3、计算元数据数据倾斜任务列表大任务TOP列表三、CODE DEMOHIVE元数据搜集代码:HIVE元数据搜集(python版本)HIVE元数据落地代码...原创 2020-01-28 12:11:55 · 389 阅读 · 0 评论 -
HIVE元数据收集(python版本)
已有工具1、ZEUS (调度平台)2、Dr-Elephant (任务的性能监控和调优的工具)3、Apache Griffin (数据质量工具)最终落地Hbase表结构row_key: action_id__hive_table(调度元数据)列族: scheduler列: 调度名、开始时间、结束时间、action_id、所属用户(计算资源元数据)列族: computing...原创 2020-01-26 00:30:13 · 876 阅读 · 1 评论 -
跑满YARN资源-优化方向
背景: YARN资源使用情况如图从内存使用占比、Pending数量 可以看到 YARN的资源使用情况是很紧张的。优化方向1、JOB的执行引擎 MR -> Spark Sql2、监控YARN资源在队列和整体使用情况:A、将不同类型的JOB 调整到不同队列中。B、调整队列的资源分配比例,抢占比例。C、调整JOB的开始执行时间,错开YARN资源使用高峰执行。3、JOB优...原创 2019-12-14 20:12:25 · 787 阅读 · 0 评论 -
元数据-血缘分析-应用场景总结
1、异常定位假设有指标异常,想知道是什么造成的。通过 血缘分析配合数据质量,了解底层数据的波动情况,方便定位原因。2、提升调度性能通过收集 调度任务的开始结束时间,了解 关键任务 ETL链路的时间瓶颈,再根据JOB任务的执行情况,定位到性能瓶颈通过调整 任务的优先级,保证任务的资源提供, 提升整条ETL链路的执行效率。3、调度SQL优化通过检查字段的使用频率,指标是否有重复计算、资...原创 2019-12-12 13:58:13 · 3640 阅读 · 1 评论 -
通过 Dr-Elephant 监控异常HIVE任务并报警
Dr-Elephant收集到的YARN JOB信息后,存入对应的mysql表(yarn_app_result、yarn_app_heuristic_result、yarn_app_heuristic_result_details)yarn_app_result (job是否有异常)yarn_app_heuristic_result (job的异常指标)yarn_app_heuristic...原创 2019-11-28 14:59:40 · 494 阅读 · 0 评论 -
Dr-Elephant 丢失部分 YARN JOB
背景job_1574701645518_0469 在MR HISTORY里是存在但是在 dr-elephant 搜索不到通过查看dr-elephant日志在2019/11/25 目录下查找该任务,实际上该任务在 2019/11/26 目录通过找资料,确认是时区问题https://github.com/linkedin/dr-elephant/issues/360需要修改 ./...原创 2019-11-26 22:37:30 · 209 阅读 · 0 评论 -
Griffin编译失败,kafka-schema-registry-client-3.2.0.jar下载地址
Griffin 编译报错如下Failed to execute goal on project service: Could not resolve dependencies for project org.apache.griffin:service:jar:0.4.0: Failed to collect dependencies at io.confluent:kafka-schema-r...原创 2019-10-28 00:47:37 · 1757 阅读 · 2 评论 -
HDFS文件压缩工具,支持各种压缩格式
工具文档https://github.com/mullerhai/HsunTzu/blob/master/README.md核心方法调用将textfile文件类型 压缩成 gz文件类型hadoop jar /data/soft/HsunTzu/HsunTzuPro-beat-2.0.jar "${COMPRESS_HDFS_PATH}" "/" "1" "/data/soft/HsunTz...原创 2019-10-25 16:00:17 · 403 阅读 · 0 评论 -
Dr Elephant(HIVE JOB监控调优)安装使用
一、简单介绍Dr.elephant是一款对Hadoop和Spark任务进行性能监控和调优的工具官方介绍:https://github.com/linkedin/dr-elephant/wikigithub地址:https://github.com/linkedin/dr-elephant安装文档:https://github.com/linkedin/dr-elephant/wiki/Q...原创 2019-10-24 21:07:51 · 711 阅读 · 1 评论 -
YARN队列资源、NameNode等数据指标监控
整体流程1、通过各组件的JMX接口,获取待监控的数据指标2、将数据指标写入OpenTSDB3、Grafana接入OpenTSDB数据源,配置展示页面展示页面如下通过各组件的JMX接口,获取待监控的数据指标NameNode: http://localhost:50070/jmxYarn: http://localhost:8088/jmx..代码Demomonitor-...原创 2019-10-24 20:40:34 · 2502 阅读 · 0 评论 -
搭建CDH 阿里云 (Step 2: 启动yarn)
Yarn HA 文档Yarn HA 文档配置 Yarn 分配集群资源文档地址yarn-site.xml 配置<!-- Base Configs --> <property> <description>Classpath for typical applications.</description&gt原创 2018-08-04 14:18:18 · 746 阅读 · 0 评论 -
Hive On Spark搭建(cdh)
hive 和 spark版本之前有强对应关系apache hive 和 spark 对应关系表 master 2.3.0 3.0.x 2.3.0 2.3.x 2.0.0 2.2.x 1.6.0 2.1.x 1.6.0 2.0.x 1.5.0 1.2.x 1.3.1 1.1.x 1.2.0...原创 2018-08-06 09:37:44 · 2741 阅读 · 0 评论 -
搭建CDH 阿里云 (Step 3: 搭建Hive)
安装官方文档yum install hive hive-metastore hive-server2 -yPS. 找一台压力小的机器 安装hive修改Hive配置文件vim /etc/hive/conf/hive-site.xml<!-- HiveMetastore --!><property> <name>java...原创 2018-08-06 09:38:41 · 729 阅读 · 0 评论 -
zeus调度工具启动慢(zeus_action数据量太大)
记一次由于zeus服务停止后,启动花了半小时时间。MasterContext 初始化// MasterContext.javapublic void init(int port){ log.info("init begin"); ... master=new Master(this);}Master 初始化费时间的部分 GroupManagerTool.buildGlobeG...原创 2019-07-03 22:43:09 · 419 阅读 · 0 评论 -
HIVE 字段级血缘分析 写入Neo4j
Step 1. 利用HIVE Hook LineageLogger 获取字段之间的依赖关系注意:LineageLogger Hook 是Hive2.0版本之后存在的,如果HIVE版本不够需要升级HIVE版本。PS.CDH有的HIVE版本添加此功能下面以hive 2.5.3版本为例添加参数vim /usr/local/hive/conf/hive-site.xml<property&...原创 2019-06-28 19:11:06 · 12182 阅读 · 9 评论 -
HIVE表 占用HDFS空间 TOP表查询
思路1、通过Hive元数据,获取到表和HDFS的对应关系2、通过 pyhdfs工具类的get_content_summary方法 快速获取到占用HDFS大小代码如下# requirements.txtMySQL-python==1.2.5PyHDFS==0.2.1torndb==0.3#coding:utf-8import pyhdfsimport torndbhive_...原创 2019-06-29 12:36:06 · 1124 阅读 · 0 评论 -
获取YARN上执行时间最长的JOB列表,并查看是否存在数据倾斜
处理思路1、通过 HistoryServerRestApi 获取YARN JOB的基本信息 (包括JOB的 ID和名称,开始时间和结束时间)http://<history server http address:port>/ws/v1/history/mapreduce/jobs?startedTimeBegin=%s&startedTimeEnd=%s2、对 执行时间...原创 2019-06-29 15:46:29 · 3575 阅读 · 0 评论 -
YARN假死处理(JOB超过10000个)
背景YARN有资源,但有很多JOB处于PENDING状态,获取不到资源。这时查看 resourcemanager log日志,发现有大量的以下信息。resourcemanager.RMAppManager (RMAppManager.java:checkAppNumCompletedLimit(267)) - Application should be expired, max number...原创 2019-07-06 14:00:57 · 3262 阅读 · 0 评论 -
搭建CDH 阿里云 (Step 1: 启动hdfs)
准备动作在阿里云申请三台机器(Centos)安装Oracle JDK在阿里云申请三台机器(Centos)PS. 内存要大于4g,因为namenode启动的时候内存需要在每一台机器上配置域名vim&nbsp;/etc/hosts172.24.218.96 worker1172.24.218.97 worker2172.24.218.98 worker3...原创 2018-08-04 14:17:05 · 2046 阅读 · 0 评论