![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 85
阿武z
这个作者很懒,什么都没留下…
展开
-
MapReduce 二次排序总结
需求1、输入数据:keyA 1keyB 3keyB 77keyB 54keyA 2keyC 22keyC 221keyC 202、目标输出keyA 1,2keyB 3,54,77keyC 20,22,221解决思路STEP 1. 改装Map结构,组合成一个新的Key值MR框架不管是 默认排序 或者是 自定义排序 都只是对Key值进行排序,但我们可以将原始数据的K...原创 2020-02-15 18:18:48 · 317 阅读 · 0 评论 -
bitmap和布隆过滤器简单总结
一、BitMap解决的问题:大数据量下的排序、查找、去重。1、关键通过 bit位 表示一个数值的状态(是否存在),那么1MB能大约表示 800万数值 (1,000,000B * 8 bit )2、局限性:1、内存限制:10位的数值(即99亿), 占用 1.25GB内存2、一般应用在数值类型。字符串映射到 BitMap 存在Hash碰撞的问题(引入bloom filter)3、不适合数...原创 2020-02-15 15:24:36 · 419 阅读 · 0 评论 -
跑满YARN资源-优化方向
背景: YARN资源使用情况如图从内存使用占比、Pending数量 可以看到 YARN的资源使用情况是很紧张的。优化方向1、JOB的执行引擎 MR -> Spark Sql2、监控YARN资源在队列和整体使用情况:A、将不同类型的JOB 调整到不同队列中。B、调整队列的资源分配比例,抢占比例。C、调整JOB的开始执行时间,错开YARN资源使用高峰执行。3、JOB优...原创 2019-12-14 20:12:25 · 744 阅读 · 0 评论 -
数仓-HIVE元数据收集指标
通过对HIVE表进行打标签,构建基础元数据表1、存储2、应用场景3、数据质量4、重要等级5、调度任务6、计算资源7、被使用情况1、存储HIVE表是否分区、量级(可定阈值 设定等级)优化集群存储资源时、快速找到大表。方便监控表的量级变化情况2、应用场景从应用层入手(画像、广告、财务等),通过血缘链路,给涉及到的HIVE表,打上应用场景的标签清楚知道 表是能应用在什么场景...原创 2019-12-02 11:54:24 · 854 阅读 · 0 评论 -
YARN-Container申请和分配
AM在NM上成功启动并向RM注册后,向RM请求资源(Container)到获取资源的整个过程,以及RM内部涉及的主要工作流程。整个过程可看做以下两个阶段的迭代循环阶段1:AM汇报资源需求 并领取已分配资源。阶段2:NM向RM汇报各个Container的运行状态,如果RM发现它上面有空闲的资源,则进行一次资源分配,并将分配的资源保存到对应的数据结构中,等待下一次AM发送心跳信息时获取。阶段...原创 2019-11-21 11:51:30 · 1865 阅读 · 0 评论 -
YARN-ApplicationMaster启动流程
流程图代码流程1、客户端提交Application// ClientRMService.javapublic SubmitApplicationResponse submitApplication( SubmitApplicationRequest request) throws YarnException { try { // call RMAppMana...原创 2019-11-17 22:37:42 · 1081 阅读 · 0 评论 -
阿武的博客文档索引
1、Hadoop组件安装搭建CDH 阿里云 (Step 1: 启动hdfs)搭建CDH 阿里云 (Step 2: 启动yarn)搭建CDH 阿里云 (Step 3: 搭建Hive)Hive On Spark搭建(cdh)2、元数据HIVE 字段级血缘分析 写入Neo4j3、JOB计算管理Dr Elephant(HIVE JOB监控调优)安装使用获取YARN上执行时间最长的JOB列...原创 2019-10-24 21:48:13 · 378 阅读 · 3 评论 -
YARN队列资源、NameNode等数据指标监控
整体流程1、通过各组件的JMX接口,获取待监控的数据指标2、将数据指标写入OpenTSDB3、Grafana接入OpenTSDB数据源,配置展示页面展示页面如下通过各组件的JMX接口,获取待监控的数据指标NameNode: http://localhost:50070/jmxYarn: http://localhost:8088/jmx..代码Demomonitor-...原创 2019-10-24 20:40:34 · 2425 阅读 · 0 评论 -
HIVE 字段级血缘分析 写入Neo4j
Step 1. 利用HIVE Hook LineageLogger 获取字段之间的依赖关系注意:LineageLogger Hook 是Hive2.0版本之后存在的,如果HIVE版本不够需要升级HIVE版本。PS.CDH有的HIVE版本添加此功能下面以hive 2.5.3版本为例添加参数vim /usr/local/hive/conf/hive-site.xml<property&...原创 2019-06-28 19:11:06 · 12057 阅读 · 9 评论 -
MapReduce Shuffle 过程
Map从磁盘上读取数据执行map函数Partition分区(放进内存)Sort排序(内存排序)Combine结果(内存预聚合)将结果写到本地的磁盘上Merge(对磁盘上的文件合并)ReduceCopy (fetch 拉取数据直接放进内存)Merge (内存->磁盘)Merge (磁盘->磁盘)执行reduce函数word cou...原创 2018-08-04 14:15:32 · 537 阅读 · 0 评论 -
YARN集群资源如何分配
如何分配集群资源 (怎么配置Yarn)总资源集群中每台机器的配置 (RAM,CPU,Disk,网卡)预留资源总资源 - 集群中运行服务需要的资源(操作系统OS,DataNode,NodeManger,HBase,Hive,ZK,Impala..)配置集群YARN分配资源 主要参数:yarn.nodemanager.resource.memory-mb 每...原创 2018-08-04 14:14:54 · 6126 阅读 · 0 评论 -
HADOOP YARN组件介绍
ResourceManagerResourceManager负责告诉ApplicationMaster哪些Containers可以用 - 组件: Scheduler (对application进行资源分配管理) - 组件: ApplicationManager (接受client提交的job请求, 为application分配一个container作为ApplicationMaster)...原创 2018-08-04 13:55:05 · 647 阅读 · 0 评论