![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
景丰
这个作者很懒,什么都没留下…
展开
-
数仓建模面试部分
难点:面对1000 + 张表进行建模,将业务梳理清楚,达到快速对任何指标的统计·分清事实表、维度表1.1-1 放入接近总工程50%的时间了解需求——(产品经理-统计哪些指标),(业务人员-梳理核心业务)1-2 将业务表导入EZDML,通过id将相关联的业务连接到一起(此过程中过滤掉部分无用表)1-3 维度表:商品、用户、访客、活动事实表:详情、加购、下单、支付、物流2.ODS2-1保持数据原貌 进行原始数据备份2-2创建分区表 防止后续全表三秒?2-3采用压缩 减少磁盘空原创 2021-08-11 00:33:02 · 467 阅读 · 0 评论 -
Hadoop面试总结
一、入门 1.Hadoop 3.X端口号: HDFS端口:9870 MR:8088 历史日志:19888 客户端访问集群端口:8020 2.配置文件: core-site.xml //核心 hdfs-site.xml //存储 mapred-site.xml //计算 yarn-site.xml //调度二、HDFS 1.运行机制:笔试题百度2.HDFS小文件的处理方法问题: 1.1个文件块占用namenode大约150K内存,128G存9亿文件块 2.进行计算时,每原创 2021-08-04 17:05:22 · 72 阅读 · 0 评论 -
数据倾斜及治理方法
常见会产生数据倾斜的框架:hadoop,hive,hbase,flink,spark,sqoop,以及各种Shuffle阶段一、对于数据倾斜的定义1.是什么:在shuffle过程中大量同一key的数据被分配至同一分区,导致其中一节点压力过大,而其他节点过于清闲的情况。2.现象:①绝大多数map Task运行快速,而个别Task,尤其多见于reduce task运行过慢。②OOM(Hadoop——container,Spark——driver)3.原理:进行Shuffle的过程中将相同的ke原创 2021-07-30 16:33:08 · 163 阅读 · 0 评论 -
HDFS的写数据流程
HDFS的写数据流程流程包含对象:A.客户端:包含HDFS client,DFS和FSDataOutputStream三个模块B.NameNode:存放元数据C.多个DataNode:以block为单位存放数据及其长度、校验和和时间戳等内容。发送过程(将文件从客户端发送到HDFS)://三次交互一次传1.客户端中的DFS(DistributedFileSystem):向NameNode中发送上传请求。2.NameNode:检查该文件是否已存在,父目录是否存在。NameNode判断后给予反馈原创 2021-03-19 18:13:47 · 79 阅读 · 0 评论