DoitHive

多易 Hive

一些 基础逻辑 和 细节的流程。

map-reduce map task: MR App Master . Yarn Child.
spark - driver -executor
主管 进程 MR—MR App Master Spark :Driver。
Executor ==shuffleMap Task 。。 Result task
MR == Map Task Reduce Task.
Map Task :Record Reader – 决定 读取方式。 读一条 执行 Map方法写入缓冲区。 一个线程 读写 缓冲区 另外一个线程 做检查 缓冲区是否满了。
缓冲区 做排序—>>>> k v–写入本地磁盘。
没有数据片 后 把溢出的文件做一个合并。 环形 缓冲区 溢出之后 会有 一个索引文件 记录偏移量。
Combiner -->>>

reduce 的工作逻辑---->>>
可以做 聚合。

讲讲 迭代器---->>>> 读取数据的方式 核心思想 是屏蔽掉 底层数据存储的细节。 用户通过 统一的 接口访问 不同存储中的数据,
hasNext next 方法。
iterable : .iterator~.
Java 中 集合都实现了 iterable。
JDBC ResultSet 本质也是迭代器
Reduce 拉取 数据做处理。 类似于迭代器
迭代器 中 grouping-Comparator 判断 分组依据。当前Kv和
不希望 默认key 进行分组。
MR 读取 的数据 取决于Record Reader —>>>
Map Task ==== Reader 读数据。

lsof -i :port 查看端口冲突

Zookeeper 相关。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值