hadoop
hadoop
Steven - y
这个作者很懒,什么都没留下…
展开
-
Topn高效
将指定的类放在key上(序列化+排序规则)重写分区规则重写分组器原创 2021-06-17 09:46:15 · 54 阅读 · 0 评论 -
任务提交理解
conf.job.jar提交给resourcemanager,resourcemanager接受job,分配jobid,返回客户端分完id后会有一个MrApplication_001的对象,对象会找Application要一个运算资源,之后初始化代表自己的app对象。app从初始程序拿jar包,配置文件,输入路径,输出路劲,计算切片的事情。之后算好启动几个task(比如启动3个MapperTask,2个reducetask)开始run,向resourcemanager 申请资源,此时就可以看到两个g的原创 2021-06-17 09:45:49 · 104 阅读 · 0 评论 -
mr内部处理数据流程
根据输入路径中的文件个数和大小计算任务切片输出看k,v调用map方法,判断是否又k,v,有几个实行几次在map处理数据,在写出数据到缓冲区MapOutBuffer,里面进行hashcode,但可能时负的 所以进入HashPartitoner进行处理缓存到数组中 ,环形数组,进行快排数组不写满,到80%,溢出器溢出,按分区编号溢出(0号区,1号区),至少溢出一次将溢出的相同的区号合并(Merger归并排序)启动reducer0和1, map端提供了shuffle服务分发,reducer通过F.原创 2021-06-17 09:45:25 · 110 阅读 · 0 评论 -
MR数据处理流程
MR数据处理流程4台机器作为运算资源的机器来处理数据,将处理的数据进行任务划分,根据数据的大小划分4机器并行处理数据输出数据任务划分,在分区器内对数据的hascode进行取模,有几台机器就进行几次取模,根据hascode分给运算机器进行处理最后保存最终结果Map阶段主要是将待处理的大量数据进行任务划分,并行处理数据通过分区器进行规则划分,将相同的单词分配到一个任务上[分区中]合并reducer端:并行计算 分别处理数据自己分区的数据进行全局合并并得到最后结果保存在介质中(HDFS)..原创 2021-06-17 09:45:02 · 847 阅读 · 0 评论 -
元数据管理+checkpoint
客户将数据存在内存中 对其进行修改 和查看优点:操作方便,处理快缺点:容易丢失为了防止丢失,将数据持久化(序列化)到磁盘,每次操作都要序列化,频繁的对象–IO—>磁盘,占用资源影响性能。所以 定时序列化,1H序列化一次,但1H以内的数据不能保存安全所以及时存写 客户操作日志...原创 2021-06-17 09:44:31 · 88 阅读 · 0 评论 -
复习hadoop hbase 面试题
没有标题你会用MR写一个求分组topn的任务吗?MR如何实现二次排序Yarnyarn中有那些资源调度策略?分别有什么特点?你会用MR写一个求分组topn的任务吗?MR如何实现二次排序就是自定义排序:key上写自定义compareTo方法,自定义partitioner,自定义groupingcompararterYarnyarn中有那些资源调度策略?分别有什么特点?FIFO先进先出Capacity scheduler(默认配置的调度策略)资源整体可以在逻辑上划分成多个资源队列!然后,每个队原创 2021-06-16 22:04:05 · 121 阅读 · 0 评论