Mapreduce
zengxianglei
曾经 年少 爱追梦, 一心 只想 往前飞 。。。
展开
-
网站访问日志(二)通过Mapreduce 初步清洗数据得到weblogbean数据
网站访问日志(二)通过Mapreduce 初步清洗数据原始数据文件:百度网盘 /02.参考资料\网站流量日志分析:项目脚本-配置代码/access.log.fensi需求:对原始数据进行清洗 ,得到我们想要的11个字段数据。同时对不合法的数据标记为false 【1.状态码>400的 2.请求的request中包含过滤的静态资源的字段的 3.通过空格split 长度小于11的都标记为f...原创 2019-05-02 22:08:20 · 1013 阅读 · 0 评论 -
hadoop 核心注意事项 小总:maptask并行机制 reduce并行机制 task并行 数据倾斜 shuffle mapreduce 参数优化 自定义计时器counter
标题hadoop 核心注意事项 小总1.maptask的并行机制(逻辑切片)时间:是在mr客户端提交程序到yarn之前。地点:mr程序客户端(main方法)参与者:输入目录 FileInputFormat.getSplit();规则是:对待处理的文件卓个遍历 一切片大小(blocksize)对文件进行逻辑切片split size=blocksize=128m;默认 :1342177...原创 2019-05-20 13:35:08 · 731 阅读 · 0 评论 -
maptask 的环形缓冲区 重点理解介绍
maptask 的环形缓冲区 重点理解介绍接下来,会将数据写入内存,内存中这片区域叫做环形缓冲区,缓冲区的作用是批量收集map结果,减少磁盘IO的影响。我们的key/value对以及Partition的结果都会被写入缓冲区。当然写入之前,key与value值都会被序列化成字节数组。环形缓冲区其实是一个数组,数组中存放着key、value的序列化数据和key、value的元数据信息,包括part...原创 2019-05-20 19:25:59 · 2050 阅读 · 0 评论 -
mapreduce 和hive 的区别
mapreduce 和hive 的区别待会总结 先看学习网址学习网址:https://blog.csdn.net/hemeinvyiqiluoben/article/details/84766841原创 2019-06-30 20:45:14 · 4543 阅读 · 0 评论