![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
张某码
这个作者很懒,什么都没留下…
展开
-
Hadoop集群搭建,配置
hdfs 集群 文件读写 yarm集群 为mapreduce 程序分配运算硬件资源推荐三台:manage-PC datanode-1 datanode-2name node 端口9000原创 2017-02-08 14:44:16 · 286 阅读 · 0 评论 -
mapReduce大量小文件的优化策略
默认情况下,TextInputFormat对任务的切片机制是按文件规划切片,不管文件多小都会上一个单独的切片,都会交给一个maptask,这样如果有大量的小文件,就会产生大量的maptask,处理效率及其地下。 策略 最好的办法:在数据处理系统的最前端(预处理/采集),就将小文件合并成大文件再上传到HDFS做后续分析。 如果已经上大量小文件再HDFS中了可以使用另一种i原创 2017-02-09 12:00:26 · 1830 阅读 · 0 评论 -
mapreduce原理
map task: 默认通过 TextInputformat(基类Inputformat) 读数据 TextInputformat 通过 RecordReader 调用 read() ,去hdfs上读数据(文件切片),数据的格为K,V。数据返回回来自动调用自定义的map方法。处理完后执行context.write()—-输出到——OutPutCollector —环形缓存区 默认大小100M 缓原创 2017-02-09 12:01:16 · 262 阅读 · 0 评论