- 博客(3)
- 收藏
- 关注
原创 mapreduce如何自定义reduce输出的文件名
mapreduce如何自定义reduce输出的文件名 跟随源码找到设置输出文件的方法 org.apache.hadoop.mapreduce.lib.output.FileOutputFormat.getDefaultWorkFile(TaskAttemptContext, String) 继续跟进这个方法 org.apache.hadoop.mapreduce.lib.output.FileOutputFormat<K, V> 发现是使用此方法返回的文件路径,我们只需要自定义一个类继承T
2020-09-05 14:25:53 616
原创 逻辑切片的大小是怎么决定的?
在执行mapreuce任务的时候 进程会多一个叫做yarnchild MRAppmaster:整个运行程序的管理者 管理的是整个程序的运行进度 yarnchild:maptask和reducetask运行的进程 1个yarnchild对应1个maptask任务或reducetask任务 maptask任务并行度: 任务数与逻辑切片的数量有关 一个逻辑切片的大小为block的大小 切片和块没有...
2019-10-26 15:20:20 680
原创 hadoop四种集群的搭建
环境配置 1.配置网络 命令:vi /etc/sysconfig/network-script/ifcfg-eno1666666 网络刷新:service network restart 2.修改windows主机的映射 3.修改linux中主机的映射 vi /etc/hosts 4.修改主机名 vi /etc/hostname 5.查看防火墙状态 firewall-cmd --state 停止...
2019-10-23 15:51:12 577
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人