1、 操作系统调优
1)增大打开文件数据和网络连接上限,调整内核参数net.core.somaxconn,提高读写速度和网络带宽使用率
2)适当调整epoll的文件描述符上限,提高Hadoop RPC并发
3)关闭swap。如果进程内存不足,系统会将内存中的部分数据暂时写入磁盘,当需要时再将磁盘上的数据动态换置到内存中,这样会降低进程执行效率
4)增加预读缓存区大小。预读可以减少磁盘寻道次数和I/O等待时间
5)设置openfile
2、Hdfs参数调优
core-site.xml
hadoop.tmp.dir:默认值: /tmp
说明: 尽量手动配置这个选项,否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候,如果服务器是多磁盘的,每个磁盘都设置一个临时文件目录,这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。
fs.trash.interval:默认值: 0
说明: 这个是开启hdfs文件删除自动转移到垃圾箱的选项,值为垃圾箱文件清除时间(分钟)。一般开启这个会比较好,以防错误删除重要文件。
io.file.buffer.size:默认值

本文深入探讨了Hadoop操作系统的调优,包括增大文件和网络连接上限,优化epoll和预读缓存,以及关闭swap。此外,还详细介绍了Hdfs参数、MapReduce参数的调整,如设置openfile、mapreduce.job.reduces等。系统优化方面,建议避免不必要的排序,采用Netty优化Map端,以及批拷贝和独立Shuffle阶段以提升YARN性能。
最低0.47元/天 解锁文章
561

被折叠的 条评论
为什么被折叠?



