hadoop 集群执行任务出现 too many open files 32768 ,我们服务器配置的是65536并没有生效。导致datanode服务卡住跟namenode节点通讯异常,namenode认为datanode节点已dead下线,实际datanode进程没死,恢复正常后尝试连接namenode,datanode 一直拿着失效kerberos票据去访问namenode(票据更新周期为一天),其它服务连接这台服务器会失败。
1.在/etc/security/limits.d/下找到了cloudera的limit配置文件,里面限制为32768
/etc/security/limits.d/cloudera-scm.conf
[root@xx limits.d]# cat cloudera-scm.conf
#
# (c) Copyright 2014 Cloudera, Inc.
#
cloudera-scm soft nofile 32768
cloudera-scm soft nproc 65536
cloudera-scm hard nofile 1048576
cloudera-scm hard nproc unlimited
cloudera-scm hard memlock unlimited
2.查看datanode进程的open files限制为32768
3.32768会覆盖系统配置,cm启动的进程最大打开文件数都是32768.要修改这个配置,需要修改cm安装的没个服务的最大文件描述符