- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 Lustre文件锁问题
问题现象:进程读取文件Hang,单进程读取正常,多个进程同时读取出现Hang,多个进程若在同一台服务器上提交,也可正常运行。问题分析:从现象来看,分析可能产生的原因。1、linux下同时打开文件数达到最大值?2、mount挂载时缺少相关参数导致?第一个问题比较好排查,ulimit -a即可查看当前配置的open files大小,再通过lsof / |
2015-12-17 14:23:17 2290 1
原创 内存碎片是否拖慢了你的程序?
现象描述:近日,公司HPC平台用户频繁反应任务无法正常运行或运行一般会停止无输出,或读取或写入数据时某些数据块耗时比正常速度高几百甚至上千倍。 针对此现象,对集群反复排查了多次,未发现任何异常,日志中也无明显报错信息,从监控系统中观察出现问题节点的CPU、内存、网络、存储等相关资源使用情况,均无太高负载,占用率都非常低。所以分析应该不是存储或硬件资源瓶颈导致的。后来将服务器系统重启后再提交任务,发
2015-12-16 10:44:09 2949
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人