背景
昨天在写LRU缓存时在构造器里起了一个线程池,主要用来清除过期缓存用的,代码很简单
private class Task implements Runnable {
@Override
public void run() {
while (flag) {
synchronized (Task.class) {
MapCache cache = MapCache.single();
Iterator iterator = cache.cachePool.entrySet().iterator();
while (iterator.hasNext()) {
Map.Entry entry = (Map.Entry) iterator.next();
long currTime = System.currentTimeMillis();
CacheObject co = (CacheObject) entry.getValue();
if (co.getExpired() > 0) {
if (currTime > co.getExpired()) {
LOGGER.info("清除缓存开始");
iterator.remove();
}
}
}
}
}
}
}
主要就是起一个守护线程一直while(true)去检查cache,因为是自己平时练习的项目也没多想,打成jar就扔服务器上了。今天早上发现服务掉了,mysql链接也掉了,去看一下服务器cpu
果然出问题了,其实一开始就想到是那个while搞的鬼,加上之前看了篇文章怎么追查cpu100%原因,于是就当练手了。
排查
- top
查看当前服务器cpu运行状态,截图如上这里看到pid为5225的进程cpu99.99 - top -Hp 5225
查看该pid下所有线程,可以看到pid为5245的线程cpu占用率最高 - jstack 5245
会出来一堆快照信息,也可以用jstack pid|grep -A 10 pid(十六进制)或者直接输出到文件jstack pid >pid.log
jstack 还可以检测很多问题
这里引用一篇别人写的博客
可以看到这里定位到了while()循环
这里还打印了heap信息,看到新生代8:1:1比例,还有老年代一些使用信息
还有很多内容就不截图了
后续有时间写成shell脚本- -