随着项目越来越依赖Erlang,碰到的问题也随之增加。前段时间线上系统碰到内存高消耗问题,记录一下troubleshooting的分析过程。线上系统用的是Erlang R16B02版本。
问题描述
有几台线上系统,运行一段时间,内存飙升。系统模型很简单,等待网络新连接,pool中找新可用process进行处理。top命令观察,发现内存都被Erlang进程给吃完了,netstat命令查看网络连接数,才区区几K。问题应该是Erlang内存泄漏了。
分析方法
Erlang系统有个好处,可以直接进入线上系统,在生产现场分析问题。我们系统是通过Rebar管理的,可以用不同方法进入线上系统。
本机登录
可以直接登录到线上机器,然后通过以下命令attach到Erlang系统里面
$ cd /path/to/project
$ rel/xxx/bin/xxx attach
(node@host)>
通过remote shell
获取Erlang系统的cookie
$ ps -ef |grep beam %%找到参数 --setcookie
新开一个shell,使用同样的cookie,不同的nodename
$ erl --setcookie cookiename -name test@127.