Brendan D. Gregg 专注 Linux performance & tuning 许多年,其博客 brendangregg.com 里关于分析和调优的干货琳琅满目。一篇名为 Linux Performance 文章全面而详细的整理了常用工具,覆盖了硬件、存储、网络乃至应用,如下图:
能掌握上图的十八般武艺固然最好,从定位分析的角度来说,我认为三个高级而常用的命令是 strace, lsof 和 tcpdump。
strace
strace - trace system calls and signals
据说,对一个经验丰富的 Linux C/C++ 工程师,他通过 strace 即可分析多数软件的大致实现方式。Linux 进程空间可分为用户空间和内核空间,程序通常运行在用户态,它需要通过 系统调用 访问内核空间。系统调用的重要性不言而喻,凡是涉及到进程、文件管理、设备管理和通信等的操作都必须依赖系统调用完成,如下:
- Process Control: load/execute/end/abort/create/terminate process, get/set process attributes, wait for time/event/signal, allocate/free memory
- File management: create/delete/open/read/write/reposition file, get/set file attributes
- Device Management: request/release/attach/detach device,read/write/reposition, get/set device attributes
- Communication: create/delete connection, send/receive messages, transfer status information
strace 追踪进程产生的所有系统调用,包括参数、返回值和执行消耗的时间,很多是涉及到内核和资源层面的操作都需要系统调用完成,所以 strace 在诊断以下场景非常有效:
- 程序意外退出
- 程序运行缓慢
- 进程阻塞
strace 的通常使用方式如下:
strace -f -F -T -tt -o output.txt straced_cmd
-f 跟踪 fork 产生的子进程
-F 跟踪 vfork 产生的子进程
-tt 在输出中的每一行前加上时间信息,微秒级
-T 显示每一个调用所耗的时间
-o 输出到指定文件 output.txt
例如: