常见程序故障排查及程序配置

故障排查基础

收录Linux常用命令,以下命令来自https://www.bilibili.com/video/BV14A411378a

关机/重启/注销

常用命令作用
shutdown -h now即刻关机
shutdown -h 1010分钟后关机
shutdown -h 11:0011:00关机
shutdown -h +10预定时间关机(10分钟后)
shutdown -c取消指定时间关机
shutdown -r now重启
shutdown -r 1010分钟之后重启
shutdown -r 11:00定时重启
reboot重启
init 6重启
init 0⽴刻关机
telinit 0关机
poweroff⽴刻关机
halt关机
syncbuff数据同步到磁盘
logout退出登录Shell

系统信息和性能查看

常用命令作用
uname -a查看内核/OS/CPU信息
uname -r查看内核版本
uname -m查看处理器架构
arch查看处理器架构
hostname查看计算机名
who显示当前登录系统的⽤户
who am i显示登录时的⽤户名
whoami显示当前⽤户名
cat /proc/version查看linux版本信息
cat /proc/cpuinfo查看CPU信息
cat /proc/interrupts查看中断
cat /proc/loadavg查看系统负载
uptime查看系统运⾏时间、⽤户数、负载
env查看系统的环境变量
lsusb -tv查看系统USB设备信息
lspci -tv查看系统PCI设备信息
lsmod查看已加载的系统模块
grep MemTotal /proc/meminfo查看内存总量
grep MemFree /proc/meminfo查看空闲内存量
free -m查看内存⽤量和交换区⽤量
date显示系统⽇期时间
cal 2021显示2021⽇历表
top动态显示cpu/内存/进程等情况
vmstat 1 20每1秒采⼀次系统状态,采20次
iostat查看io读写/cpu使⽤情况
查看io读写/cpu使⽤情况查询cpu使⽤情况(1秒⼀次,共10次)
sar -d 1 10查询磁盘性能

磁盘和分区

常用命令作用
fdisk -l查看所有磁盘分区
swapon -s查看所有交换分区
df -h查看磁盘使⽤情况及挂载点
df -hl同上
du -sh /dir查看指定某个⽬录的⼤⼩
du -sk * | sort -rn从⾼到低依次显示⽂件和⽬录⼤⼩
mount /dev/hda2 /mnt/hda2挂载hda2盘
mount -t ntfs /dev/sdc1 /mnt/usbhd1指定⽂件系统类型挂载(如ntfs)
mount -o loop xxx.iso /mnt/cdrom挂 载 iso ⽂ 件
umount -v /dev/sda1通过设备名卸载
umount -v /mnt/mymnt通过挂载点卸载
fuser -km /mnt/hda1强制卸载(慎⽤)

⽤户和⽤户组

常用命令作用
useradd codesheep创建⽤户
userdel -r codesheep删除⽤户
usermod -g group_name user_name修改⽤户的组
usermod -aG group_name user_name将⽤户添加到组
usermod -s /bin/ksh -d /home/codepig –g dev codesheep修改⽤户codesheep的登录Shell、主⽬录以及⽤户组
groups test查看test⽤户所在的组
groupadd group_name创建⽤户组
groupdel group_name删除⽤户组
groupmod -n new_name old_name重命名⽤户组
su - user_namesu - user_name
passwd修改⼝令
passwd codesheep修改某⽤户的⼝令
w查看活动⽤户
id codesheep查看指定⽤户codesheep信息
last查看⽤户登录⽇志
crontab -l查看当前⽤户的计划任务
cut -d: -f1 /etc/passwd查看系统所有⽤户
cut -d: -f1 /etc/group查看系统所有组

⽹络和进程管理

常用命令作用
ifconfig查看⽹络接⼝属性
ifconfig eth0查看某⽹卡的配置
route -n查看路由表
netstat -lntp查看所有监听端⼝
netstat -antp查看已经建⽴的TCP连接
netstat -lutp查看TCP/UDP的状态信息
ifup eth0启⽤eth0⽹络设备
ifdown eth0禁⽤eth0⽹络设备
iptables -L查看iptables规则
ifconfig eth0 192.168.1.1 netmask 255.255.255.0配置ip地址
dhclient eth0以dhcp模式启⽤eth0
route add -net 0/0 gw Gateway_IP配置默认⽹关
route add -net 192.168.0.0 netmask 255.255.0.0 gw 192.168.1.1配置静态路由到达⽹络’192.168.0.0/16’
route del 0/0 gw Gateway_IP删除静态路由
hostname查看主机名
host www.baidu.com解析主机名
nslookup www.baidu.com查询DNS记录,查看域名解析是否正常
ps -ef查看所有进程
ps -ef | grep codesheep过滤出你需要的进程
kill -s namekill指定名称的进程
kill -s pidkill指定pid的进程
top实时显示进程状态
vmstat 1 20每1秒采⼀次系统状态,采20次
iostatiostat
sar -u 1 10查询cpu使⽤情况(1秒⼀次,共10次)
sar -d 1 10查询磁盘性能

常⻅系统服务命令

常用命令作用
chkconfig --list列出系统服务
service <服务名> status查看某个服务
service <服务名> start启动某个服务
service <服务名> stop终⽌某个服务
service <服务名> restart重启某个服务
systemctl status <服务名>查看某个服务
systemctl start <服务名>启动某个服务
systemctl stop <服务名>终⽌某个服务
systemctl restart <服务名>重启某个服务
systemctl enable <服务名>关闭⾃启动
systemctl disable <服务名>关闭⾃启动

⽂件和⽬录操作

常用命令作用
cd <⽬录名>进⼊某个⽬录
cd …回上级⽬录
cd …/…回上两级⽬录
cd进个⼈主⽬录
cd -回上⼀步所在⽬录
pwd显示当前路径
ls查看⽂件⽬录列表
ls -F查看⽬录中内容(显示是⽂件还是⽬录)
ls -l查看⽂件和⽬录的详情列表
ls -a查看隐藏⽂件
ls -lh查看⽂件和⽬录的详情列表(增强⽂件⼤⼩易读性)
ls -lSr查看⽂件和⽬录列表(以⽂件⼤⼩升序查看)
tree查看⽂件和⽬录的树形结构
mkdir <⽬录名>创建⽬录
mkdir dir1 dir2同时创建两个⽬录
mkdir -p /tmp/dir1/dir2创建⽬录树
rm -f file1删除’file1’⽂件
rmdir dir1删除’dir1’⽬录
rm -rf dir1删除’dir1’⽬录和其内容
rm -rf dir1 dir2同时删除两个⽬录及其内容
mv old_dir new_dir重命名/移动⽬录
cp file1 file2复制⽂件
cp dir/* .复制某⽬录下的所有⽂件⾄当前⽬录
cp -a dir1 dir2复制⽬录
cp -a /tmp/dir1 .复制⼀个⽬录⾄当前⽬录
ln -s file1 link1创建指向⽂件/⽬录的软链接
ln file1 lnk1创建指向⽂件/⽬录的物理链接
find / -name file1从跟⽬录开始搜索⽂件/⽬录
find / -user user1搜索⽤户user1的⽂件/⽬录
find /dir -name *.bin在⽬录/dir中搜带有.bin后缀的⽂件
locate <关键词>快速定位⽂件
locate *.mp4寻找.mp4结尾的⽂件
whereis <关键词>显示某⼆进制⽂件/可执⾏⽂件的路径
which <关键词>查找系统⽬录下某的⼆进制⽂件
chmod ugo+rwx dir1设置⽬录所有者(u)、群组(g)及其他⼈(o)的读(r)写(w)执⾏(x)权限
chmod go-rwx dir1移除群组(g)与其他⼈(o)对⽬录的读写执⾏权限
chown user1 file1改变⽂件的所有者属性
chown -R user1 dir1改变⽬录的所有者属性
chgrp group1 file1改变⽂件群组
chown user1:group1 file1改变⽂件的所有⼈和群组

⽂件查看和处理

常用命令作用
cat file1查看⽂件内容
cat -n file1查看内容并标示⾏数
tac file1从最后⼀⾏开始反看⽂件内容
more file1more file1
less file1类似more命令,但允许反向操作
head -2 file1查看⽂件前两⾏
tail -2 file1查看⽂件后两⾏
tail -f /log/msg实时查看添加到⽂件中的内容
grep codesheep hello.txt在⽂件hello.txt中查找关键词codesheep
grep ^sheep hello.txt在⽂件hello.txt中查找以sheep开头的内容
grep [0-9] hello.txt选择hello.txt⽂件中所有包含数字的⾏
sed ‘s/s1/s2/g’ hello.txt将hello.txt⽂件中的s1替换成s2
sed ‘/^$/d’ hello.txt从hello.txt⽂件中删除所有空⽩⾏
sed ‘/ *#/d; /^$/d’ hello.txt从hello.txt⽂件中删除所有注释和空⽩⾏
sed -e ‘1d’ hello.txt从⽂件hello.txt 中排除第⼀⾏
sed -n ‘/s1/p’ hello.txt查看只包含关键词"s1"的⾏
sed -e ‘s/ *$//’ hello.txt删除每⼀⾏最后的空⽩字符
sed -e ‘s/s1//g’ hello.txt从⽂档中只删除词汇s1并保留剩余全部
sed -n ‘1,5p;5q’ hello.txt查看从第⼀⾏到第5⾏内容
sed -n ‘5p;5q’ hello.txt查看第5⾏
paste file1 file2合并两个⽂件或两栏的内容
paste -d ‘+’ file1 file2合并两个⽂件或两栏的内容,中间⽤"+"区分
sort file1 file2排序两个⽂件的内容
comm -1 file1 file2⽐较两个⽂件的内容(去除’file1’所含内容)
comm -2 file1 file2⽐较两个⽂件的内容(去除’file2’所含内容
comm -3 file1 file2⽐较两个⽂件的内容(去除两⽂件共有部分)

打包和解压

常用命令作用
zip xxx.zip file压缩⾄zip包
zip -r xxx.zip file1 file2 dir1将多个⽂件+⽬录压成zip包
unzip xxx.zip解压zip包
tar -cvf xxx.tar file创建⾮压缩tar包
tar -cvf xxx.tar file1 file2 dir1将多个⽂件+⽬录打tar包
tar -tf xxx.tar查看tar包的内容
tar -xvf xxx.tar解压tar包
tar -xvf xxx.tar -C /dir将tar包解压⾄指定⽬录
tar -cvfj xxx.tar.bz2 dir创建bz2压缩包
tar -jxvf xxx.tar.bz2解压bz2压缩包
tar -cvfz xxx.tar.gz dir创建gzip压缩包
tar -zxvf xxx.tar.gz解压gzip压缩包
bunzip2 xxx.bz2解压bz2压缩包
bzip2 filename压缩⽂件
gunzip xxx.gz解压gzip压缩包
gzip filename压缩⽂件
gzip -9 filename最⼤程度压缩

RPM包管理命令

常用命令作用
rpm -qa查看已安装的rpm包
rpm -q pkg_name查询某个rpm包
rpm -q --whatprovides xxx显示xxx功能是由哪个包提供的
rpm -q --whatrequires xxx显示xxx功能被哪个程序包依赖的
rpm -q --changelog xxx显示xxx包的更改记录
rpm -qi pkg_name查看⼀个包的详细信息
rpm -qd pkg_name查询⼀个包所提供的⽂档
rpm -qc pkg_name查看已安装rpm包提供的配置⽂件
rpm -ql pkg_name查看⼀个包安装了哪些⽂件
rpm -qf filename查看某个⽂件属于哪个包
rpm -qR pkg_name查询包的依赖关系
rpm -ivh xxx.rpm安装rpm包
rpm -ivh --test xxx.rpm测试安装rpm包
rpm -ivh --nodeps xxx.rpm安装rpm包时忽略依赖关系
rpm -e xxx卸载程序包
rpm -Fvh pkg_name升级确定已安装的rpm包
rpm -Uvh pkg_name升级rpm包(若未安装则会安装)
rpm -V pkg_nameRPM包详细信息校验

YUM包管理命令

常用命令作用
yum repolist enabled显示可⽤的源仓库
yum search pkg_name搜索软件包
yum install pkg_name下载并安装软件包
yum install --downloadonly pkg_name只下载不安装
yum list显示所有程序包
yum list installed查看当前系统已安装包
yum list updates查看可以更新的包列表
yum check-update查看可升级的软件包
yum update更新所有软件包
yum update pkg_name升级指定软件包
yum deplist pkg_name列出软件包依赖关系
yum remove pkg_name删除软件包
yum clean all清除缓存
yum clean packages清除缓存的软件包
yum clean headers清除缓存的header

DPKG包管理命令

常用命令作用
dpkg -c xxx.deb列出deb包的内容
dpkg -i xxx.deb安装/更新deb包
dpkg -r pkg_name移除deb包
dpkg -P pkg_name移除deb包(不保留配置)
dpkg -l查看系统中已安装deb包
dpkg -l pkg_name显示包的⼤致信息
dpkg -L pkg_name查看deb包安装的⽂件
dpkg -s pkg_name查看包的详细信息
dpkg –unpack xxx.deb解开deb包的内容

APT软件⼯具

常用命令作用
apt-cache search pkg_name搜索程序包
apt-cache show pkg_name获取包的概览信息
apt-get install pkg_name安装/升级软件包
apt-get purge pkg_name卸载软件(包括配置)
apt-get remove pkg_name卸载软件(不包括配置)
apt-get update更新包索引信息
apt-get upgrade更新已安装软件包
apt-get clean清理缓存

分析工具

JDK自带分析工具

参考文章:

jps

jps查询系统内所有HotSpot进程,它位于java的bin目录下。

命令含义
jps输出当前运行主类名称,进程ID
jps -q只列出进程ID
jps -l输出当前运行主类的全称,进程ID
jps -v输出虚拟机进程启动时JVM参数
jstat

jstat是JDK自带的一个轻量级小工具。全称“Java Virtual Machine statistics monitoring tool”,和jps一样,都在bin目录下。

命令含义
jstat -gc vmid 1000 10查看进程pidGC信息,每1000毫秒 输出一次,输出10次
jstat -gccause vmid 1000 10查看进程pidGC发生的原因,每一秒(1000毫秒)输出一次,输出10次
jstat -class vmid查看pid的加载类信息
jstat -gcutil vmidjava垃圾回收信息的统计
jstat -gcnew vmid显示新生代GC的情况
jstat -gcold vmid显示老年代GC的情况
jinfo

jinfo查看虚拟机参数信息,也可用于调整虚拟机配置参数。我们通过jinfo --help能看到相应的参数。

命令含义
jinfo pid输出关于pid的一堆相关信息
jinfo -flags pid查看当前进程曾经赋过值的一些参数
jinfo -flag name pid查看指定进程的JVM参数名称的参数的值
jinfo -flag [±]name pid开启或者关闭指定进程对应名称的JVM参数
jinfo -sysprops pid来输出当前 JVM进行的全部的系统属性

当使用jinfo进行修改对应进程JVM参数时,有一定的局限性。并不是所有的参数都支持修改,只有参数被标记为manageable的参数才可以被实时修改。

可以使用命令查看被标记为manageable的参数:java -XX:+PrintFlagsFinal -version | grep manageable

jmap

jmap全称:Java Memory Map,主要用于打印指定Java进程(或核心文件、远程调试服务器)的共享对象内存映射或堆内存细节。jmap以生成 java程序的dump文件, 也可以查看堆内对象示例的统计信息、查看ClassLoader 的信息以及 finalizer 队列。

jmap命令可以获得运行中的JVM的堆的快照,从而可以离线分析堆,以检查内存泄漏,检查一些严重影响性能的大对象的创建,检查系统中什么对象最多,各种对象所占内存的大小等等。可以使用jmap生成Heap Dump。

命令含义
jmap -heap pid输出整个堆详细信息,包括GC的使用、堆的配置信息,以及内存的使用信息
jmap -histo:live pid输出堆中对象的相关统计信息;第一列是序号,第二列是对象个数,第三列是对象大小byte,第四列是class name
jmap -finalizerinfo pid输出等待终结的对象信息
jmap -clstats pid输出类加载器信息
jmap -dump:[live],format=b,file=filename.hprof pid把进程堆内存使用情况生成到堆转储dump文件中,live子选项是可选的,假如指定live选项,那么只输出活的对象到文件。dump文件主要作用,如果发生溢出可以使用dump文件分析是哪些数据导致的

Heap Dump又叫堆转储文件,指一个java进程在某一个时间点的内存快照文件。Heap Dump在触发内存快照的时候会保存以下信息:

  • 所有的对象
  • 所有的class
  • GC Roots
  • 本地方法栈和本地变量

通常在写Dump文件前会触发一次Full GC,所以Heap Dump文件里保存的对象都是Full GC后保留的对象信息。
由于生成dump文件比较耗时,所以请耐心等待,尤其是大内存镜像生成的dump文件,则需要更长的时间来完成。

可以通过参数配置当发生OOM时自动生成dump文件:-XX:+HeapDumpOnOutOfMemeryError -XX:+HeapDumpPath=<filename.hprof>,当然此种方式获取dump文件较大,如果想要获取dump文件较小可以手动获取dump文件并指定只获取存活的对象。

jhat

JVM Heap Analysis Tool命令是与jmap搭配使用,用来分析jmap生成的dump文件,jhat内置了一个微型的HTTP/HTML服务器,生成dump的分析结果后,可以在浏览器中查看。在此要注意,一般不会直接在服务器上进行分析,因为jhat是一个耗时并且耗费硬件资源的过程,一般把服务器生成的dump文件复制到本地或其他机器上进行分析。

注意,jhat在jdk9中已经移除,官方对贱使用visualvm来配置jmap进行分析。

命令含义
jhat -port 9998 /tmp/dump.dat配合jmap命令使用,查看导出的/tmp/dump.dat文件,端口为9998;注意如果dump文件太大,可能需要加上-J-Xmx512m这种参数指定最大堆内存,即jhat -J-Xmx512m -port 9998 /tmp/dump.dat
jhat -baseline dump2.phrof dump1.phrof对比dump2.phrof dump1.phrof文件
jhat heapDump分析dump文件,默认端口为7000
jstack

jstack,全称JVM Stack Trace栈空间追踪,用于生成虚拟机指定进程当前线程快照;主要分析堆栈空间,也就是分析线程的情况,可以分析出死锁问题,以及cpu100%的问题。jstack可以定位到线程堆栈,根据堆栈信息我们可以定位到具体代码,所以它在JVM性能调优中使用得非常多。

jstack主要用于生成java虚拟机当前时刻的线程快照。线程快照是当前java虚拟机内每一条线程正在执行的方法堆栈的集合,生成线程快照的主要目的是定位线程出现长时间停顿的原因,
如线程间死锁、死循环、请求外部资源导致的长时间等待等。

命令含义
jstack pid打印出所有的线程,包括用户自己启动的线程和JVM后台线程
jstack 13324 >1.txt将13324进程中线程信息写入到1.txt文件中
jstack 21711|grep 54ee在进程21711中查找线程ID为54ee(16进制)的信息
jstack -l pid除了堆栈信息外-l参数会显示线程锁的附加信息

除了可以使用jstack打印栈的信息,在java层面也可以使用Thread.getAllStackTraces()方法获取堆栈信息。

jcmd

在JDK1.7之后,新增了一个命令行工具jcmd。

它是一个多功能的工具,可以实现前面除了jstat之外的所有功能。例如,导出dump文件、查看线程信息、导出线程信息、执行GC,JVM运行时间等。

jcmd拥有jmap的大部分功能,并且在官方网站上也推荐使用jcmd代替jmap。

命令含义
jcmd -l列出所有JVM的进程
jcmd pid help针对指定进程罗列出可执行的命令
jcmd pid <具体命令>显示指定进程的指令命令的数据

GUI分析工具

jconsole

JConsole 是一个内置 Java 性能分析器,可以从命令行(直接输入jconsole)或在 GUI shell (jdk\bin下打开)中运行。

它用于对JVM中内存,线程和类等的监控。这款工具的好处在于,占用系统资源少,而且结合Jstat,可以有效监控到java内存的变动情况,以及引起变动的原因。在项目追踪内存泄露问题时,很实用。

请添加图片描述
请添加图片描述
请添加图片描述

visual vm

visual vm 是一个功能强大的多合一故障诊断和性能监控的可视化工具。它集成了多个JDK命令行工具,使用visual vm可用于显示虚拟机进程及进程的配置和环境信息,监视应用程序的CPU、GC、堆、方法区及线程的信息等,甚至代替jconsole。

在JDK7,visual vm便作为JDK的一部分发布,在JDK的bin目录下,即:它完全免费。此外,visual vm也可以作为独立软件进行安装。

主要功能:

  • 生成读取dump文件
  • 查看JVM参数和系统属性
  • 查看运行中虚拟机进程
  • 生成读取线程快照
  • 程序资源的实时监控

visual vm 支持插件扩展,可以在visual vm上安装插件,也可以将visual vm安装在idea上:

请添加图片描述
请添加图片描述

visual vm可以生成dump文件,生成的dump文件是临时的,如果想要保留该文件需要右键另存为即可:
请添加图片描述
请添加图片描述

如果堆文件数据较大,排查起来很困难,可以使用OQL语句进行筛选。

OQL:全称,Object Query Language 类似于SQL查询的一种语言,OQL使用SQL语法,可以在堆中进行对象的筛选。

基本语法:

select <JavaScript expression to select> 
[ from (instanceof) <class name> <identifier>
( where <JavaScript boolean expression to filter> ) ]

1.class name是java类的完全限定名
2.instanceof表示也查询某一个类的子类
3.from和where子句都是可选的
4.可以使用obj.field_name语法访问Java字段

例如

-- 查询长度大于等于100的字符串
select s from java.lang.String s where s.value.length >= 100

-- 显示所有File对象的文件路径 
select file.path.value.toString() from java.io.File file

-- 显示由给定id字符串标识的Class的实例
select o from instanceof 0x741012748 o

visual vm也可以将两个dump文件进行比较:

请添加图片描述

visual vm不但可以生成堆的dump文件,也可以对线程dump:

请添加图片描述

eclipse MAT

MAT全称,Memory Analyzer Tool 是一款功能强大的Java堆内存分析器。可以用于查找内存泄漏以及查看内存消耗情况。

MAT是eclipse开发的,不仅可以单独使用,还可以作为插件嵌入在eclipse中使用。是一款免费的性能分析工具,使用起来很方便。

MAT的主要功能就是分析dump文件。分析dump最终目的是为了找出内存泄漏的疑点,防止内存泄漏。

JVM内存包含信息:

  • 所有对象信息,包括对象实例、成员变量、存储于栈中的基本数据类型和存储于堆中的其他对象的引用值;
  • 所有的类信息,包括classloader、类名称、父类的信息、静态变量等;
  • GCRoot到所有的这些对象的引用路径;
  • 线程信息,包括线程的调用栈及线程的局部变量;

常见获取dump文件方式:

  • 通过jmap或jcmd命令行方式获取;
  • 通过配置JVM参数"-XX:+HeapDumpOnOutOfMemoryError"或"-XX:+HeapDumpBeforeFullGC"
  • 使用第三方工具生成dump文件,如:visual vm

MAT介绍

导入dump文件:

在生成可疑泄漏报告后,会在对应的堆转储文件目录下生成一个zip文件。
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述

MAT最主要的功能是分析dump文件,其中比较重要的功能就是histogram(直方图)和dominator tree(支配树)


直方图
请添加图片描述

  • 浅堆:一个对象结构所占用的大小,即对象头+实例数据+对齐填充,不包括内部引用对象大小;
  • 深堆:一个对象被 GC 回收后,可以真实释放的内存大小;
  • 对象的实际大小:一个对象所能触及的所有对象的浅堆大小之和;

请添加图片描述

如上图所示:(浅堆<= 深堆 <= 实际大小)

  • Object2浅堆大小:为Object2本身;
  • Object2深堆大小:Object2本身加上Object6;
  • Object2实际大小:Object2本身加上Object6加上Object5;

请添加图片描述


支配树对象图

请添加图片描述

支配树概念源自图论。它体现了对象实例之间的支配关系。在对象的引用图中,所有指向对象B的路径都要经过对象A,则认为对象A支配对象B。如果对象A是离对象B最近的一个支配对象,则认为对象A为对象B的直接支配者。

支配树是基于对象间的引用图建立的,它有以下性质:

  • 对象A的子树,即所有被对象A支配的对象集合,表示对象A的保留集,即深堆;
  • 如果对象A支配对象B,那么对象A直接支配者也支配对象B;
  • 支配树的边与对象引用图的边不相对应;

分配树能直观的体现对象能否被回收的情况,如图所示,左为对象的引用图,右为对象的支配图。

  • C与E的关系为,C支配E,C是E的直接支配者,G和E为C的保留集;
  • C与H不是支配关系,因为H被F引用;

请添加图片描述

Java应用程序配置

JVM常用参数

官方:

  • https://www.oracle.com/java/technologies/javase/vmoptions-jsp.html
  • https://www.oracle.com/java/technologies/javase/gc-tuning-6.html

理想的情况下,一个Java程序使用JVM的默认设置也可以运行得很好,所以一般来说,没有必要设置任何JVM参数。然而,由于一些性能问题,我们需要设置合理的JVM参数。

可以通过java -XX:+PrintFlagsInitial 命令查看JVM所有参数。

常用参数:

参数含义描述
-Xms堆初始值Xmx和Xms设置为老年代存活对象的3-4倍,即FullGC之后的老年代内存占用的3-4倍
-Xmx堆最大值为了防止自动扩容降低性能,建议将-Xms和-Xmx的值设置为相同值
-XX:MaxHeapFreeRatio最大堆内存使用率默认70,当超过该比例会进行扩容堆,Xms=Xmx时该参数无效
-XX:MinHeapFreeRatio最小堆内存使用率默认40,当低于该比例会缩减堆,Xms=Xmx时该参数无效
-Xmn年轻代内存最大值年轻代设置的越大,老年代区域就会减少。一般不允许年轻代比老年代还大,因为要考虑GC时最坏情况,所有对象都晋升到老年代。建议设置为老年代存活对象的1-1.5倍,最大可以设置为-Xmx/2 。考虑性能,一般会通过参数 -XX:NewSize 设置年轻代初始大小。如果知道了年轻代初始分配的对象大小,可以节省新生代自动扩展的消耗。
-XX:SurvivorRatio年轻代中两个Survivor区和Eden区大小比率例如: -XX:SurvivorRatio=10 表示伊甸园区是幸存者其中一个区大小的10倍,所以,伊甸园区占新生代大小的10/12, 幸存区From和幸存区To 每个占新生代的1/12
-XX:NewRatio年轻生代和老年代的比率例如:-XX:NewRatio=3 指定老年代/新生代为3/1. 老年代占堆大小的 3/4 ,新生代占 1/4 。如果针对新生代,同时定义绝对值和相对值,绝对值将起作用,建议将年轻代的大小为整个堆的3/8左右。
-XX:+HeapDumpOnOutOfMemoryError让JVM在发生内存溢出时自动的生成堆内存快照可以通过-XX:HeapDumpPath=path参数将生成的快照放到指定路径下
-XX:OnOutOfMemoryError当内存溢发生时可以执行一些指令比如发个E-mail通知管理员或者执行一些清理工作,执行脚本
-XX:ThreadStackSize每个线程栈最大值栈设置太大,会导致线程创建减少,栈设置小,会导致深入不够,深度的递归会导致栈溢出,建议栈深度设置在3000-5000k。
-XX:MetaspaceSize初始化的元空间大小如果元空间大小达到了这个值,就会触发Full GC为了避免频繁的Full GC,建议将- XX:MetaspaceSize设置较大值。如果释放了空间之后,元空间还是不足,那么就会自动增加MetaspaceSize的大小
-XX:MaxMetaspaceSize元空间最大值默认情况下,元空间最大的大小是系统内存的大小,元空间一直扩大,虚拟机可能会消耗完所有的可用系统内存。

JVM调优

JVM优化是到最后不得已才采用的手段,对JVM内存的系统级的调优主要的目的是减少GC的频率和Full GC的次数。

何时调优:

  1. Full GC 次数频繁
  2. GC 停顿时间过长
  3. 应用出现OutOfMemory 等内存异常
  4. 堆内存持续上涨达到设置的最大内存值

调优原则:

  1. 多数导致GC问题的Java应用,都不是因为我们参数设置错误,而是代码问题
  2. 在实际使用中,分析GC情况优化代码比优化JVM参数更好
  3. 减少创建对象的数量、减少使用全局变量和大对象

调优思路:

  1. 分析GC日志及dump文件,判断是否需要优化,确定瓶颈问题点。如果各项参数设置合理,系统没有超时日志出现,GC频率不高,GC耗时不高,那么没有必要进行GC优化,如果GC时间超过1-3秒,或者频繁GC,则必须优化。
  2. 确定JVM调优目标。如果内存分配过大或过小,或者采用的GC收集器比较慢,则应该优先调整这些参数,并且先找1台或几台机器进行测试,然后比较优化过的机器和没有优化的机器的性能对比,并有针对性的做出最后选择。
  3. 不断的分析和调整,直到找到合适的JVM参数配置。

Java程序shell脚本示例

#!/bin/sh

#非特殊应用下面内存分配已经够用
HEAP_MEMORY=1024M
METASPACE_SIZE=256M

SERVER_HOME="$( cd "$( dirname "$0"  )" && pwd  )"
APP_NAME=${@: -1}

#使用说明,用来提示输入参数  
help() {
    echo "Usage: start.sh {start|stop|restart|status|help} APP_NAME.jar" >&2
    echo "Examples:"
    echo "  sh start.sh start APP_NAME.jar"
    echo "  sh start.sh stop APP_NAME.jar"
    echo "  sh start.sh start -Heap 1024M -MetaspaceSize 256M APP_NAME.jar"
}

#检查程序是否在运行  
is_exist() {
    pid=`ps -ef | grep ${SERVER_HOME} | grep ${APP_NAME} | grep -v grep | awk '{print $2}' `
    #如果不存在返回1,存在返回0  
    if [ -z "${pid}" ]; then
      return 1
    else
      return 0
    fi
}

#启动方法  
start() {
   is_exist
   if [ $? -eq "0" ]; then
      echo "${APP_NAME} is already running. pid=${pid} ."  
   else
      echo "${APP_NAME} running..."
      JAVA_OPTS="-server -XX:+UseG1GC -XX:+HeapDumpOnOutOfMemoryError"
      JAVA_OPTS="${JAVA_OPTS} -Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false"
      #JAVA_OPTS="${JAVA_OPTS} -Djava.rmi.server.hostname=${LOCAL_IP} -Dcom.sun.management.jmxremote.port=${JMX_PORT} -Dcom.sun.management.jmxremote.rmi.port=${JMX_PORT}"

      shift
      ARGS=($*)
      for ((i=0; i<${#ARGS[@]}; i++)); do
          case "${ARGS[$i]}" in
          -D*)    JAVA_OPTS="${JAVA_OPTS} ${ARGS[$i]}" ;;
          -Heap*) HEAP_MEMORY="${ARGS[$i+1]}" ;;
          -MetaspaceSize*) METASPACE_SIZE="${ARGS[$i+1]}" ;;
          esac
      done

      JAVA_OPTS="${JAVA_OPTS} -Xms${HEAP_MEMORY} -Xmx${HEAP_MEMORY} -XX:MaxMetaspaceSize=${METASPACE_SIZE} -XX:MetaspaceSize=${METASPACE_SIZE}"
      #生产环境加上下面这个配置 服务启动的时候真实的分配物理内存给jvm
      #JAVA_OPTS="${JAVA_OPTS} -XX:+AlwaysPreTouch" 
      JAVA_OPTS="${JAVA_OPTS} -Duser.dir=${SERVER_HOME}"
      #下面两段根据需要酌情配置
      #JAVA_OPTS="${JAVA_OPTS} -Xloggc:${APP_NAME}.gc.log"
      #JAVA_OPTS="${JAVA_OPTS} -Dapp.name=${SERVER_NAME} -Dlogging.config=${SERVER_HOME}/logback-spring.xml -Dspring.profiles.active=dev"
      echo "jvm args: ${JAVA_OPTS}"
      java ${JAVA_OPTS} -jar ${APP_NAME} >/dev/null 2>&1 &
   fi
}

#停止方法  
stop() {
   is_exist
   if [ $? -eq "0" ]; then
     echo "${APP_NAME} is stopping..."
     kill -9 $pid
   else
     echo "${APP_NAME} is not running"  
   fi
}

#输出运行状态  
status() {
   is_exist
   if [ $? -eq "0" ]; then
     echo "${APP_NAME} is running. Pid is ${pid}"  
   else
     echo "${APP_NAME} is not running."  
   fi
}

#根据输入参数,选择执行对应方法,不输入则执行使用说明  
case "$1" in
   "start")
     start $@;
     ;;
   "stop")
     stop $@;
     ;;
   "status")
     status $@;
     ;;
   "restart")
     stop $@;
     start $@;
     ;;
   *)
     help
     ;;
esac

常见故障排查

CPU使用过高定位分析

一般在生产环境排查程序故障,都会查看日志什么的,但是有些故障日志是看不出来的,就比如:CPU使用过高。

那应该怎么办呢?我们需要结合linux命令和JDK相关命令来排查程序故障。

步骤:

  • 首先使用top命令,找出CPU占比最高的Java进程;然后进一步定位后台程序,如果发现使用过高的进程ID,记录下来方便排查;
  • 定位到具体的线程;使用ps -mp 进程ID -o THREAD,tid,time命令可以找到有问题的线程ID;

    ps -mp 进程ID -o THREAD,tid,time 说明:
    -m:显示所有线程
    -p:pid进程使用CPU的时间
    -o:该参数后是用户自定义参数

  • 获取到线程ID后,将线程ID转化为16进制格式,如果有英文要小写格式;可以用命令printf "%x\n" 线程ID,当然也可以使用工具从10进制转16进制。
    printf "%x\n" 16
    
  • 线程ID转成16进制后,执行最后一个命令:jstack 进程ID | grep 16进制线程ID -A50,就能看到有问题的代码。

内存使用过高定位分析

与CPU使用过高同样的,内存如果占用过大,查看程序日志也看不出来。

步骤:

  • 使用top命令查看应用程序内存占用情况,查看内存使用情况,如果发现使用过高的进程ID,记录下来;
  • 根据进程ID查询具体线程ID: ps p进程ID -L -o pcpu,pmem,pid,tid,time,tname,cmd,记下使用内存异常的记下线程ID;
  • 将内存使用较高的线程的堆栈信息写入文件:jstack -l 进程ID > 文件名,写入文件后将文件中的线程ID转换为16进制,在文件中搜索16进制线程ID即可;

死锁编码及定位分析

死锁经常表现为程序的停顿,或者不再响应用户的请求。从操作系统上观察,对应进程的CPU占用率为零,很快会从top或prstat的输出中消失。

死锁示例代码:

public class MainTest {

    public static void main(String[] args) {
         String lockA = "lockA";
         String lockB = "lockB";
        new Thread(new ThreadHolderLock(lockA,lockB),"线程AAA").start();
        new Thread(new ThreadHolderLock(lockB,lockA),"线程BBB").start();
    }
}

class ThreadHolderLock implements Runnable{

    private String lockA;
    private String lockB;

    public ThreadHolderLock(String lockA, String lockB){
        this.lockA = lockA;
        this.lockB = lockB;
    }

    @Override
    public void run() {
        synchronized (lockA){
            System.out.println(Thread.currentThread().getName() + "\t 持有锁 "+ lockA+", 尝试获得"+ lockB);

            try {
                Thread.sleep(1000);
            } catch (InterruptedException e) {
                e.printStackTrace();
            }

            synchronized (lockB){
                System.out.println(Thread.currentThread().getName() + "\t 持有锁 "+ lockB+", 尝试获得"+ lockA);
            }
        }
    }
}

步骤:

  • 使用jps -l命令找到程序进程;
  • 使用jstack pid命令打印堆栈信息;

上面死锁示例代码使用jstack pid后的一些信息:

Found one Java-level deadlock:
=============================
"线程BBB":
  waiting to lock monitor 0x00007feb0d80b018 (object 0x000000076af2d588, a java.lang.String),
  which is held by "线程AAA"
"线程AAA":
  waiting to lock monitor 0x00007feb0d80d8a8 (object 0x000000076af2d5c0, a java.lang.String),
  which is held by "线程BBB"

Java stack information for the threads listed above:
===================================================
"线程BBB":
	at com.github.springcloud.service.ThreadHolderLock.run(MainTest.java:35)
	- waiting to lock <0x000000076af2d588> (a java.lang.String)
	- locked <0x000000076af2d5c0> (a java.lang.String)
	at java.lang.Thread.run(Thread.java:748)
"线程AAA":
	at com.github.springcloud.service.ThreadHolderLock.run(MainTest.java:35)
	- waiting to lock <0x000000076af2d5c0> (a java.lang.String)
	- locked <0x000000076af2d588> (a java.lang.String)
	at java.lang.Thread.run(Thread.java:748)

Found 1 deadlock.

内存泄露排查分析

Java虚拟机是使用引用计数法和可达性分析来判断对象是否可回收,本质是判断一个对象是否还被引用,如果没有引用则回收。在开发的过程中,由于代码的实现不同就会出现很多种内存泄漏问题,让gc误以为此对象还在引用中,无法回收,造成内存泄漏。

当内存泄露时,如果不是JVM参数中的内存分配太小了,那么从根本上解决Java内存泄露的唯一方法就是修改程序。

内存泄露主要原因:

  • 在内存中加载过大的数据,例如,从数据库取出过多数据;
  • 资源未关闭造成的内存泄漏;
  • 变量不合理的作用域,使用完毕,如果没有及时的赋值为null,则会造成内存泄露;
  • 长生命周期的对象中引用短生命周期对象,很可能会出现内存泄露;

内存泄漏排查:

  1. 内存泄漏的主要表象就是内存不足,所以首先要看一下JVM启动参数中内存空间分配是否过小,如果是这种问题调整该参数即可;
  2. 从代码层面找问题,如果之前从未出现过此类问题,新增接口或者引入新第三包的时候后出现该问题,则可能是新增的部分代码存在问题;
  3. 使用jdk相关命令进行排查分析:
    • 使用jstat -gc 查看GC垃圾回收统计信息,看Full GC后堆空间使用内存还持续增长,且有增长到Xmx设定值的趋势基本可以肯定存在内存泄露,如果当前完全垃圾回收后内存增长到一个值之后,又能回落,总体上处于一个动态平衡,那么内存泄漏基本可以排除;也可以隔断时间抽取老年代占用内存情况,如果老年代占用情况持续上升也很有可能存在内存泄露的情况;
    • 把堆dump下来再用工具进行分析,但dump堆要花较长的时间,并且文件巨大,不建议这样;可以使用jmap -histo:live 在线进行分析,查看输出的对象数量如果过大就需要额外注意;

使用MAT找到内存泄漏的代码思路:

  1. 打开MAT中histogram,找到堆内存中占用最大的对象(内存泄漏很有可能就是由大对象导致的);
  2. 由大对象找被哪些线程引用,查看内存占用最大的线程;
  3. 从线程中的堆栈信息找到项目中自定义的包和对象,从而可定位到具体的代码;
  • 22
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值