一次k8s容器云上某个服务cpu使用异常问题定位

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/yinbucheng/article/details/95473954

问题简介

我们项目运行在k8s集群中,在运行期间出现存在一个服务的cpu使用比较异常相对其他服务的cpu使用要远远要高

 

 

问题定位及分析

通过容器外部执行top -Hp pid命令查看异常服务进程的线程使用情况

上面为找到明显的性能消耗线程,但是却总有10左右的线程消耗cpu比较多,跟踪其中占用为11.8的系统调用情况如下

上面执行大量重复的唤醒和阻塞操作

 

进入到k8s容器中安装Htop  apk add Htop

然后再执行Htop 查看线程上面的cpu消耗再结合jstack 里面的线程id

最终定位到如下调用存在问题疑点

查看下业务人代码调用:

通过分析代码:

当kafkaQueue中阻塞队列为空时会存在大量频繁的调用isEmpty方法,而isEmpty方法中是通过lock.lock()和lock.unLock()来保证线程安全的。从而会出现上面大量挂起及唤醒的操作

 

优化建议

 

取消isEmpty判断,使用阻塞队列中的take方法,其本身就能做到没有数据时会阻塞,有数据时才会唤醒

展开阅读全文

主机系统安装异常常见问题定位与解决方法

06-08

rn :本文所说的前提都在PXE服务器配置OK且ISO正确(通过sha256文件校验)的前提下出现的。本章节按照安装顺序介绍安装过程中的常见典型问题处理措施。rnrn3.1. 服务器上电自检过程常见问题rn服务器上电自检过程出现问题导致未能走到从引导介质启动的阶段,此类问题一般都是硬件问题,需联系服务器厂商定位解决,由于系统未启动,系统软件层面难以定位。一般在开局时可能遇到,通常是在运输过程中硬件松动/损坏引起(可尝试通过硬件拔插等操作进行规避)。rn3.2. 从安装源下载引导系统过程常见问题rn1) PXE安装-DHCP无法获取IPrn问题描述:rnBMC登录加载失败的节点,通过“Remote Control”窗口查看服务器信息,出现如下图所示错误信息。rn rn问题原因:rnA. 根据上图所示标注1和标注2所示,为无法获取DHCP服务器响应错误。rn可能原因如下:rna) PXE服务器的dhcpd服务是否运行正常。rnb) PXE服务器和被加载节点的网口不在同一个VLAN内(或未配置中继),导致PXE服务器收不到DHCP请求。rnB. 根据上图标注3所示,为网卡松动或者网线没插好。rn解决方案:rnA. 根据原因1的描述: rna) 如果dhcp服务不是running状态,修复dhcp服务。rnb) 检查网络配置,修改待加载节点所在的交换机端口与PXE服务器网口在同一个VLAN内。rnB. 插紧网卡连接好网线或更换网线。rn2) 无法识别安装源rn问题描述:rn无论是从ISO安装还是从PXE安装,都无法识别安装源,安装失败,确定安装源没有问题。目前仅在IBM X6系列服务器上遇到此问题。rn rn问题原因:rn最新的服务器,如IBM X6系列服务器,默认BIOS模式已经使用了uEFI模式,FusionCompute 当前不支持uEFI BIOS模式,需要修改。rn解决方案:rn进入BIOS将模式设置成传统的“Legacy Only”模式。rn判断是否修改成功的方法:在该主机安装其他操作系统(如Win2008),可安装成功说明已经切换成了“Legacy Only”模式。rn3) 下载引导系统(initrd)后系统卡住rn问题描述:rn安装主机时卡在如下界面,不能自动运行引导系统。rn rn解决方案:rn服务器内存或CPU故障,须需确保内存条的插法符合服务器要求,尝试换刀片或换内存排查,必要时可联系服务器厂商定位。rn3.3. 引导系统环境初始化过程常见问题rn1) 单板内存不足导致安装停止rn问题描述:安装主机时看到如下报错,安装停止。rn rn问题原因:rn主机安装要求服务器上的内存不小于8G,如果不足8G就会出现此问题。rn解决方案:rn确保服务器上存在不小于8G的内存条且符合服务器对内存条的插法要求。rn2) PXE安装时识别不到网卡导致安装停止rn问题描述:rnPXE方式安装时报网络初始化失败,无法下载配置文件,安装停止。局点使用PXE方式较少,目前未遇到过实例,无截图。rn问题原因:rnPXE安装过程中必须保证连接PXE服务器的网卡能够正常识别,如果服务器所用网卡是主机安装系统不支持的,就有可能出现此问题。rn解决方案:rn请参考“2.2 定制ISO”章节进行处理,将所需网卡驱动合入ISO中。rn3.4. 引导系统下载配置文件过程常见问题rn1) ISO安装过程报下载配置文件失败导致安装失败rn具体描述:rnISO安装过程出现如下报错,安装停止。rn rn问题原因:rn该问题是在物理光驱中存在CD的服务器上,通过虚拟光驱安装主机时出现的。rn解决方案案:rn取出物理光驱中的CD后再重新安装FusionCompute 系统。rn2) 无法识别磁盘导致安装失败rn问题描述:rnISO安装过程出现如下报错,安装停止。rn rn问题分析及解决方案:rn目前遇到的原因有三种:rnA. 单板上没有任何可用硬盘或U盘。rnB. 硬盘使用磁盘控制器为RAID,而硬盘尚未组RAID。rnC. 服务器上的磁盘控制器主机无法识别(Raid卡驱动问题),须确认该服务器raid卡是否在兼容性列表中,并参考“2.2 定制ISO”章节进行处理,将所需raid卡驱动合入ISO中。rn3.5. 系统安装完成后重启过程常见问题rn此处仅指安装后的第一次自动重启,之后的重启类问题此文档不介绍。rn1) 主机安装成功后重启无法启动或进入了非此次安装系统rn问题描述:rn使用ISO或者PXE方式安装主机系统,成功安装完成后会自动重启进入安装好的主机系统,但某些场景中会出现以下两种异常情况。rn1)重启后进入的系统并不是刚刚安装完成的新系统。rn2)重启后直接启动失败,报类似如下的错误。rn rn问题原因及解决方案:rn有以下三种情况会导致主机安装完成后启动失败或者进错系统:rn1)U盘和硬盘共存的场景,如果将系统安装在U盘上而选择从硬盘启动,或者将系统安装在硬盘上而选择从U盘启动。rn2)RAID与散盘(此处散盘特指所用磁盘控制器不是RAID的硬盘)共存的场景,由于RAID和散盘使用的驱动不一致,系统安装时识别到的第一块盘和系统启动时的第一块盘可能并不一致。rn3)系统自动重启后人为修改了BIOS改变了硬盘顺序(SSD盘和SAS/STAT盘混用场景须关注)。rn2) 主机安装成功后网卡不识别rn问题描述:rn主机安装(ISO安装方式)完成后使用ifconfig -a识别不到网卡或者只能识别到一部分网卡。rn问题原因及解决方案:rn服务器上存在主机不支持的网卡,请参考“1.2 定制ISO”章节进行处理,将所需网卡驱动合入ISO中。rn3) 主机安装成功后网卡乱序rn问题描述:rn主机安装成功后使用ifconfig -a可以识别到所有网卡,但是测试发现网卡名与外部的物理网卡不一致,出现了扩展网卡排在板载网卡之前的情况。rn问题原因:rn主机在安装和运行过程中,网卡命名顺序是根据网卡的PCI顺序依次排列的,某些服务器扩展网卡的PCI顺序比板载网卡靠前,就会出现此问题。rn解决方案:rn联系服务器厂商确认该服务器上网卡的PCI顺序,以确定实际的物理网卡顺序,根据实际的物理网卡顺序进行组网。rn 论坛

没有更多推荐了,返回首页