自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 物理磁盘空间不足的解决办法(删除数据&扩容)

4.重建分区(覆盖原分区表,扩展容量):输入 n(new),选择分区类型(默认 Primary 或 Logical),按回车沿用原 Start 扇区,再按回车使用全部未分配空间(或手动输入结束扇区)。2.查看哪个目录或者文件占据了磁盘空间(df -h),切到使用率高的目录中,du -sh * 查看当前目录下的所有文件大小。2.查看分区信息:输入 p(print),记录目标分区的 Partition number(如 3)、Start 扇区(不可修改,否则数据丢失)。

2025-11-26 17:33:30 504

原创 GPU典型故障问题解析和排障(二)

通常情况下,这个问题由其中一个电源出现故障引起,但也可能是由主板、SATA 驱动器、风扇或 PCIe 卡上的短电路引起的。通常情况下,这个问题由其中一个电源出现故障引起,但也可能是由基板、SATA 驱动器、风扇或 PCIe 卡上的短路引起的。1.重启服务器 ,2 断电后重新插拔/对调,进行压测 3.换新的GPU进行压测。如果处理器插槽的问题仍然存在,请更换主板,否则将更换处理器。取出电池,用酒精棉以消除潜在的污染,重新安装电池。卸下并检查所有可能受影响的组件,进行最小化方法。确保没有风扇故障,散热正常。

2025-11-19 17:17:00 999

原创 GPU典型故障问题解析和排障(一)

ECC顾名思义 错误校验码,是一种硬件级的内存容错技术,GPU和RAM的ECC基本原理是一样的,都是通过添加校验码来实现。PS:不是所有的GPU都支持ECC,并且ECC会消耗一部分硬件资源,GPU可以选择将其功能打开/关闭。ECC计数增加可能会带来以下影响:1)计算精度偏差:单比特翻转导致浮点运算偏差,造成数据污染。2)应用程序不稳定:用户会看到程序频繁崩溃、失去响应、或者产生奇怪的非预期行为。

2025-11-19 15:54:57 1196

原创 Linux系统介绍+小知识点

1)硬链接 由于 Linux 下的⽂件是通过索引节点(inode)来识别⽂件,硬链接可以认为是⼀个指针,指向⽂件索引节点的指 针,系统并不为它重新分配 inode。每添加⼀个⼀个硬链接,⽂件的链接数就加 1。不⾜:1)不可以在不同⽂件系统的⽂件间建⽴链接;2)只有超级⽤户才可以为⽬录创建硬链接。2)软链接 软链接克服了硬链接的不⾜,没有任何⽂件系统的限制,任何⽤户可以创建指向⽬录的符号链接。因⽽现在更为⼴ 泛使⽤,它具有更⼤的灵活性,甚⾄可以跨越不同机器、不同⽹络对⽂件进⾏链接。

2025-11-17 13:13:32 868

原创 运维工作中遇到的问题小结

本文总结了三个服务器配置问题的解决方案:1)在X86架构浪潮服务器安装麒麟系统时,需修改启动参数以识别U盘安装源;2)华为服务器安装Ubuntu时需确认架构匹配,ARM架构需专用镜像;3)服务器存储配置中,主备双活模式下备机LUN需先创建但不映射才能同步成功。同时详细记录了SAN交换机配置过程,包括zone创建和华为存储管理操作要点,强调主机组与LUN的一对一对应关系及不同硬盘池的管理方式。

2025-11-11 11:17:23 853

原创 运维知识之二:维修 GPU

3.进系统查看是否识别到,如果替换后的卡槽3号位被识别到,5号位的没有被识别到,则说明GPU本身没有故障,主板原因,5号槽位卡槽故障。GPU的验证环节和更换内存硬盘不同,不光需要系统BIOS中识别到,还要通过压测,压测时间大约是2-6个小时不等。替换法:若通过互换法无法定位出故障原因,则需要进行替换法,将故障位置的GPU取出,更换新的GPU进行测试。服务器出现故障,可以通过日常现场巡检,API触发,监控软件如ZABBIX,普罗米修斯等。2.如5号位故障,讲5号位的GPU查到3号位,将3号位插入5号位。

2025-05-26 08:21:22 671

原创 机房运维必备知识之一:CR和IN工单如何建立

通过我们进入BMC或者系统进行进一步确认,发现确实存在设备故障,此时我们就需要手动建立incident工单。注意事项:变更开始时间选择业务低谷期,制作好应急预案,回滚计划。4.变更验证:这一步十分重要,功能验证,性能评估(如有必要),日志分析(登录BMC或是登录系统验证)。变更分为很多种,资产变更,流程变更等等,这里主要介绍因设备故障,需要维修设备导致的变更。2. 故障描述:设备的SN,所处的机位,故障信息,最好是有相应的日志或截图。3.影响范围:业务影响,严重程度(底到高),时间敏感度等等。

2025-05-23 10:10:45 711

原创 IDC服务器硬件方向运维工程师常见面试问题(附带自己的心得)

位置,核对SN,双人核对,确定服务器是否可以关机,下架安全性,根据工单要求,BIOS BMC FRU。14、内存UE和CE的区别(故障描述里会看到,CE是可纠正错误,UE是无法纠正的错误)9、光纤类型区别,光纤接口类型,如何区分单模多模?6、网络整替,配置管理口,让远程能登陆的命令?17、服务器开机无显示,应该如何排查故障并维修。19、服务器BMC不通,如何帮把这台机器解决?1、如何进单用户模式,单用户模式如何附加权限。3、服务器配置进BIOS按键,如何进BIOS。35、服务器双网不通的排查思路?

2025-05-22 17:36:34 2200

原创 IDC驻场自维保 查看硬件信息

READ卡:megacli -PDList -aALL | grep -E 'Slot|Media|Error|Firmware|PD Type|Raw Size|Predictive|Inquiry Data'- ethtool -i eth0|grep -i bus-info:|cut -d ":" -f2,3,4 网卡。- nvidia-smi -q | grep "Part Number" 显卡显示SN PN。- megacli -AdpAllinfo -aALL RAID卡。

2025-05-22 16:25:12 296

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除