Linux内核中的Watchdog

linux内核中有多个watchdog,他们属于不同模块,可同时存在。

用户态watchdog

可以在用户态程序操作,设置超时时间喂狗时间 。(只是通过内核提供的接口操作)

1、/dev/watchdog

此watchdog的基本工作原理是:当watchdog启动后(即/dev/watchdog 设备被打开后),如果在某一设定的时间间隔内/dev/watchdog没有被执行写操作(喂狗操作), 硬件watchdog电路或软件定时器就会重新启动系统。
/dev/watchdog 是一个主设备号为10, 从设备号130的字符设备。 Linux内核不仅为各种不同类型的watchdog硬件电路提供了驱动,还提供了一个基于定时器的纯软件watchdog驱动。 驱动源码位于内核源码树drivers/watchdog/目录下,软件watchdog对应与softdog.c。

硬件watchdog必须有硬件电路支持, 设备节点/dev/watchdog对应着真实的物理设备, 不同类型的硬件watchdog设备由相应的硬件驱动管理。软件watchdog由一内核模块softdog.o 通过定时器机制实现,/dev/watchdog并不对应着真实的物理设备,只是为应用提供了一个与操作硬件watchdog相同的接口。

1、对用户态喂狗程序而言,硬件/软件watchdog是透明的;
2、cat /dev/watchdog可以打开dog进行测试,不喂狗的情况下,timeout后系统会自动重启
3、对于/dev/watchdog 来说有一个内核线程与之对应。[watchdogd]; 满足一定条件时此线程会进行喂狗操作。(条件参考内核代码:watchdog_need_worker函数)

2、虚拟化场景下的/dev/watchdog

libvirt支持为kvm/qemu客户机创建watchdog,用于当客户机内部crash时,自动会触发相应的action。

libvirt支持模拟以下几种watchdog:

i6300esb - 推荐的watchdog,模拟为一种pci设备,openstack层面只支持这一种(nova拼写xml中写死)。
ib700 - 模拟为platform设备,xml中请勿分配pci设备号(不需要拼写

)。
diag288 - 模拟S390中的diag288设备,需要S390硬件支持。

action支持以下几种方式:

disabled:不使用watchdog设备
reset:强行重置虚拟机
poweroff:强行关闭虚拟机
pause:暂停虚拟机
none:只是启用watchdog,在虚拟机hang住时不执行任何操作

创建相应的虚拟机,qemu会为虚拟机虚拟出i6300esb硬件狗设备,虚拟机内部可以看到相应的设备。

在guest内操作/dev/watchdog和非虚拟化环境没有区别。
当watchdog动作触发后,libvirt还会触发event事件来告知上层应用(例如nova),进而可以将此事件反馈给用户。

Kernel watchdog

kernel watchdog是用来检测Lockup 的。所谓lockup,是指某段内核代码占着CPU不放。Lockup严重的情况下会导致整个系统失去响应。Lockup有几个特点:

首先只有内核代码才能引起lockup,因为用户代码是可以被抢占的,不可能形成lockup;
其次内核代码必须处于禁止内核抢占的状态(preemption disabled),因为Linux是可抢占式的内核,只在某些特定的代码区才禁止抢占(例如spinlock),在这些代码区才有可能形成lockup。

Lockup分为两种:soft lockup 和 hard lockup,它们的区别是 hard lockup 发生在CPU屏蔽中断的情况下。而soft lockup则是单个CPU被一直占用的情况(中断仍然可以响应)

NMI知识:
NMI即非可屏蔽中断。即使设置了屏蔽所有中断的时候,NMI也是不可以被屏蔽的;
中断分为可屏蔽中断和非可屏蔽中断:
可屏蔽中断:包含时钟中断,外设中断(比如键盘中断,I/O设备中断,等等),关闭中断时此类中断会被屏蔽。
NMI:即便在关闭中断的情况下,也能被响应的中断。触发NMI的条件一般都是ECC error之类的硬件Error。但NMI也给我们提供了一种机制,在系统中断被误关闭的情况下,依然能通过中断处理程序来执行一些紧急操作,比如kernel panic。
具有不一样的优先级,依次是kernel线程 < 时钟中断 < NMI中断。其中,kernel 线程是可以被调度的,同时也是可以被中断随时打断的。

SoftLockup

//对应代码位置kernel/watchdog.c
检测机制:
SoftLockup 检测首先需要对每一个CPU core注册叫做watchdog的kernel线程。即[watchdog/0],[watchdog/1]…。如果该线程在设定的期限内没有得到执行的话就意味着发生了soft lockup。

同时,系统会有一个高精度的计时器hrtimer(一般来源于APIC),该计时器能定期产生时钟中断,该中断对应的中断处理例程是kernel/watchdog.c: watchdog_timer_fn(),
此函数完成以下工作:

  • 要递增计数器hrtimer_interrupts(一个内核per cpu变量),这个计数器同时为hard lockup detector用于判断CPU是否响应中断;(给hardlockup使用,暂时不涉及)
  • 还要唤醒[watchdog/x]内核线程,该线程的任务是更新一个时间戳t1;
  • soft lock detector检查时间戳,如果超过soft lockup threshold一直未更新,说明[watchdog/x]未得到运行机会,意味着CPU长时间被霸占,也就是发生了soft lockup。

注意,内核线程[watchdog/x]的目的是更新时间戳,该时间戳是被watch的对象。而softlockup真正的看门狗(is_softlockup),则是由时钟中断触发的 watchdog_timer_fn()执行,[watchdog/x]是被scheduler调用执行的,而watchdog_timer_fn()则是被中断触发的

Hardlockup

上面已经有了Softlockup,为什么还需要Hardlockup呢?我们知道softlockup依赖于时钟中断触发,那如果某个内核线程禁用了中断然后不释放cpu,Softlockup就失去了检测效果。

NMI watchdog会利用到之前讲到的hrtimer。它的触发条件是基于PMU(性能监视单元)的NMI perf event,当PMU的计数器溢出时会触发NMI中断,对应的中断处理例程是 kernel/watchdog.c: watchdog_overflow_callback(),hard lockup detector就在其中,它会检查上述hrtimer的中断(时钟中断)次数(hrtimer_interrupts)是否在保持递增,如果停滞则表明hrtimer中断未得到响应,也就是发生了hard lockup。

这里面,被watch的对象是hrtimer,而watchdog则是由PMU设备发起的NMI中断处理程序 watchdog_overflow_callback()

watchdog_overflow_callback是由函数perf_event_create_kernel_counter注册的一个硬件事件回调函数,这个硬件在x86里叫performance monitoring,此硬件有一个功能就是在cpu clock经过了多少个周期后发出一个NMI中断出来。
判断hardlockup的接口为is_hardlockup。

不同watchdog的区别与限制

1、硬件/dev/watchdog, 可解决大部分问题,但依赖于硬件定时器支持。
2、软件/dev/watchdog, 硬件不支持/dev/watchdog时可以使用软件dog。依赖于定时器中断实现,如果内核发生中断屏蔽异常,功能会失效。(依赖软件定时器,也会有一定性能影响?)
3、softlockup, 检测内核死锁问题。内核单个cpu执行线程发生死锁时,可以检测到。(由于依赖htimer触发,所以前提是时钟中断正常)
4、hardlockup, 检测发生硬件死锁异常。内核死锁且关闭了中断时触发。

其中3、4对性能有一定影响,是否开启,以及检测周期需要评估对性能影响。

容易混淆问题

1、[watchdogd]内核线程是和/dev/watchdog绑定的线程; [watchdog/x]是softlockup模块的任务线程。

[root@localhost ~]# ps aux|grep dog
root 15 0.0 0.0 0 0 ? S Sep28 0:01 [watchdog/0]
root 18 0.0 0.0 0 0 ? S Sep28 0:01 [watchdog/1]
root 24 0.0 0.0 0 0 ? S Sep28 0:01 [watchdog/2]
root 30 0.0 0.0 0 0 ? S Sep28 0:01 [watchdog/3]
root 55 0.0 0.0 0 0 ? S Sep28 0:00 [watchdogd]

2、/dev/watchdog*与//proc/sys/kernel/dog相关变量是没有关系的,后者是内核soft/hardlockup检测模块的控制接口。(不同接口对应关系可参考内核/kernel/watchdog.c代码)

参考资料:

https://qkxu.github.io/2019/04/15/linux%E4%B8%8B%E7%9A%84watchdog.html
qemu intel i6300esb watchdog虚拟外设分析
https://blog.csdn.net/vic_qxz/article/details/120888410

  • 32
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值