配置内核看门狗支持

原文地址:http://sunnyshineboy.blog.163.com/blog/static/2028151182012539552151/


linux内核的默认配置中没有看门狗,(即/dev/目录中没有watchdog设备)需要对内核进行配置添加对看门狗的支持,下面以Redhat9.0为例。

想要对watchdog了解可以查看内核中的文档非常有用。

[root@localhost linux-2.4.20-8]# find -name *watchdog*
./Documentation/nmi_watchdog.txt
./Documentation/pcwd-watchdog.txt
./Documentation/watchdog-api.txt
./Documentation/watchdog.txt

1 Linux下watchdog的工作原理
Watchdog在实现上可以是硬件电路也可以是软件定时器,能够在系统出现故障时自动重新启动系统。在Linux 内核下, watchdog的基本工作原理是:当watchdog启动后(即/dev/watchdog 设备被打开后),如果在某一设定的时间间隔内/dev/watchdog没有被执行写操作, 硬件watchdog电路或软件定时器就会重新启动系统。
/dev/watchdog 是一个主设备号为10, 从设备号130的字符设备节点。 Linux内核不仅为各种不同类型的watchdog硬件电路提供了驱动,还提供了一个基于定时器的纯软件watchdog驱动。 驱动源码位于内核源码树drivers\char\watchdog\目录下。
2 硬件与软件watchdog的区别
硬件watchdog必须有硬件电路支持, 设备节点/dev/watchdog对应着真实的物理设备, 不同类型的硬件watchdog设备由相应的硬件驱动管理。软件watchdog由一内核模块softdog.ko 通过定时器机制实现,/dev/watchdog并不对应着真实的物理设备,只是为应用提供了一个与操作硬件watchdog相同的接口。
硬件watchdog比软件watchdog有更好的可靠性。 软件watchdog基于内核的定时器实现,当内核或中断出现异常时,软件watchdog将会失效。而硬件watchdog由自身的硬件电路控制, 独立于内核。无论当前系统状态如何,硬件watchdog在设定的时间间隔内没有被执行写操作,仍会重新启动系统。
一些硬件watchdog卡如WDT501P 以及一些Berkshire卡还可以监测系统温度,提供了 /dev/temperature接口。 对于应用程序而言, 操作软件、硬件watchdog的方式基本相同:打开设备/dev/watchdog, 在重启时间间隔内对/dev/watchdog执行写操作。即软件、硬件watchdog对应用程序而言基本是透明的。
在任一时刻, 只能有一个watchdog驱动模块被加载,管理/dev/watchdog 设备节点。如果系统没有硬件watchdog电路,可以加载软件watchdog驱动softdog.ko。
3 Linux内核中关于watchdog的配置
在/usr/src/linux目录运行命令:makemenu config
确保在下面的菜单已经启用Software Watchdog选项


Character Devices

 Watchdog Cards --->  

[*] Watchdog Timer Support  

[M] Software Watchdog (NEW)
 


如图2 。


图 2 编译内核支持Software Watchdog选项
4 加载模块
#insmod softdog
说明:watchdog能让系统在出现故障1分钟后重启该机器。这个功能可以帮助服务器在确实停止心跳后能够重新恢复心跳。 如果使用该特性,则在内核中装入"softdog"内核模块,用来生成实际的设备文件,输入"insmod softdog"加载模块。 输入"grep misc /proc/devices"(应为10),输入"cat /proc/misc | grep watchdog"(应为130)。 生成设备文件:"mknod /dev/watchdog c 10 130" 。
5 测试软件狗
编辑文件 /etc/ha.d/ha.cf
如掉下面一行的注释号:
watchdog /dev/watchdog
重新启动Heartbeat
#service heartbeat restart
使用命令杀掉heartbeat进程
killall -9 heartbeat
此时日志文件中应当出现一行:
Softdog: WDT device closed unexpectedly. WDT will not stop!
表示软件狗生效。另外使用命令lsmod可以看到软件狗已经加载。如图3 。


图-3
6 删除软件狗的方法
使用命令可以从内核中删除软件狗:
#modprobe -r softdog

 

测试程序以下代码是2.6.31内核的程序,redhat9.0内核是2.4.20-8想要在redhat9.0中运行需要稍作修改

在include/linux/watchdog.h中添加#include <linux/types.h>头文件

和#define WDIOC_SETTIMEOUT        _IOWR(WATCHDOG_IOCTL_BASE, 6, int)就能编译通过。

#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>

#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <termios.h>
#include <errno.h>
#include <signal.h>
#include <time.h>
#include <pthread.h>
#include <sys/time.h>
#include <linux/watchdog.h>
#include <sys/ioctl.h>
 
time_t  backTime;
struct tm *pBackTime;
int wt_fd;
 
static void sigAlarm(int sig)
{
    char flag = '0';
    (void)time(&backTime);
    pBackTime= localtime(&backTime);
    printf("day: %d; hour: %d; min: %d; sec: %d\n", pBackTime->tm_mday, pBackTime->tm_hour, pBackTime->tm_min, pBackTime->tm_sec);
 
    write(wt_fd, &flag, 1); //Reset Watchdog  喂狗
    alarm(2);
    return;
}
 

int main()
{
       char flag = 'V';
       int ret;
       int timeout = 42;
      
       if(SIG_ERR == signal(SIGALRM, sigAlarm))
       {
           perror("signal (SIGALARM) error");
       }
 
       wt_fd = open("/dev/watchdog", O_RDWR);
       if(wt_fd <= 0)
       {
           printf("Fail to open watchdog  device!\n");
       }
       else
       {
           write(wt_fd,NULL,0);
           printf("Turn on Watch Dog\n");
           ret = ioctl(wt_fd, WDIOC_SETTIMEOUT, &timeout);
           if(EINVAL == ret)
           {
                printf("EINVAL Returned\n");
           }
           else if(EFAULT == ret)
           {
                printf("EFAULT Returned\n");
           }
           else if(0 == ret)
           {
                printf("Set timeout %d secs success\n", timeout);
           }
           else
           {
                printf("Ret %d\n", ret);
           }
       }
 
       alarm(3);
 
       while(1);
 
       write(wt_fd, &flag, 1);
       printf("Turned off Watch Dog\n");
       close(wt_fd);
       return 0;
}

本代码实现了启用看门狗,设置看门狗超时时间,定时喂狗,关闭看门狗还没有修正。
经实践发现,42秒是s3c2440最长的超时时间。(这个时间是别人说的我还没测试)

Ctrl+C结束程序时没有关闭看门狗,到规定时间没有喂狗,系统会重启。

 

看门狗是混杂设备,所以主设备号是10,/linux/miscdevice.h 中定义他的次设备号为130
#define WATCHDOG_MINOR 130 /* Watchdog timer */
#define TEMP_MINOR 131 /* Temperature Sensor */
#define RTC_MINOR 135
#define EFI_RTC_MINOR 136 /* EFI Time services */
#define SUN_OPENPROM_MINOR 139
#define DMAPI_MINOR 140 /* DMAPI */
这似乎是硬性的规定。
# insmod s3c2410_wdt.ko soft_noboot=1
<6>S3C2410 Watchdog Timer, (c) 2004 Simtec Electronics
# echo a>/dev/misc/watchdog
<2>s3c2410-wdt: Unexpected close, not stopping watchdog!
<6>s3c2410-wdt: Watchdog timer expired!
<6>s3c2410-wdt: Watchdog timer expired!
<6>s3c2410-wdt: Watchdog timer expired!
<6>s3c2410-wdt: Watchdog timer expired!
<6>s3c2410-wdt: Watchdog timer expired!
测试正常,如果soft_noboot为0(默认的)
# insmod s3c2410_wdt.ko

# echo a>/dev/misc/watchdog
后若干时间没有操作,系统就会重启了,如果一个尽的往/dev/misc/watchdog写东西,也不会重启。
写V,会停止看门狗,当然以后系统也不会重启了。
我才发现,原来看门狗的到时中断 和 到时重启 要互斥。
可以想象,如果到时了,又发生中断,又重启,那么中断的意义就没有了。
如果到时了,没有中断也没有重启,那么看门狗的意义就没有了。
呵呵,所以要么到时就重启,表示软件的失控,
要么到时发生中断,通过中断来指示软件运行正常与否。

 

配置所对应的驱动源代码为:Linux-3.1/drivers/watchdog/s3c2410_wdt.c。

在开发板的终端启动信息可以看到相应启动信息:

... ...

i2c /dev entries driver
S3C2410 Watchdog Timer, (c) 2004 Simtec Electronics
s3c2410-wdt s3c2410-wdt: watchdog inactive, reset disabled, irq enabled
cpuidle: using governor ladder

【2】关于打开和关闭看门狗

在看门狗驱动程序中,我们注意到有这样一个函数,注意其中的蓝色粗体部分字体:

#define PFX "s3c2410-wdt: "
#define CONFIG_S3C2410_WATCHDOG_ATBOOT (0)
//这里表明看门狗的默认时间是15 秒,如果超过此时间系统将自行重启
#define CONFIG_S3C2410_WATCHDOG_DEFAULT_TIME (15)
static ssize_t s3c2410wdt_write(struct file *file, const char __user *data,
size_t len, loff_t *ppos)
{
/*
* Refresh the timer.
*/
if (len) {
if (!nowayout) {
size_t i;
/* In case it was set long ago */
expect_close = 0;
for (i = 0; i != len; i++) {
char c;
if (get_user(c, data + i))
return -EFAULT;
if (c == 'V')
expect_close = 42;
}
}
s3c2410wdt_keepalive();
}
return len;
}

根据此代码,我们判定可以在打开看门狗设备(/dev/watchdog)之后不断的向看门狗随便写入写入一些数据以实现喂狗操作,但是,当写入“V“时,就可以关闭看门狗了。

【3】测试看门狗

根据上面的分析,我们可以使用 echo 命令向/dev/watchdog 设备随便写入一些数据即可开启看门狗,比如:echo 0 > /dev/watchdog,如下:

[root@zxj /]#echo 0 > /dev/watchdog
s3c2410-wdt s3c2410-wdt: Unexpected close, not stopping watchdog
[root@zxj /]#

此时,如果静等 15 秒钟,系统将会自动重启,这样就证实了看门狗已经被开启了。如果 15 秒之内,我们不停地重复“喂狗”操作,也就是不停的使用echo 命令向看门狗写入数据,那么系统就不会重启。那么,如何停止看门狗呢?根据上面的分析,只要写入“V”就可以了。需要知道的是,但我们使用echo 命令向/dev/watchdog 写入数据的时候,同时也把“回车”给送进去了,因此可以这样操作:echo -n V >/dev/watchdog这里的“-n”意思是“去掉回车”,为了测试,你可以先输入:
echo 0 > /dev/watchdog
接着再输入:
echo –n V > /dev/watchdog
然后接着静等,过了好久,系统依然在正常运行,这就证明了看门狗已经被关闭了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值