初探Linux内核态——通过proc文件系统作快速问题定位:https://www.jianshu.com/p/77d468ee32ff
/proc文件系统介绍
/proc目录介绍
Linux内核提供了一种通过 /proc 文件系统,在运行时访问内核内部数据结构、改变内核设置的机制。proc文件系统是一个伪文件系统,它只存在内存当中,而不占用外存空间。它以文件系统的方式为访问系统内核数据的操作提供接口。用户和应用程序可以通过proc得到系统的信息,并可以改变内核的某些参数。由于系统的信息,如进程,是动态改变的,所以用户或应用程序读取proc文件时,proc文件系统是动态从系统内核读出所需信息并提交的。下面列出的这些文件或子文件夹,并不是都是在你的系统中存在,这取决于你的内核配置和装载的模块。另外,在/proc下还有三个很重要的目录:net,scsi和sys。 Sys目录是可写的,可以通过它来访问或修改内核的参数,而net和scsi则依赖于内核配置。例如,如果系统不支持scsi,则scsi 目录不存在。除了以上介绍的这些,还有的是一些以数字命名的目录,它们是进程目录。系统中当前运行的每一个进程都有对应的一个目录在/proc下,以进程的 PID号为目录名,它们是读取进程信息的接口。而self目录则是读取进程本身的信息接口,是一个link。
用户通过proc可以查看当前系统软硬件信息及正在运行的进程信息,甚至可以通过设置更改某些文件来设置内核的状态。proc为用户和内核打开了一个通道。
子文件或子文件夹介绍
/proc/buddyinfo 每个内存区中的每个order有多少块可用,和内存碎片问题有关
/proc/cmdline 启动时传递给kernel的参数信息
/proc/cpuinfo cpu的信息
/proc/crypto 内核使用的所有已安装的加密密码及细节
/proc/devices 已经加载的设备并分类
/proc/dma 已注册使用的ISA DMA频道列表
/proc/execdomains Linux内核当前支持的execution domains
/proc/fb 帧缓冲设备列表,包括数量和控制它的驱动
/proc/filesystems 内核当前支持的文件系统类型
/proc/interrupts x86架构中的每个IRQ中断数
/proc/iomem 每个物理设备当前在系统内存中的映射
/proc/ioports 一个设备的输入输出所使用的注册端口范围
/proc/kcore 代表系统的物理内存,存储为核心文件格式,里边显示的是字节数,等于RAM大小加上4kb
/proc/kmsg 记录内核生成的信息,可以通过/sbin/klogd或/bin/dmesg来处理
/proc/loadavg 根据过去一段时间内CPU和IO的状态得出的负载状态,与uptime命令有关
/proc/locks 内核锁住的文件列表
/proc/mdstat 多硬盘,RAID配置信息(md=multiple disks)
/proc/meminfo RAM使用的相关信息
/proc/misc 其他的主要设备(设备号为10)上注册的驱动
/proc/modules 所有加载到内核的模块列表
/proc/mounts 系统中使用的所有挂载
/proc/mtrr 系统使用的Memory Type Range Registers (MTRRs)
/proc/partitions 分区中的块分配信息
/proc/pci 系统中的PCI设备列表
/proc/slabinfo 系统中所有活动的 slab 缓存信息
/proc/stat 所有的CPU活动信息
/proc/sysrq-trigger 使用echo命令来写这个文件的时候,远程root用户可以执行大多数的系统请求关键命令,就好像在本地终端执行一样。要写入这个文件,需要把/proc/sys/kernel/sysrq不能设置为0。这个文件对root也是不可读的
/proc/uptime 系统已经运行了多久
/proc/swaps 交换空间的使用情况
/proc/version Linux内核版本和gcc版本
/proc/bus 系统总线(Bus)信息,例如pci/usb等
/proc/driver 驱动信息
/proc/fs 文件系统信息
/proc/ide ide设备信息
/proc/irq 中断请求设备信息
/proc/net 网卡设备信息
/proc/scsi scsi设备信息
/proc/tty tty设备信息
/proc/net/dev 显示网络适配器及统计信息
/proc/vmstat 虚拟内存统计信息
/proc/vmcore 内核panic时的内存映像
/proc/diskstats 取得磁盘信息
/proc/schedstat kernel调度器的统计信息
/proc/zoneinfo 显示内存空间的统计信息,对分析虚拟内存行为很有用以下是
#####/proc目录中进程N的信息
/proc/N pid为N的进程信息
/proc/N/cmdline 进程启动命令
/proc/N/cwd 链接到进程当前工作目录
/proc/N/environ 进程环境变量列表
/proc/N/exe 链接到进程的执行命令文件
/proc/N/fd 包含进程相关的所有的文件描述符
/proc/N/maps 与进程相关的内存映射信息
/proc/N/mem 指代进程持有的内存,不可读
/proc/N/root 链接到进程的根目录
/proc/N/stat 进程的状态
/proc/N/statm 进程使用的内存的状态
/proc/N/status 进程状态信息,比stat/statm更具可读性
/proc/self 链接到当前正在运行的进程
ulimit、limits.conf、sysctl和proc文件系统
当修改一个Linux系统参数或限制,比如文件打开数时,用到过的方式有ulimit、limits.conf、sysctl和/proc文件系统。
ulimit
ulimit是linux shell的内键命令,它具有一套参数集,用于对 shell进程 及其 子进程 进行 资源限制。
例如用户同时运行了两个shell终端进程,只在其中一个环境中执行了ulimit – s 100,则该shell进程里创建文件的大小会有相应的限制,而另一个shell终端包括其上运行的子程序都不会受其影响。
ulimit的设定值是 per-process 的,也就是说,每个进程有自己的limits值。
使用ulimit进行修改,是 立即生效 的。
ulimit只影响shell进程及其子进程,用户登出后失效。
可以在profile中加入ulimit的设置,变相的做到永久生效。
使用ulimit -a可以查看所有的设定值:
[root@ proc]# ulimit -a
core file size (blocks, -c) 0
data seg size (kbytes, -d) unlimited
scheduling priority (-e) 0
file size (blocks, -f) unlimited
pending signals (-i) 15821
max locked memory (kbytes, -l) 64
max memory size (kbytes, -m) unlimited
open files (-n) 1024
pipe size (512 bytes, -p) 8
POSIX message queues (bytes, -q) 819200
real-time priority (-r) 0
stack size (kbytes, -s) 8192
cpu time (seconds, -t) unlimited
max user processes (-u) 15821
virtual memory (kbytes, -v) unlimited
file locks (-x) unlimited
ulimit的参数
-H 设置硬件资源限制.
-S 设置软件资源限制.
-a 显示当前所有的资源限制.
-c size:设置core文件的最大值.单位:blocks
-d size:设置数据段的最大值.单位:kbytes
-f size:设置创建文件的最大值.单位:blocks
-l size:设置在内存中锁定进程的最大值.单位:kbytes
-m size:设置可以使用的常驻内存的最大值.单位:kbytes
-n size:设置内核可以同时打开的文件描述符的最大值.单位:n
-p size:设置管道缓冲区的最大值.单位:kbytes
-s size:设置堆栈的最大值.单位:kbytes
-t size:设置CPU使用时间的最大上限.单位:seconds
-v size:设置虚拟内存的最大值.单位:kbytes
unlimited 是一个特殊值,用于表示不限制
注意:
-n 限制文件描述符的最大值,在Linux下一切资源皆文件,所以该参数也限制了socket链接数
查询时,若不加H或S参数,默认显示的是软限制
修改时,若不加H或S参数,两个参数一起改变
设置ulimit的位置
可以在以下位置进行ulimit设置:
/etc/profile 所有用户有效,永久生效
~/.bash_profile 当前用户有效,永久生效
直接在控制台输入 当前用户有效,临时生效
放在程序的启动脚本中
limit.conf
limits.conf文件实际是Linux PAM中 pam_limits.so 的配置文件,pam_limits模块对 用户的会话 进行 资源限制。
一个shell的初始limits就是由pam_limits设定的,用户登录后,pam_limits会给用户的shell设定在limits.conf定义的值。
pam_limits的设定值也是per-process的。
pam_limits的设置是永久生效的。
/etc/security/limits.conf
4个参数: domain type item value
domain: username|@groupname
type: soft、hard、-
item:
core - 限制内核文件的大小
date - 最大数据大小
fsize - 最大文件大小
memlock - 最大锁定内存地址空间
nofile - 打开文件的最大数目
rss - 最大持久设置大小
stack - 最大栈大小
cpu - 以分钟为单位的最多 CPU 时间
noproc - 进程的最大数目
as - 地址空间限制
maxlogins - 此用户允许登录的最大数目
value: 值的大小
cat /etc/security/limits.conf
# /etc/security/limits.conf
#
#Each line describes a limit for a user in the form:
#
#<domain> <type> <item> <value>
#
#Where:
#<domain> can be:
# - a user name
# - a group name, with @group syntax
# - the wildcard *, for default entry
# - the wildcard %, can be also used with %group syntax,
# for maxlogin limit
# - NOTE: group and wildcard limits are not applied to root.
# To apply a limit to the root user, <domain> must be
# the literal username root.
#
#<type> can have the two values:
# - "soft" for enforcing the soft limits
# - "hard" for enforcing hard limits
#
#<item> can be one of the following:
# - core - limits the core file size (KB)
# - data - max data size (KB)
# - fsize - maximum filesize (KB)
# - memlock - max locked-in-memory address space (KB)
# - nofile - max number of open files
# - rss - max resident set size (KB)
# - stack - max stack size (KB)
# - cpu - max CPU time (MIN)
# - nproc - max number of processes
# - as - address space limit (KB)
# - maxlogins - max number of logins for this user
# - maxsyslogins - max number of logins on the system
# - priority - the priority to run user process with
# - locks - max number of file locks the user can hold
# - sigpending - max number of pending signals
# - msgqueue - max memory used by POSIX message queues (bytes)
# - nice - max nice priority allowed to raise to values: [-20, 19]
# - rtprio - max realtime priority
# - chroot - change root to directory (Debian-specific)
#
#<domain> <type> <item> <value>
#
#* soft core 0
#root hard core 100000
#* hard rss 10000
#@student hard nproc 20
#@faculty soft nproc 20
#@faculty hard nproc 50
#ftp hard nproc 0
#ftp - chroot /ftp
#@student - maxlogins 4
sysctl
sysctl是一个允许改变正在运行中的Linux系统的接口,修改的是针对 整个系统 的 内核参数。
sysctl的修改是 立即 且 临时 的(重启后失效)。
可以通过修改sysctl.conf配置文件,达到 永久 生效。
#####sysctl的选项
-n 打印值时不打印关键字
-e 忽略未知关键字错误
-N 仅打印名称
-w 当改变sysctl设置时使用此项
-p 从配置文件“/etc/sysctl.conf”加载内核参数设置
-a 打印当前所有可用的内核参数变量和值
-A 以表格方式打印当前所有可用的内核参数变量和值
查看某个内核参数值:
[root@ ~]# sysctl net.ipv4.ip_forward
net.ipv4.ip_forward = 0
临时修改某个内核参数值:
[root@ ~]# sysctl -w net.ipv4.ip_forward=1
net.ipv4.ip_forward = 1
[root@ ~]# sysctl net.ipv4.ip_forward=1
net.ipv4.ip_forward = 1
sysctl.conf配置文件
路径:
/etc/sysctl.conf
修改sysctl.conf配置文件,可以永久生效。
修改之后用sysctl -p加载内核参数配置,使其立即生效。
[root@ sysctl.d]# cat /etc/sysctl.conf
#
# /etc/sysctl.conf - Configuration file for setting system variables
# See /etc/sysctl.d/ for additional system variables.
# See sysctl.conf (5) for information.
#
#kernel.domainname = example.com
# Uncomment the following to stop low-level messages on console
#kernel.printk = 3 4 1 3
##############################################################3
# Functions previously found in netbase
#
# Uncomment the next two lines to enable Spoof protection (reverse-path filter)
# Turn on Source Address Verification in all interfaces to
# prevent some spoofing attacks
#net.ipv4.conf.default.rp_filter=1
#net.ipv4.conf.all.rp_filter=1
# Uncomment the next line to enable TCP/IP SYN cookies
# See http://lwn.net/Articles/277146/
# Note: This may impact IPv6 TCP sessions too
#net.ipv4.tcp_syncookies=1
# Uncomment the next line to enable packet forwarding for IPv4
#net.ipv4.ip_forward=1
# Uncomment the next line to enable packet forwarding for IPv6
# Enabling this option disables Stateless Address Autoconfiguration
# based on Router Advertisements for this host
#net.ipv6.conf.all.forwarding=1
###################################################################
# Additional settings - these settings can improve the network
# security of the host and prevent against some network attacks
# including spoofing attacks and man in the middle attacks through
# redirection. Some network environments, however, require that these
# settings are disabled so review and enable them as needed.
#
# Do not accept ICMP redirects (prevent MITM attacks)
#net.ipv4.conf.all.accept_redirects = 0
#net.ipv6.conf.all.accept_redirects = 0
# _or_
# Accept ICMP redirects only for gateways listed in our default
# gateway list (enabled by default)
# net.ipv4.conf.all.secure_redirects = 1
#
# Do not send ICMP redirects (we are not a router)
#net.ipv4.conf.all.send_redirects = 0
#
# Do not accept IP source route packets (we are not a router)
#net.ipv4.conf.all.accept_source_route = 0
#net.ipv6.conf.all.accept_source_route = 0
#
# Log Martian Packets
#net.ipv4.conf.all.log_martians = 1
#
/proc文件系统与sysctl.conf的对应关系
/proc/sys下内核文件与配置文件sysctl.conf中变量的对应关系:
去掉前面部分/proc/sys
将文件名中的斜杠变为点
例如:
/proc/sys/net/ipv4/ip_forward -> net.ipv4.ip_forward
/proc/sys/kernel/hostname -> kernel.hostname
对/proc进行读写
以开启IP转发为例,同时也能验证sysctl.conf与/proc文件系统的对应:
[root@ ~]# sysctl net.ipv4.ip_forward
net.ipv4.ip_forward = 0
[root@ ~]# cat /proc/sys/net/ipv4/ip_forward
0
[root@ ~]# echo "1" > /proc/sys/net/ipv4/ip_forward
[root@ ~]# cat /proc/sys/net/ipv4/ip_forward
1
[root@ ~]# sysctl net.ipv4.ip_forward
net.ipv4.ip_forward = 1
proc接口的实现
在proc文件系统中,我们可以将对虚拟文件的读写作为与内核中实体进行通信的一种手段,进行传输操作内核数据,但是与普通文件不同的是,这些虚拟文件的内容都是动态创建的。
proc的定义在include/linux/proc_fs.h下,接口函数的实现在/fs/proc/generic.c或/fs/proc/文件夹下寻找,第一节的proc目录分析,很多都是在/fs/proc/文件夹在实现的,从文件名称就可以看出,如下:
/fs/proc$ ls
array.c generic.c kcore.c mmu.c proc_sysctl.c task_mmu.c
base.c inode.c kmsg.c nommu.c proc_tty.c task_nommu.c
cmdline.c internal.h loadavg.c page.c root.c uptime.c
cpuinfo.c interrupts.c Makefile proc_devtree.c softirqs.c version.c
devices.c Kconfig meminfo.c proc_net.c stat.c vmcore.c
proc接口的创建有两种方式,create_proc_entry(已被后者取代)和proc_create,下面举例说明:
create_proc方式
/* proc_test.c */
//包含proc头文件
#include <linux/proc_fs.h>
#include <linux/module.h>
#include <linux/seq_file.h>
#define PROC_NAME "proc_test_file"
static struct proc_dir_entry *proc_dir = NULL;
static struct proc_dir_entry *proc_file = NULL;
static int hello_proc_show(struct seq_file *m, void *v)
{
seq_printf(m, "Hello proc_test!\n"); //写入proc文件的数据Hello proc_test!
return 0;
}
//proc open的实现函数
static int proc_test_open(struct inode *inode, struct file *file)
{
return single_open(file, hello_proc_show, NULL);
}
//proc write的实现函数
static int proc_test_write(struct file *file, const char *buf, unsigned long count, void *data)
{
char buffer[64] = {0};
int len = 0;
len = sscanf(buf, "%s", buffer); /* 数据由用户态到内核态,在write中处理用户数据 */
printk("proc_test write:%s\n", buffer);
return len;
}
static const struct file_operations proc_test_fops = {
.open = proc_test_open, //打开proc文件回调
.write = proc_test_write, //写proc文件回调
.owner = THIS_MODULE,
.read = seq_read,
.llseek = seq_lseek,
.release = single_release,
};
//proc接口创建
static __init int proc_test_create(void)
{
#if 0
/* 每次只remove了文件,没有remove目录,导致下一次insmod的时候会proc_mkdir失败,所以不用目录了... */
proc_dir = proc_mkdir("proc_test", NULL); /* 在proc目录下创建proc_test目录 */
if(!proc_dir)
return -ENOMEM;
#endif
proc_file = proc_create(PROC_NAME, 0666, /*proc_dir*/NULL, &proc_test_fops); /* 在proc_dir(即刚创建侧proc_test)目录下创建文件proc_test_file */
if(!proc_file)
return -ENOMEM;
return 0;
/*
proc_file = proc_create_entry("proc_test", 0644, proc_dir) //proc_create_entry方式,已经被proc_create取代
proc_file->read_proc = proc_test_read; // 读proc文件回调,即cat /proc/proc_test/pro_test1的回调
proc_file->write_proc = proc_test_write; // 写proc文件回调,即echo 1 > /proc/proc_test/pro_test1的回调
*/
}
static __exit void proc_test_exit(void)
{
remove_proc_entry(PROC_NAME, NULL);
}
module_init(proc_test_create);
module_exit(proc_test_exit);
MODULE_LICENSE("GPL");
MODULE_AUTHOR("root");
MODULE_DESCRIPTION("Kernel Module");
MODULE_ALIAS("proc test module");
Makefile:
obj-m += proc_test.o
KERNEL_PATH = /lib/modules/$(shell uname -r)/build/
all:
make -C $(KERNEL_PATH) M=$(PWD) modules
clean:
make -C $(KERNEL_PATH) M=$(PWD) clean
既然不使用read的方式,那就有新的方式代替,这边使用成员open,通过上面的例子可以很直观的看到,open函数会调用show函数,所以show函数的内容就是cat时得到的内容。