ftrace 原理及使用

weixin_45731594

已于 2022-12-27 16:13:54 修改

阅读量1.3k

点赞数 1

文章标签： linux 服务器运维

于 2022-12-27 16:04:52 首次发布

本文链接：https://blog.csdn.net/weixin_45731594/article/details/128457465

版权

一、ftrace介绍

1、ftrace功能：

帮助了解Linux内核的运行时行为，可以查看系统调用情况，以及某个函数的调用流程。2.6内核之后引入内核的。以便进行故障调试或性能分析。

2、ftrace包括：

trace是追踪的意思，而 ftrace 不仅仅是 function trace，还有kprobe event、tracepoint等动态trace

Function tracer 、Function graph tracer：跟踪函数调用

Function switch tracer：跟踪进程调度情况

Wakeup tracer：跟踪进程的调度延迟，即高优先级进程从进入 ready 状态到获得 CPU 的延迟时间。该 tracer 只针对实时进程

irqsoff tracer：

二、ftrace的使用

1、内核支持ftrace：

想让内核支持 ftrace 功能，需要将其编译进入内核，需要打开内核配置项：

kernel hacking ----> Tracers （执行make menuconfig）

目的：选择开启相应的追踪器功能

ftrace 通过 debugfs 向用户态提供了访问接口，所以还需要将 debugfs 编译进内核。激活对 debugfs 的支持，可以直接编辑内核配置文件 .config ，设置 CONFIG_DEBUG_FS=y

2、挂载debugfs文件系统

3、ftrace用户层接口

ftrace的目录：/sys/kernel/debug/tracing/ ，常用文件介绍：

tracing_on，启用/禁用向追踪缓冲区写入功能。1为启用，0为禁用。
trace，以文本格式输出内核中追踪缓冲区的内容，是查看trace日志的接口。
current_tracer，通过该接口指定当前ftrace要使用的tracer，也就是要追踪的函数/时间。
available_tracers，当前内核中可用的插件追踪器。
tracing_cpumask，以十六进制的位掩码指定要作为追踪对象的处理器，例如，指定0xb时仅在处理器0、1、3上进行追踪。

dynamic tracing

动态trace进行过滤的接口，是需要在编译时支持该功能，需要打开对应的宏开关：
set_ftrace_pid，指定作为追踪对象的进程的PID号。
trace_pipe，与trace相同，但是运行时像管道一样，可以在每次事件发生时读出追踪信息，但是读出的内容不能再次读出。
buffer_size_kb，以KB为单位指定各个CPU追踪缓冲区的大小。系统追踪缓冲区的总大小就是这个值乘以CPU的数量。设置buffer_size_kb时，必须设置current_tracer为nop追踪器。
set_ftrace_filter，指定要追踪的函数名称，函数名称仅可以包含一个通配符。
set_ftrace_notrace，指定不要追踪的函数名称。

4、ftrace的插件追踪器：

function，函数调用追踪器，可以看出哪个函数何时调用。

function_graph，函数调用图表追踪器，可以看出哪个函数被哪个函数调用，何时返回。

mmiotrace，MMIO( Memory MappedI/O)追踪器，用于Nouveau驱动程序等逆向工程。

blk，block I/O追踪器。

wakeup，进程调度延迟追踪器。

wakeup_rt，与wakeup相同，但以实时进程为对象。

irqsoff，当中断被禁止时，系统无法响应外部事件，造成系统响应延迟，irqsoff跟踪并记录内核中哪些函数禁止了中断，对于其中禁止中断时间最长的，irqsoff将在log文件的第一行标示出来，从而可以迅速定位造成系统响应延迟的原因。

preemptoff，追踪并记录禁止内核抢占的函数，并清晰显示出禁止内核抢占时间最长的函数。

preemptirqsoff，追踪并记录禁止内核抢占和中断时间最长的函数。

sched_switch，进行上下文切换的追踪，可以得知从哪个进程切换到了哪个进程。

nop，不执行任何操作。不使用插件追踪器时指定。

5、使用ftrace：分为三步

设置tracer类型

设置tracer参数

使能tracer

function trace 函数调用追踪器，跟踪函数调用。默认追踪所有函数，通过设置set_ftrace_filter 来跟踪过滤函数，可以看出哪个函数何时调用
1. available_filter_functions：列出当前可以跟踪的内核函数，不在该文件中列出的函数，无法跟踪其活动
2. enabled_functions：显示有回调附着的函数名称。
3. function_profile_enabled：打开此选项，在trace_stat中就会显示function的统计信息。
4. set_ftrace_filter：用于指定跟踪的函数
5. set_ftrace_notrace：用于指定不跟踪的函数
6. set_ftrace_pid：用于指定要跟踪特定进程的函数
使用：echo 0 > tracing_on 清空之前的trace记录

echo function > current_tracer 设置tracer类型为function

echo xxxxxx > set_ftrace_filter 过滤要跟踪的函数，对其进行跟踪

echo 1 > tracing_on 收集调用信息

cat trace 查看对跟踪函数的调用信息
wakeup tracer 追踪普通进程从唤醒到真正得到执行之间的延迟

使用：echo wakeup > current_tracer

echo 1 > tracing_on

cat trace | hrad -40
wakeup_rt tracer
function_graph trace 可以提供类似 C 代码的函数调用关系信息，通过写文件 set_graph_function可以显示指定要生成调用关系的函数，缺省会对所有可追踪的内核函数生成函数调用关系图

函数图追踪器对函数的进入和退出进行跟踪，有利于观察函数的执行时间,确定代码执行流程。

使用：echo 0 > trace

echo function_graph > current_tracer 设置 tracer 类型

echo xxxxxx > set_graph_function 设置要追踪的函数

echo 1 > tracing_on
trace event 实现低性能损耗，对执行流无影响的一种信息输出机制

使用：在 events 目录下有很多的event事件，可以看一下sched事件，sched目录下还有很多具体的事件，

打开sched_wakeup事件下，有：enable、filter、format、hist、id、trigger

enable：使能这个事件

filter：
查看函数调用栈：

常用方法：函数内部添加 WARN_ON(1) 、ftrace

在trace函数的时候，设置 echo 1 > options/func_stack_trace 即可在 trace 结果中获取追踪函数的调用栈

使用：echo 0 > tracing_on

echo function _ current_tracer

echo schedule > set_ftrace_filter

echo 1 > options/func_stack_trace

echo 1 > tracing_on
跟踪一个命令，但是命令执行时间很短

6、前端工具

使用ftrace功能进行二次封装一些命令来操作，trace-cmd 就是ftrace封装命令的其中一种。

该软件包由两部分组成：

trace-cmd：提供数据抓取和数据分析的功能

kernelshark：用图形化的方式来详细分析数据，也可以做数据抓取

三、ftrace 框架

在这里插入图片描述

1、整体流程

kernel：会有很多的桩点，function trace/trace event，每个桩点都在想要被trace的函数里边，如果某个被trace的函数桩点触发，如果该函数的桩点是使能的就会传到之前注册好 tracers 里这个回调函数中，把现场的日志写到ring buffer 里边。而tracers 都是由ftrace 这个框架来管理的，每个tracer 都由ftrace 框架来注册。ftrace框架的功能一个是管理 tracers ，再一个是当接收到用户态使能某个函数/event的命令，会动态修改内核的某个函数，使其使能起来。ring buffer的功能是一个接收tracers的写入，再一个是用户通过debugfs读取ring buffer的内容。

2、以 function为例进行插桩：

函数插桩

利用gcc -pg选项，在每个函数入口附近插入 mconut 调用
对桩点进行管理

scripts/recordmcount.c

在内核编译时，每编译完成一个.c文件，调用recordmcount：对生成的每一个 .o 文件都进行重定位，找到mcount调用的地址，先放在临时缓冲区，等recordmcount找到每个 .o文件的mcount地址后，新增一个

_mcount_loc 段，并将 mcount 调用地址写到这个段中。

eg：

在这里插入图片描述

include/asm-generic/vmlinux.lds.h

通过 vmlinux.lds.h 这个连接脚本，将 .o 中的每个mcount进行收集，在连接脚本中定义变量：

_start_mcount_loc

_stop_mcount_loc

在这里插入图片描述

将所有的 mcount_loc 放在 start 、stop之间，最后通过这两个变量获取中间数据

在这里插入图片描述

收集好这些插桩点之后，在内核初始化阶段，通过start、stop这两个变量，遍历将所有的都替换成 nop

在这里插入图片描述

上述是在不使能的情况下对 mcount进行的管理，接下来就需要使能某个tracer：

需要考虑：首先需要知道这个函数插桩点的位置，记录某个tarce点的状态，就需建立新的控制结构

在这里插入图片描述

ip：对应的bl那个地址，可以理解成一个ip 就对应一个函数

flags：当前插桩点的状态

arch：这个在当前架构下基本上为空

通过ftrace_pages 来保存dyn_ftrace 数据（ftrace_pages的大小是根据所有的 dyn_ftrace 来分配的）

在将 _ mcount_loc 数据迁移到ftrace_pages后，将其释放

ftrace_pages中数据是有序的，便于查找（根据ip进行排序）

通过dmesg可以看到ftrace_pages 占用的内存

在ftrace_pages填好内容之后，mcount_loc释放，

在这里插入图片描述

在用户层执行：cat available_filter_functions ,可以看到插桩的函数，这个就是通过ftrace_pages来打印的

dyn_ftrace flag：分成两部分：

在dyn_ftrace中的flag，会置位，通过

在这里插入图片描述

根据每个ip对应的flag，给内核函数选择不同的 bl 指令。

在这里插入图片描述

接下来是 ftrace_enter 的工作方式，eg：fatrace_caller的实现：当使能 ftrace的时候的过程如下：

首先：mcount_enter 进行压栈。

在这里插入图片描述

3、注册回调函数

调用 register_ftrace_function() 注册

提供 ftrace_ops

Static ftrace_ops

function

function graph

blk

kprobe

dynamic ftrace_ops

perf

通过下面的数据结构进行回调函数的注册， private 保存 ring buffer的数据内容

在这里插入图片描述

到了ftrace_caller这一步时，还没有注册对应的回调函数，通过公共的一个函数 ftrace_ops_list_func() ，在该函数内部会迭代的遍历注册到ftrace 框架中的 ftrace_ops ，这些如果这些ops想对对应的函数进行trace，就会调用注册的回调函数，perf的话只是想trace 当前的函数，而 function tracer的话需要trace所有的函数

在这里插入图片描述