ebpf中的percpu map的注意事项与剖析

1 背景

    故事还要从一次翻车现场说起。

    为了统计各个CPU上的系统调用数据按照cpu分别进行统计,我参考了kernel Documents中关于percpu map的一段原话:

Values stored in BPF_MAP_TYPE_ARRAY can be accessed by multiple programs across different CPUs. To restrict storage to a single CPU, you may use a BPF_MAP_TYPE_PERCPU_ARRAY.

    用我不太靠谱的英语人肉翻译了一下,最后抓住了关键字"you may use a BPF_MAP_TYPE_PERCPU_ARRAY",我毫不犹豫的选择了BPF_MAP_TYPE_PERCPU_ARRAY作为数据的存储载体。

    接下来就是编写一个最简单的代码框架,然后慢慢完善、打磨功能。谁知刚刚代码框架刚刚写好,结果一跑程序就崩溃了(segfault. 我是幸运的,其实是偶现,如果没有撞见可能程序上线前我都发现不了这个问题)。几经周折,异常引发的范围缩小到bpf_map_lookup_elem(map_fd, &cpu, &value)这个调用引发,而且将BPF_MAP_TYPE_PERCPU_ARRAY换成BPF_MAP_TYPE_ARRAY就再也不出现了。

    这是为什么呢,难道是我用的不对?为了找到原因,接下来就开始了漫长的PERCPU map的探索之路。

    这里补充一些bpf_map_lookup_elem()的知识,以免一些同学一头雾水。

    bpf_map_lookup_elem()是ebpf中查找map中特定key对应value的函数。这个函数存在于两个不同的形态:1) 内核中提供的helper function,供ebpf程序调用;2) libbpf库中提供的用户态接口,最终是通过系统调用来实现查找key对应的value。

2 自我反省

    在深扒代码我认真思考了一下目前的局势:

    1 使用BPF_MAP_TYPE_ARRAY map时,用户态bpf_map_lookup_elem()不出这个问题;

    2 ebpf中内核使用bpf_map_lookup_elem()的helper function为什么就没有问题.

    带着两个问题我深深的怀疑BPF_MAP_TYPE_PERCPU_ARRAY类型的map对于bpf_map_look_elem()的实现在内核helper function和用户态在系统调用上的实现上是不一致的。

3 分析bpf_map_lookup_elem的实现

    为了搞清楚BPF_MAP_TYPE_PERCPU_ARRAY map在bpf_map_look_elem()函数上对于内核helper function和用户态syscall的区别,我开始了这两种方式的探索。

3.1 内核helper function的实现

    可以很清楚的看到,内核helper function在根据key查找元素时最终是通过this_cpu_ptr()获取元素指针。

 3. 2 用户态系统调用

    可以看到,这里最终是拷贝了num_possible_cpus()*元素size 大小的内存到用户态。这里和helper function是有区别的;上面helper function只访问了一个元素大小的内存,而这里则是num_possible_cpus()个元素,也就是说对于BPF_MAP_TYPE_PERCPU_ARRAY这种percpu 类型的map,用户态通过系统调用bpf_map_look_elem()去访问时,需要传递num_possible_cpus()个元素大小的内存来存放内核拷贝的数据。如果只是按照普通MAP方式,传递一个元素大小的内存,则会发生越界。

总结

    本文只是浅浅的关注了一下Linux中BPF_MAP_TYPE_PERCPU_ARRAY类型map在bpf_map_look_elem()函数上对于helper function和用户态系统调用的区别。

    其实在Linux中BPF_MAP_TYPE_PERCPU_ARRAY只是其中一种percpu map,还有其他若干种percpu map,其元素的访问原理也是一样,helper function与用户态系统调用是有区别的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值