numa node效应对网卡的影响以及解决方式

羽思

已于 2024-08-14 21:30:40 修改

阅读量1.7k

点赞数 18

分类专栏：网卡驱动文章标签： linux 服务器驱动开发网络

于 2024-08-14 21:20:33 首次发布

本文链接：https://blog.csdn.net/wonder_1314/article/details/141140440

版权

NUMA的诞生是为了解决SMP架构下不断增多的CPU Core导致的性能问题，NUMA调整了CPU和内存的布局和访问关系。将CPU划分到多个Node节点上，每个Node都有自己独立的内存空间。各个node之间通过高速互联通讯。

CPU访问不同类型节点的内存是不相同的，访问本地节点的速度最快，访问远端节点的速度最慢，即访问速度与节点的距离有关，距离越远访问速度越慢，即非一致。在NUMA系统中，当linux内核收到内存分配请求时，它会优先从发出请求的CPU本地或邻近的内存node中寻找空闲内存，这种方式称为local allocation。

当网卡PCIe EP、内存、TX&RX CPU 不在同一个Numa上，如果存在数据拷贝，那么就会跨node去访问内存，对于CPU的消耗是比在本node上的消耗多的多的。因此，我们可以尽量使CPU，内存，以及TX&RX CPU均处在一个node上。

1. numa查看

查看网卡处在哪个node的方法如下，如果是-1，表示该主机只有一个node。

cat /sys/bus/pci/devices/0000\:01\:00.0/numa_node

查看node上的cpu以及相应的内存

查看伙伴系统内存

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

羽思

关注关注

18
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pci设备与numa node的关系

木简熙的博客

05-21

4146

1.查找pci设备的[[[[<domain>]:]<bus>]:][<device>][.[<func>]] [[root@R2A1-VHST1-6010 ~]# lspci -vv -nn | grep -i nvidia 2.查找pci属于那个numa node [root@R2A1-VHST1-6010 ~]# lspci -s 18:00.0 -vv 该pci设备属于numa node 0 ...

NUMA机制

Joker_N的博客

04-08

452

NUMA一、NUMA二、特点三、缺点一、NUMA 非一致内存访问（Non-Uniform Aemory Access，NUMA）是一种多核CPU扩展技术。利用NUMA技术，可以将成百上千个CPU组合在服务器中。访问本地内存(Local Access)速度快访问远端内存(Remote Access)速度慢二、特点 NUMA服务器的基本特征是具有多个CPU模块，每个CPU模块由多个CPU(如4个)组成，并且具有独立的本地内存、I/O槽口等。由于其节点之间可以通过互联模块(如称为Crossbar Sw

参与评论您还未登录，请先登录后发表或查看评论

numa网卡绑定

大隐隐于野

02-07

1606

使用numactl --membind 将程序的cpu和mem绑定到同一节点上后，会大大减少perf中观察到的minor-fault(page-fault)的次数，同样会在延迟，只比原来的1us增加几百ns。不常访问的函数偶尔访问时（几秒一次），可能会出现延迟较高的情况，比如原来是1us，冷的情况下是3us，perf中观察到有较多的minor-fault(page-fault)chip：芯片，一个cpu芯片上可以包含多个cpu core，比如四核，表示一个chip里4个core。

NUMA、NODE、SOCKET、CPU关系深度探索

犀牛卫士

11-02

3766

假如系统有 A、B、C、D 四个numa，进程运行在A numa 所属core 上，那你是否知道A numa core 上的进程访问B、C、D哪个numa 的内存性能会更高？或者浅一层的问题，你认为 NUMA 和 SOCKET是一对一的关系吗？

【转】查看网卡挂在哪个numa节点上

大隐隐于野

06-21

372

linux服务器修改网卡numa_node的方法

luckjump的博客

01-12

2496

最近在搞集成的工作，碰到需要修改网卡numa_node值的问题，如下是一些基础方法，供初学者使用修改网卡numa_node 临时修改网卡numa_node 永久修改网卡numa_node

Linux系统网卡所属numa节点信息查询方法

krokodil98的博客

03-05

2334

linux系统下获取网卡所属numa节点信息的查询方法

查看网卡所在numa

最新发布

大隐隐于野

01-22

713

在多处理器系统中，特别是使用 NUMA（Non-Uniform Memory Access）架构的服务器中，了解网卡所在的 NUMA 节点可以帮助优化网络和应用程序的性能。

linux服务器修改磁盘numa_node的方法

luckjump的博客

01-12

1249

最近在搞集成的工作，碰到需要修改磁盘numa_node值的问题，如下是一些基础方法，供初学者使用修改磁盘nvme numa_node的值临时修改磁盘numa_node 永久修改numa_node

NUMA对单侧RDMA交互影响的性能评估-CR-SRDS-2020

02-12

NUMA对单侧RDMA交互影响的性能评估 NUMA（非Uniform Memory Access）和RDMA（Remote Direct Memory Access）是现代高性能计算平台的关键技术。RDMA允许节点直接访问远程机器的内存，而NUMA则是多处理器架构中用来...

numa及DPDK中对Numa的使用

roshy的专栏

09-14

1273

同时每个 pci 接口的 rte_eth_dev 的 data 结构中的 numa_node 字段也用于存储接口所在的 numa_node，这个字段能够在多进程间共享且能够通过每个接口的 rte_eth_dev 直接访问到。可以看到此函数将返回每个接口 rte_eth_dev 的 data 结构中的 numa_node 的值，这个值在每个接口初始化时调用驱动初始化函数从 rte_pci_device 中拷贝，缺少了这次拷贝就不能正确获取到网卡所在的 numa_node 的真实值。

多numa设备，如何看网卡插在哪个numa上

bluekrystal的博客

09-04

1264

1.在Linux系统中，可以通过lstopo命令来查看系统的NUMA拓扑结构。这个命令通常随着hwloc包一起提供。（在bclinux安装后，只有lstopo-no-graphics命令，这个命令也能查看）安装hwloc包：yum install hwloc。使用lstopo命令来显示系统的NUMA拓扑结构。

NUMA

小菜鸟上校的专栏

07-25

4440

NUMA的可以从两方面来定义：硬件和Linux软件。 1. 硬件从硬件的角度来讲，NUMA系统就是一个包含多个部件，且每个部件包含0个或多个CPU，内存以及IO总线。为了和软件的概念相区分，这里将每一个部件成为“CELL”。 NUMA系统中的每个“CELL”可以看作一个SMP系统的子集，尽管某些对于一

numa总结

热门推荐

shaoyunzhe的专栏

12-13

2万+

命令 centos 安装支持numa命令 yum install numactl 查看numa相关信息，包括内存大小，node中的cpu numactl --hardware 查看网卡对应的numa node cat /sys/class/net/enp129s0f0/device/numa_node

linux网卡软中断绑定

zgy926的博客

09-22

1269

网卡软中断绑定

【NUMA平衡】浅入介绍NUMA平衡技术及调度方式

沐风—云端行者

10-11

1967

一般的对称多处理器中，所有处理器都共享系统总线，因此当处理器的数目增大时，系统总线的竞争冲突加大，系统总线将成为瓶颈，所以目前对称多处理器系统的CPU数目一般只有数十个，可扩展能力受到极大限制。NUMA技术有效结合了对称多处理器系统易编程性和大规模并行系统易扩展性的特点，较好解决了对称多处理器系统的可扩展性问题，已成为当今高性能服务器的主流体系结构之一。基于NUMA架构的高性能服务器有HP的Superdome、SGI的Altix 3000、IBM的 x440、NEC的TX7、AMD的Opteron等。

LWN：针对多层内存系统重新进行NUMA平衡！

Linux News搬运工

05-17

993

NUMA、SMP架构下的CPU性能调优：姻亲关系、进程绑定与中断

东风的博客

03-06

8901

本文介绍了NUMA、SMP系统架构，并阐述了这两种架构下CPU的工作方式，以及为什么要做cpu性能优化，从硬件/软件方面如何实现CPU优化，在做进程绑定时需要考虑的问题。

代码 NUMA node

03-26

NUMA（non-uniform memory access）是一种计算机系统架构，它允许多个处理器和内存子系统同时工作。在NUMA系统中，不同的CPU与内存之间的访问速度是不同的，因此需要进行一些特殊处理来保证性能。在NUMA系统中，每个CPU和内存子系统都被分配到一个NUMA节点中。在代码中，NUMA节点通常使用NUMA API进行管理和访问。例如，通过调用numa_alloc_onnode()函数可以在指定的NUMA节点上分配内存。同时，numa_run_on_node()函数可以将当前线程绑定到指定的NUMA节点上运行，以确保访问该节点上的内存。以下是一个使用NUMA API的代码示例： ``` #include <numa.h> int main() { // 获取系统中的NUMA节点数量 int num_nodes = numa_max_node() + 1; printf("Number of NUMA nodes: %d\n", num_nodes); // 在NUMA节点0上分配1MB的内存 void *mem = numa_alloc_onnode(1024 * 1024, 0); printf("Allocated memory on NUMA node 0\n"); // 将当前线程绑定到NUMA节点1上 numa_run_on_node(1); printf("Running on NUMA node 1\n"); // 访问NUMA节点1上的内存 *((int*) mem) = 42; printf("Memory value on NUMA node 1: %d\n", *((int*) mem)); return 0; } ``` 在这个示例中，我们使用numa_max_node()函数获取了系统中的NUMA节点数量，并使用numa_alloc_onnode()函数在NUMA节点0上分配了1MB的内存。接着，我们使用numa_run_on_node()函数将当前线程绑定到NUMA节点1上，并访问了在NUMA节点0上分配的内存。通过这种方式，我们可以在不同的NUMA节点之间进行内存访问，从而实现更高效的计算和数据处理。