Linux 实例常用内核参数介绍—容器访问外部网络之ip_forward数据包转发

48 篇文章 2 订阅

1 问题解决

1.1 问题

今天有一台生产服务器上面的docker突然有了一些问题。

具体问题是:启动的容器无法ping通宿主机所在内网的其他服务器。

之前都没问题,好久没碰过这台服务器了,盲猜可能有人重启过服务器或者修改过内核参数。

1.2 原因

在docker中,容器想要访问外部网络时,需要本地系统的转发支持,在Linux 系统中,检查转发是否打开。

sysctl net.ipv4.ip_forward
或者
cat /proc/sys/net/ipv4/ip_forward
# net.ipv4.ip_forward = 0

1.3 解决

打开ip转发后重启docker即可。

临时打开

如果只想临时修改net.ipv4.ip_forward参数而不希望进行永久更改,可以使用sysctl命令来动态修改内核参数,这种方式在系统重启,或对系统的网络服务进行重启后都会失效。

sysctl 命令的-w参数可以实时修改Linux的内核参数并生效,使用如下命令可以开启Linux的路由转发功能:

sysctl -w net.ipv4.ip_forward=1

永久打开

sysctl.conf文件包含了内核参数的配置信息,打开etc/sysctl.conf文件进行编辑,在文件中找到net.ipv4.ip_forward=0(如果不存在则手动添加),修改为:

net.ipv4.ip_forward=1

重新加载sysctl.conf文件并应用其中的配置:

sudo sysctl -p

下面为扩展内容


Linux 实例常用内核参数介绍:https://cloud.tencent.com/document/product/213/46400

在某些Linux发行版中,如Red Hat Enterprise Linux (RHEL)、CentOS和Fedora,可以通过修改/etc/sysconfig/network文件来配置网络参数,包括IP转发,在文件中找到NETWORKING_IPV4_FORWARDING=0(如果不存在则手动添加),修改为:

NETWORKING_IPV4_FORWARDING=yes

重新启动网络服务以使更改生效。可以使用以下命令重启网络服务:

sudo systemctl restart network

2 net.ipv4.ip_forward内核参数通俗解释

在Linux中,net.ipv4.ip_forward是一个内核参数,用于控制IP转发功能。当这个参数设置为1时,表示启用IP转发;当设置为0时,表示禁用IP转发,大多数默认为0。

IP转发是指在一个路由器或者网络设备上接收到一个IP数据包后,根据目标IP地址的路由信息将数据包发送到合适的接口,使其能够到达目标主机。IP转发是构建网络的核心功能之一,它允许数据在不同的网络之间进行传递和路由。其实就是当主机拥有多于一块的网卡时,其中一块收到数据包,根据数据包的目的ip地址将数据包发往本机另一块网卡,该网卡根据路由表继续发送数据包。这通常是路由器所要实现的功能。

在一个典型的网络中,当Linux系统处于默认的配置状态时,IP转发是禁用的。这意味着Linux系统只会处理发送到它自身IP地址的数据包,并且不会将数据包转发到其他主机或网络。

启用net.ipv4.ip_forward参数后,Linux系统可以将接收到的IP数据包转发到其他主机或网络。这对于构建网络设备或者将Linux系统用作路由器或网关非常有用。

通过启用IP转发功能,你可以在Linux系统上实现以下功能:

  • 构建一个简单的路由器:你可以将Linux系统配置为一个简单的路由器,使它能够转发数据包并将其发送到不同的网络。
  • 设置Linux系统为网关:当Linux系统充当网络中的网关或入口点时,启用IP转发功能可以使其将数据包转发到其他网络,实现互联网连接共享或分配网络流量的功能。
  • 配置网络地址转换(NAT):启用IP转发功能还可以与网络地址转换(NAT)结合使用,允许将私有网络中的IP地址映射到公共网络IP地址,实现多个设备共享一个公共IP地址的功能。

需要注意的是,启用IP转发功能可能会使网络暴露于一些安全风险。因此,在启用IP转发之前,你应该仔细评估网络的安全性需求,并采取适当的安全措施,例如配置防火墙规则来限制访问和保护网络的安全性。

3 在Linux中验证并实践net.ipv4.ip_forward

该节参考于:Linux 中的 net.ipv4.ip_forward - 小李行的文章 - 知乎
建议阅读原文:Linux 中的 net.ipv4.ip_forward - 小李行的文章 - 知乎

假设有三台主机:

设置 IP 地址

设置主机 A 的 IP 地址:ip a add 172.0.0.2/16 dev ens33

设置主机 B 的 IP 地址:ip a add 172.1.0.2/16 dev ens33

设置主机 R 的 IP 地址:ip a add 172.0.0.1/16 dev ens33ip a add 172.1.0.1/16 dev ens33 (也可以将 IP 地址设置在两张不同的网卡上)

查看是否设置成功:ip a s ens33

设置路由信息

设置主机 A 的路由信息:ip r add 172.1.0.0/16 via 172.0.0.1

设置主机 B 的路由信息:ip r add 172.0.0.0/16 via 172.1.0.1

查看主机 A 的路由信息是否设置成功(主机 B 同理):

# ip r
172.1.0.0/16 via 172.0.0.1 dev ens33 

除了上述的设置路由方法,也可以设置网关(也即默认的路由规则)。方法如下:

设置主机 A 的默认网关:ip r add default via 172.0.0.1

设置主机 B 的默认网关:ip r add default via 172.1.0.1

查看主机 A 的网关是否设置成功(主机 B 同理):

# ip r
default via 172.0.0.1 dev ens33

打开 IP Forward 功能

设置主机 R 的 IP Forward 功能:sysctl -w net.ipv4.ip_forward=1

查看是否设置成功:

# sysctl net.ipv4.ip_forward
net.ipv4.ip_forward = 1

关闭主机 R 的防火墙和 SeLinux

关闭防火墙:systemctl stop NetworkManager

关闭 Selinux:setenforce 0

验证

在主机 A 上 ping 主机 B:ping -c 4 172.1.0.2

在主机 B 上 ping 主机 A:ping -c 4 172.0.0.2

容器技术

容器间同样可以 IP Foward。

先介绍同一台主机上位于不同网段的的容器间通信。

下图中,172.0.0.2 位于一个容器内,172.1.0.2 位于另一个容器内,两个容器位于同一台主机上。让 172.0.0.2 和 172.1.0.2 可以互相通信。

操作记录如下:

docker network create --subnet 172.0.0.0/16 net0
docker network create --subnet=172.1.0.0/16 net1
docker run -it --name centos0 --net net0 --ip 172.0.0.2 centos bash  # 按Ctrl + p + q 退出容器 centos0
docker run -it --name centos1 --net net1 --ip 172.1.0.2 centos bash  # 按Ctrl + p + q 退出容器 centos1
iptables -F  # 清空 filter 表中的 polices,docker 自定义了几个链,会限制跨网段容器间的 IP Forward。
             # 切勿 iptables -t nat -F 清空 nat 表,nat 表的 POSTROUTING 链中设置了连接外网的 NAT,如下:
             # Chain POSTROUTING (policy ACCEPT)
             # target      prot  opt  source         destination
             # MASQUERADE  all   --   172.17.0.0/16  anywhere
             # MASQUERADE  all   --   172.0.0.0/16   anywhere
             # MASQUERADE  all   --   172.1.0.0/16   anywhere
docker exec -it centos0 bash  # 现在进入 centos0。它的 IP 是 172.0.0.2
ping 172.1.0.2  # 可以 ping 同另一网段的容器。
                # 另外,docker 已经定义好了路由信息,无需再添加

事实上,让同一台主机上的容器位于不同的网段,这样做的意义不大。

建议同一台主机上的容器都位于同一个网段。

接着介绍不同主机上的容器互通。

下图中,172.0.0.2 位于一个容器内,容器运行在主机 A 上;172.1.0.2 位于另一个容器,容器运行在主机 B 上。让 172.0.0.2 和 172.1.0.2 可以互相通信。

在主机 A 上操作记录如下:

docker network create --subnet 172.0.0.0/16 net0
docker run -it --name centos0 --net net0 --ip 172.0.0.2 centos bash  # 按Ctrl + p + q 退出容器 centos0
ip r add 172.1.0.0/16 via 192.168.10.10
docker exec -it centos0 bash  # 现在进入 centos0。它的 IP 是 172.0.0.2
ping 172.1.0.2  # 可以 ping 同另一网段的容器。

在主机 B 上操作记录如下:

docker network create --subnet=172.1.0.0/16 net1
docker run -it --name centos1 --net net1 --ip 172.1.0.2 centos bash  # 按Ctrl + p + q 退出容器 centos1
ip r add 172.0.0.0/16 via 192.168.10.11
docker exec -it centos0 bash  # 现在进入 centos0。它的 IP 是 172.0.0.2
ping 172.0.0.2  # 可以 ping 同另一网段的容器。

其它

1 本文介绍的都是非 NAT 的通信,源 IP 和目标 IP 没有发生过转换。

SNAT 网络可以分为内网和外网,如果目标主机在外网,目标主机不知道源主机的真实 IP。

(外网以为对方只是一台主机,事实上对方是一个网关,背后有一整个网络)

SNAT 网络,不需要设置具体的路由信息,只需要设置网关,然后把 IP 包全丢给网关,网关设置 NAT,把 IP 包转发出去。

2 选择 IP 地址时建议避开三个 IPv4 专用地址块:

a) 10.0.0.0/8,即从10.0.0.0 到 10.255.255.255;

b) 172.16.0.0/12,即从 172.16.0.0 到 172.31.255.255;

c) 192.168.0.0/16,即从 192.168.0.0 到 192.168.255.255 。

一般的路由器默认不转发专用地址。

4 常用 ip 命令

建议直接阅读原文:Linux 中的 ip 命令 - 知乎 (zhihu.com)

ip 命令来自 iproute2 软件包,在 CentOS 7 中默认已安装(yum install -y iproute)。

iproute2 软件包提供了很多命令(rpm -ql iproute |grep bin),如 ss 命令、bridge,这些命令可以完全替代 ifconfig、netstat、route 等命令。

ip 命令有很多子命令,本文仅介绍其中几个常用的:

  1. ip netns;
  2. ip address;
  3. ip route;
  4. ip link;
  5. ip neigh。

ip address 和 ip route 是网络层的命令,ip link 和 ip neigh 是链路层的命令。

ip 命令有一个 -d 选项,用于显示更多细节(details)信息,非常有用。该选项适用于 ip 的所有子命令。

bridge 命令也有同样功能的 -d 选项。

ip netns

ip netns:查看所有的网络命名空间。

docker 隐藏了它创建的网络命名空间,因此无法使用 ip netns 查看。可以使用 lsns 命令查看。

ip netns add NetNS_Name: 新增一个名为 NetNS_Name 的网络命名空间。

ip netns del NetNS_Name:删除名为 NetNS_Name 的网络命名空间。

ip netns exec NetNS_Name CMD:在名为 NetNS_Name 的网络命名空间中执行命令 CMD。

示例:

ip netns add ns0 
ip netns     #  等同于 ls /var/run/netns/ 
ip net exec ns0 ip l set lo up    # ip l set lo up 整体是一个命令
ip netns del ns0

ip address

address 可以简写为 a 或 ad 或 add 或 addr…

ip a:查看所有 IP 地址(以网卡分组)。

ip a show ens33:查看 ens33 网卡上的 IP 地址。

ip a add 192.168.10.10/24 dev ens33:向 ens33 网卡上添加一个临时 IP 地址 192.168.10.10/24 (dev 是 device 的简写)。

通过 ip a add 添加的 IP 会在重启主机后失效。

ip a del 192.168.10.10/24 dev ens33:从 ens33 网卡上删除一个临时 IP 地址 192.168.10.10/24。

没有修改 IP 地址的命令,若要修改,可以先删除原 IP,再添加新 IP。

ip route

route 可以简写为 r 或 ro 或 rou…

ip r:查看路由。输出结果如下:

default via 10.0.0.2 dev enp0s3 proto static metric 100
10.0.0.0/24 dev enp0s3 proto kernel scope link src 10.0.0.128 metric 100
172.17.0.0/16 dev docker0 proto kernel scope link src 172.17.0.1

# 第一行是默认路由,表示在路由表上查不到数据时时,报文都从 enp0s3 网卡出去,去 IP 为 10.0.0.2 的另一台主机。
# 第二行是网络路由,表示去 10.0.0.0/24 网络的报文都从 enp0s3 网卡出去,报文中携带的源地址(本机地址)为 10.0.0.128。
# 第三行也是网络路由,表示去 172.17.0.0/16 网络的报文都从 docker0  网卡出去,报文中携带的源地址(本机地址)为 172.17.0.1。
# 由第二行可知,走默认路由时,报文中携带的源地址(本机地址)为 10.0.0.128。

ip r add 192.168.10.0/24 dev DEVICE [src IP_ADDR]网络路由。192.168.10.0/24 是直连网络。前往网络 192.168.10.0/24 的请求从 DEVICE 网卡发出。如果该网卡上有多个 IP,可以选择一个偏爱的源 IP 地址。

ip r add 192.168.10.0/24 via 172.17.0.1 dev DEVICE [src IP_ADDR]网络路由。192.168.10.0/24 不是直连网络。前往网络 192.168.10.0/24 的请求下一跳前往 172.17.0.1。

注意:via 后面的 IP 必须是可达的(reachable)。
去往直连的网络,会 ARP 广播请求目标主机的 MAC 地址;
去往非直连的网络,会 ARP 广播请求下一跳主机的 MAC 地址。

ip r add 192.168.10.10 dev DEVICE主机路由。前往主机 192.168.10.10 的请求从 DEVICE 网卡发出。

ip r add default via 172.17.0.1默认路由(网关)。172.17.0.1 就是网关的 IP。

为了在主机重启后路由依然有效 ,在 /etc/sysconfig/network-script/ 目录下创建名为 route-ens33 的文件(ens33 是本机的网卡,连接 172.17.0.1 所在网络 ),向此文件添加如下内容:

192.168.10.0/24 via 172.17.0.1
192.168.10.10 via 172.17.0.1

网卡的默认路由在 /etc/sysconfig/network-script/ifcgfg-ens33 的 gateway 选项中设置:

GATEWAY=172.17.0.1

系统的默认路由在 /etc/sysconfig/network 的gateway 选项中设置:

GATEWAY=172.17.0.1

网卡有默认路由,系统也有默认路由。一个报文先判断是否走系统的默认路由,确定从哪个网卡发出去,到了这个网卡后,再确定是否走网卡的默认路由。

ip r del 192.168.10.0/24 via 172.17.0.1:删除路由。

ip r get 192.168.10.11:显示到达 192.168.10.11 的路由信息。

ip link

link 表示链路层。link 可以简写为 l 或 li 或 lin…

ip l:查看所有的网络设备(因为是链路层,所以只显示 MAC 地址,不显示 IP 地址)。其中,lo、ens33 等是真实的物理设备,通过 ip l add 命令创建的都是虚拟设备。

ip l show type bridge:只查看类型为网桥的网络设备(也可以安装 bridge-utils 包,使用 brctl 命令)。

ip l show type vxlan:只查看类型为 vxlan 的网络设备。

ip l add [ link DEVICE ] [ name ] NAME type TYPE:创建虚拟网络设备。注意,此处的 DEVICE 必须是真实的物理设备。

ip l del DEVICE:删除虚拟设备。只有虚拟设备才能被删除。

ip l set ens33 up:打开 ens33 网卡。

ip l set ens33 down :关闭 ens33 网卡。

ip neigh

neigh 可以简写为 n 或 ne 或 nei…

ip n:查看内核中记录的 ARP 表(也就是链路层直连的主机的 IP 和 MAC 地址,不一定准确,需要之前连过)。

ip n add:向 ARP 表中新增一个条目。例如:

ip n add 192.168.1.1 lladdr 1:2:3:4:5:6 dev ens33
# 192.168.1.1 的 MAC 地址 是 1:2:3:4:5:6,去该地址走 ens33 网卡。
# lladdr 是 link layer address 的缩写,也就是 MAC 地址。

ip n del:从 ARP 表中删除一个条目。例如:

ip n del 192.168.1.1 dev ens33

综合应用

1 使用虚拟网卡对儿“直连”两个 NetNS。

# 创建两个网络命名空间
ip netns add ns0
ip netns add ns1

# 创建一对儿虚拟网卡(Virtual ethernet interface) ,又名 veth-pair
# 分别命名为 veth0 和 veth1
ip l add veth0 type veth peer name veth1

# 将 veth0 加入 ns0,veth1 加入 ns1
ip l set veth0 netns ns0
ip l set veth1 netns ns1

# 给两个 veth0 veth1 配上 IP 并启用
ip netns exec ns0 ip a add 192.168.10.10/24 dev veth0
ip netns exec ns0 ip l set veth0 up
ip netns exec ns1 ip a add 192.168.10.11/24 dev veth1
ip netns exec ns1 ip l set veth1 up

# 现在两个 NetNS 就是直连的了
# 从 ns0 中 ping ns1
ip netns exec ns0 ping 192.168.10.11

2 对于多个 NetNS,直连就太复杂了。最好的方法是建立一个网桥(交换机),所有的 NetNS 都连接到这个网桥上(星形拓扑)。

# 创建三个网络命名空间
ip netns add ns0
ip netns add ns1
ip netns add ns2

# 创建一个网桥并启用
ip l add br0 type bridge  # 也可以使用命令 brctl addbr br0
ip l set br0 up

# 创建三对儿虚拟网卡
ip l add veth0 type veth peer name veth0br
ip l add veth1 type veth peer name veth1br
ip l add veth2 type veth peer name veth2br

# 将 veth0 加入 ns0,将 veth1 加入 ns1,将 veth2 加入 ns2
ip l set veth0 netns ns0
ip l set veth1 netns ns1
ip l set veth2 netns ns2

# 分别配上 IP 并启用
ip netns exec ns0 ip a add 192.168.10.10/24 dev veth0
ip netns exec ns0 ip l set veth0 up
ip netns exec ns1 ip a add 192.168.10.11/24 dev veth1
ip netns exec ns1 ip l set veth1 up
ip netns exec ns2 ip a add 192.168.10.12/24 dev veth2
ip netns exec ns2 ip l set veth2 up

# 将 veth0br、veth1br、veth2br 插入网桥并启用
# 检查一下: bridge link 或 brctl show
# 插到网桥上的网卡默认开启了自学习(allow MAC address learning)和泛洪(flood)
# 可以通过 ip -d link 查看
ip l set veth0br master br0  # 也可以使用命令 brctl addif br0 veth01
ip l set veth0br up
ip l set veth1br master br0
ip l set veth1br up
ip l set veth2br master br0
ip l set veth2br up

# 现在三个 NetNS 就通过网桥联通了
# 从 ns0 中 ping ns1
ip netns exec ns0 ping 192.168.10.11

如果安装过 Docker,可能从 ns0 ping 不通 ns1(在 br0 上 ICMP 只能抓到 echo request,抓不到 echo reply,arp 既能抓到 request,也能抓到 reply) 。解决方法有两种:

第一种是关闭 iptables 接管网桥流量:

sysctl -w net.bridge.bridge-nf-call-iptables=0
# Dockeer 会将 net.bridge.bridge-nf-call-iptables 的值设为 1

第二种是将 FORWARD 链的 Policy 改为 ACCEPT。

iptables -P FORWARD ACCEPT
# Docker 会将 FORWARD 链的 POLICY 设成 DROP
# 如果还是不行,可以试试清空 iptables Filter 表:iptables -F

如果想要从默认命名空间中 ping 通 ns0、ns1 或 ns2,需要给 br0 一个 IP 地址,并设置路由:

ip a add 192.168.10.100/24 dev br0
ip r add 192.168.10.0/24 dev br0

其它

查看命令的用法:

ip netns help
ip address help
ip route help
ip link help
ip neigh help

查看帮助文档:

man ip-netns
man ip-address
man ip-route
man ip-link
man ip-neighbour

更多命令的帮助文档可以通过以下命令查看:

# rpm -ql iproute |grep man
  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
Linux内核设计与实现_第三版_中文版》.pdf 是一本深入探讨Linux内核的重要著作。本书通过详细介绍Linux内核的设计与实现,帮助读者理解Linux操作系统的核心原理和机制。 首先,《Linux内核设计与实现_第三版_中文版》.pdf以简洁明了的语言阐述了Linux内核的基本概念和原理。书中逐步介绍了虚拟内存管理、进程管理、文件系统、设备驱动以及网络协议栈等核心组件。通过这些章节的学习,读者能够深入了解Linux内核各个部分的工作原理。 其次,《Linux内核设计与实现_第三版_中文版》.pdf 通过丰富的实例和案例,帮助读者将理论知识应用到实际场景中。作者通过详细的代码分析和实现示例,让读者能够深入了解Linux内核的运行机制和设计思想。同时,书中还包括了一些常见的应用程序和工具的实现原理,帮助读者更好地理解Linux操作系统的全貌。 最后,《Linux内核设计与实现_第三版_中文版》.pdf 是一本非常实用的参考书籍。无论是对于Linux内核的研究者还是操作系统开发者,都可以从中获取宝贵的知识和经验。此外,对于对Linux操作系统感兴趣的技术爱好者来说,这本书也是深入学习Linux内核的首选指南。 总之,《Linux内核设计与实现_第三版_中文版》.pdf 是一本非常有价值的书籍,它全面而深入地介绍Linux内核的设计与实现。通过阅读本书,读者可以更好地理解和应用Linux操作系统,培养自己的操作系统开发能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

L-960

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值