环境检查
环境检查
cat /etc/redhat-release #检查系统版本 #CentOS 7.8/7.9 已验证
hostname # 此处 hostname 的输出将会是该机器在 Kubernetes 集群中的节点名字 # 不能使用 localhost 作为节点的名字
lscpu # 请使用 lscpu 命令,核对 CPU 信息 # Architecture: x86_64 本方法不支持 arm 架构 # CPU(s): 2 CPU 内核数量不能低于 2 |
修改 hostname
修改 hostname
# 修改 hostname hostnamectl set-hostname your-new-host-name
# 查看修改结果 hostnamectl status
# 设置 hostname 解析 echo "127.0.0.1 $(hostname)" >> /etc/hosts |
网络检查
网络检查
ip route show #ip route show 命令中,可以知道机器的默认网卡,通常是 eth0
ip address #ip address 命令中,可显示默认网卡的 IP 地址,Kubernetes 将使用此 IP 地址与集群内的其他节点通信,如 172.17.216.80
#所有节点上 Kubernetes 所使用的 IP 地址必须可以互通(无需 NAT 映射、无安全组或防火墙隔离) |
请保证完成以下检查后再继续文档后面内容
我的任意节点操作系统为 CentOS 7.8 /7.9 或者 CentOS Stream 8
我的任意节点 CPU 内核数量大于等于 2,且内存大于等于 4G
我的任意节点 hostname 不是 localhost,且不包含下划线、小数点、大写字母
我的任意节点都有固定的内网 IP 地址
我的任意节点都只有一个网卡,如果有特殊目的,我可以在完成 K8S 安装后再增加新的网卡
我的任意节点上 Kubelet使用的 IP 地址 可互通(无需 NAT 映射即可相互访问),且没有防火墙、安全组隔离 |
初始化 master 节点
添加环境变量及配置hosts
# 只在 master 节点执行 # 替换 x.x.x.x 为 master 节点的内网IP # export 命令只在当前 shell 会话中有效,开启新的 shell 窗口后,如果要继续安装过程,请重新执行此处的 export 命令 export MASTER_IP=x.x.x.x
# 替换 apiserver.demo 为 您想要的 dnsName export APISERVER_NAME=apiserver.demo
# Kubernetes 容器组所在的网段,该网段安装完成后,由 kubernetes 创建,事先并不存在于您的物理网络中 export POD_SUBNET=10.100.0.0/16
echo "${MASTER_IP} ${APISERVER_NAME}" >> /etc/hosts |
准备kubeadm-config.yaml
kubeadm-config.yaml
cat <<EOF > ./kubeadm-config.yaml --- apiVersion: kubeadm.k8s.io/v1beta2 kind: ClusterConfiguration kubernetesVersion: v${1} imageRepository: registry.aliyuncs.com/k8sxio controlPlaneEndpoint: "${APISERVER_NAME}:6443" networking: serviceSubnet: "10.96.0.0/16" podSubnet: "${POD_SUBNET}" dnsDomain: "cluster.local" dns: type: CoreDNS imageRepository: swr.cn-east-2.myhuaweicloud.com${2} imageTag: 1.8.0
--- apiVersion: kubelet.config.k8s.io/v1beta1 kind: KubeletConfiguration cgroupDriver: systemd EOF |
抓取镜像及初始化Master节点
抓取镜像
kubeadm config images pull --config=kubeadm-config.yaml
kubeadm init --config=kubeadm-config.yaml --upload-certs |
如果出现如下错误
[config/images] Pulled registry.aliyuncs.com/k8sxio/pause:3.2 [config/images] Pulled registry.aliyuncs.com/k8sxio/etcd:3.4.13-0 failed to pull image "swr.cn-east-2.myhuaweicloud.com/coredns:1.8.0": output: time="2021-04-30T13:26:14+08:00" level=fatal msg="pulling image failed: rpc error: code = NotFound desc = failed to pull and unpack image \"swr.cn-east-2.myhuaweicloud.com/coredns:1.8.0\": failed to resolve reference \"swr.cn-east-2.myhuaweicloud.com/coredns:1.8.0\": swr.cn-east-2.myhuaweicloud.com/coredns:1.8.0: not found", error: exit status 1 To see the stack trace of this error execute with --v=5 or higher |
在kubeadm-config.yaml的imageRepository最后增加参数 /coredns
imageRepository: swr.cn-east-2.myhuaweicloud.com/coredns |
配置 kubectl
rm -rf /root/.kube/ mkdir /root/.kube/ cp -i /etc/kubernetes/admin.conf /root/.kube/config |
如果需要重新初始化 master 节点前,请先执行 kubeadm reset -f 操作
检查 master 初始化结果
检查 master 初始化结果
# 只在 master 节点执行
# 执行如下命令,等待一会,直到所有的容器组处于 Running 状态 watch kubectl get pod -n kube-system -o wide
# 查看 master 节点初始化结果 kubectl get nodes -o wide |
coredns 将处于启动失败的状态,先无视它继续下一步
等完成 安装网络插件 这个步骤后,coredns 将正常启动
可能出现的问题,如无错误可无视
kubectl delete pod kube-flannel-ds-amd64-8l25c -n kube-system #输出结果中某个 Pod 长期处于 ContainerCreating、PodInitializing 或 Init:0/3 的状态,可以尝试把它干掉,系统会自动重建一个新的 Pod
kubectl describe pod kube-flannel-ds-amd64-8l25c -n kube-system #查看该 Pod 的状态
#如果最后一行是 Pulling image,请耐心等待 |
安装网络插件
网络插件可以选择 calico 或者 flannel,我使用了 flannel
参考其他文档阿里云上安装 K8S,建议使用 flannel,有多个案例表明 calico 与阿里云存在兼容性问题。
此处有大坑!flannel一定要下载最新版。
https://github.com/flannel-io/flannel/blob/master/Documentation/kube-flannel.yml
kube-flannel.yml很长就不贴了,注意修改网段配置
修改配置并安装flanel
export POD_SUBNET=10.100.0.0/16 sed -i "s#10.244.0.0/16#${POD_SUBNET}#" flannel.yaml #默认是10.244.0.0/16,修改成你需要的配置
kubectl apply -f ./flannel.yaml |
初始化 worker节点
获得 join命令参数
# 只在 master 节点执行 kubeadm token create --print-join-command
#可获取kubeadm join 命令及参数,如下所示 #例如:kubeadm join apiserver.demo:6443 --token mpfjma.4vjjg8flqihor4vt --discovery-token-ca-cert-hash sha256:6f7a8e40a810323672de5eee6f4d19aa2dbdb38411845a1bf5dd63485c43d303 |
注意 该 token 的有效时间为 2 个小时,2小时内,您可以使用此 token 初始化任意数量的 worker 节点。
超时了请重新获取
针对所有的 worker 节点执行
# 只在 worker 节点执行 # 替换 x.x.x.x 为 master 节点的内网 IP export MASTER_IP=x.x.x.x
# 替换 apiserver.demo 为初始化 master 节点时所使用的 APISERVER_NAME export APISERVER_NAME=apiserver.demo
echo "${MASTER_IP} ${APISERVER_NAME}" >> /etc/hosts
# 替换为 master 节点上 kubeadm token create 命令的输出 kubeadm join apiserver.demo:6443 --token mpfjma.4vjjg8flqihor4vt --discovery-token-ca-cert-hash sha256:6f7a8e40a810323672de5eee6f4d19aa2dbdb38411845a1bf5dd63485c43d303 |
如果失败了,参考如下检查。如果成功请跳过。
#join 不成功的情况大致有这几种 #worker 节点不能访问 apiserver #在worker节点执行以下语句可验证worker节点是否能访问 apiserver curl -ik https://apiserver.demo:6443 #如果不能,请在 master 节点上验证 curl -ik https://localhost:6443
#正常接过输出如下:HTTP/1.1 403 Forbidden Cache-Control: no-cache, private Content-Type: application/json X-Content-Type-Options: nosniff Date: Fri, 15 Nov 2019 04:34:40 GMT Content-Length: 233
{ "kind": "Status", "apiVersion": "v1", "metadata": { ... #如果 master 节点能够访问 apiserver、而 worker 节点不能,则请检查自己的网络设置 #/etc/hosts 是否正确设置?是否有安全组或防火墙的限制? #worker 节点默认网卡 #Kubelet使用的 IP 地址 与 master 节点可互通(无需 NAT 映射),且没有防火墙、安全组隔离 #如果你使用 vmware 或 virtualbox 创建虚拟机用于 K8S 学习,可以尝试 NAT 模式的网络,而不是桥接模式的网络 #正常情况下,无需移除 worker 节点,如果添加到集群出错,您可以移除 worker 节点,再重新尝试添加 # 只在 worker 节点执行 kubeadm reset -f #在 master 节点 上执行kubectl get nodes -o wide kubectl delete node demo-worker-x-x
#worker 节点的名字可以通过在节点 demo-master-a-1 上执行 kubectl get nodes 命令获得 |
检查初始化结果
检查初始化结果
kubectl get nodes -o wide |
大功告成,然后可以添加master和 worker节点来完善高可用。