项目场景:
提示:又是连续2天的加班,麻了,给兄弟们做个网上找不到的问题解决方案吧:
场景:因生产出现故障,重新启动apollo几个组件pod后,访问不了apollo web界面。
问题描述
提示:项目中遇到的问题:
很奇怪,平时没有apollo出问题的事。由于apollo错误日志太多了,整的人头痛,最后还是确定了这条日志是关键所在:
Caused by: java.net.UnknownHostException: apollo-config-server-service.default
原因分析:
补充次要知识点:很多兄弟看到k8s这个点default不明白什么意思,实际上default代表命名空间的意思。举个例子:order命名空间的A服务要调用 gateway命名空间的B(service)服务的接口的话,就得在deployment里这样配置:http://B.gateway
主要问题分析:
- 很明显上面的意思是域名解析出问题了,于是我进到pod里去ping 这个service试试
# ping apollo-config-server-service
# 卡住了
- 从上面可以看出pod内部ping不通k8s的svc,那只有两种可能:
第一,dns解析就出问题了,这个因为之前解决过,现在不可能出现这个问题(具体怎么解决的,我在后面文章给大家分析解决一下)
第二, dns解析没问题,沿着A服务-->coredns --> 解析出svc ip--->kube-proxy将svc的请求转发到后端pod ip这样的链路我们确定 问题出现在 coredns和kube-proxy这里了
3.我开始排查coredns,立马重启。这里有插曲,奇怪的是我这个coredns只在一个节点上能起来,没办法就让他在那个节点待着吧
4.在回到pod ping发现,还是不通
5.重启kube-proxy后,ping通了
解决方案:
提示:当你发现环境突然网络访问不了svc的时候,请直接重启所有的kube-proxy:
1.确认内核版本在4.1以上
2.重启kube-proxy
参考文章