一体化监控管理平台解决方案,一体化监控管理平台的应用范围
851
2022-10-13
kubernetes集群-问题处理
问题:kernel:unregister_netdevice: waiting for lo to become free. Usage count = 3
早晨10点左右到公司,业务人员发现某个服务不正常,正常打开kubernetes集群,查看集群状态发现有俩个服务异常,delete pod重新加载还是不正常,查看pod日志一直调度不成功,查看node事件,发现node节点NotReady
进入node5节点,控制台报错,如下:
kernel:unregister_netdevice: waiting for eth0 to become free. Usage count = 3kernel:unregister_netdevice: waiting for eth0 to become free. Usage count = 3kernel:unregister_netdevice: waiting for eth0 to become free. Usage count = 3kernel:unregister_netdevice: waiting for eth0 to become free. Usage count = 3
查看/var/log/message日志发现报错信息如下:
因为看到kernel报错,内核级别的一般都需要重启服务器才能解决,故把该节点打上污点后,人工驱逐node5上的相关服务,使之不可调度,因该环境有多套namespace业务,通过人工切换调度模式使该node下的服务被调度到集群内其他节点运行,让业务正常运转。
服务正常后,赶快google,发现是个bug:
https://access.redhat.com/solutions/3105941
目前分析到的原因是和docker版本、网络地址空间有关,猜测是每次pod重新拉起都会申请到一个内部地址,定位docker网络问题,另外该集群内的所有节点开机1年多,从未重启过。做个记录后续查到具体原因再贴上来。
目前只能是重启该台node,重启后重新调度pod服务正常。
另外该版本kubernetes版本实在是太老了,打算最近重新部署一套stable kubernetes集群。
[root@node1 ~]# docker -vdocker version 18.06.1-ce, build e68fc7a[root@node1 ~]# uname -aLinux node1 3.10.0-693.2.2.el7.x86_64 #1 SMP Tue Sep 12 22:26:13 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux[root@node1 ~]# kubectl --versionKubernetes v1.9.2+coreos.0
发表评论
暂时没有评论,来抢沙发吧~