-
記一次靠譜的 K8S 排錯(cuò)實(shí)戰(zhàn)過(guò)程,硬核!
一 背景 收到測(cè)試環(huán)境集群告警,登陸 K8s 集群進(jìn)行排查。 二 故障定位 2.1 查看 Pod 查看 kube-system node2 節(jié)點(diǎn) calico pod 異常。 查看詳細(xì)信息,查看node2節(jié)點(diǎn)沒(méi)有存儲(chǔ)空間,cgroup泄露。 2.2 查看存儲(chǔ) 登陸 node2 查看服務(wù)器存儲(chǔ)信息,目前空間還很充足。 集群使用到的分布式存儲(chǔ)為ceph,因此查看ceph集群狀態(tài)。 三 操作 3.1 ceph修復(fù) 目前查看到 ceph 集群異常,可能導(dǎo)致 node2 節(jié)點(diǎn) cgroup 泄露異常,進(jìn)行…