TKE集群节点CPU使用率超阈值告警
严重
告警ID: cm-alm-2025031200472 · 告警规则: TKE生产集群监控-严重级
基本信息
监控产品
容器服务 TKE
集群 ID
cls-3b7d9f2a集群名称
prod-microservice-cluster
地域
广州 (ap-guangzhou)
节点池
np-worker-standard触发节点
eklet-10-168-0-24 +4个告警指标
节点CPU使用率 (node_cpu_usage)
触发条件
≥ 95%,持续 10 分钟
当前值
97.3%
告警策略
所属项目
电商平台-核心服务
责任人
陈云维 (chen_yunwei)
指标趋势 — node_cpu_usage
1h
3h
6h
24h
集群节点平均 CPU 使用率 (%)
实例: eklet-10-168-0-24 等5台
阈值 95%
07:1507:4508:1508:45
09:1509:4710:15
事件详情与处置
值班: 陈云维 · 告警组: TKE-Prod-OnCall
事件描述
集群 prod-microservice-cluster(cls-3b7d9f2a,ap-guangzhou)下节点池
np-worker-standard 中 5 台工作节点的 CPU 使用率自 09:37 开始持续攀升,
于 09:47 突破 95% 阈值并触发严重告警。截至当前,最高节点(eklet-10-168-0-24)
使用率峰值达 97.3%,告警已持续约 27 分钟。
初步排查:大量 CPU 密集型 Pod 调度至受影响节点,主要来自 Namespace payment-svc 下的
Deployment payment-processor-v2(副本数 12)。HPA 因节点资源耗尽而无法扩缩。
受影响节点列表:eklet-10-168-0-24、eklet-10-168-0-31、
eklet-10-168-0-38、eklet-10-168-0-45、eklet-10-168-0-52
处置建议
处置建议 — 值班工程师
{fill}
关联资源
| 节点名称 | 规格 | CPU 使用率 | 内存使用率 | Pod 数量 | 状态 |
|---|---|---|---|---|---|
| eklet-10-168-0-24 | S5.4XLARGE32 (16C32G) | 97.3% | 81.2% | 28 / 30 | 资源紧张 |
| eklet-10-168-0-31 | S5.4XLARGE32 (16C32G) | 96.1% | 78.4% | 26 / 30 | 资源紧张 |
| eklet-10-168-0-38 | S5.4XLARGE32 (16C32G) | 95.8% | 76.9% | 25 / 30 | 资源紧张 |
| eklet-10-168-0-45 | S5.4XLARGE32 (16C32G) | 88.5% | 72.1% | 22 / 30 | 运行中 |
| eklet-10-168-0-52 | S5.4XLARGE32 (16C32G) | 85.3% | 69.7% | 21 / 30 | 运行中 |
告警通知记录
2025-03-12 09:47:23
告警触发 — node_cpu_usage ≥ 95%,持续10分钟。
严重告警已生成,告警 ID:
cm-alm-2025031200472
严重
2025-03-12 09:47:26
短信通知发送至 陈云维(+86-135****8821)、李波(+86-139****4412)
短信
2025-03-12 09:47:28
邮件通知发送至 TKE-Prod-OnCall 告警组(3人)
邮件
2025-03-12 09:47:30
Webhook 回调触发 → 企业微信群 #prod-oncall-alerts
Webhook
2025-03-12 10:02:15
陈云维 认领告警,状态变更为 处理中
2025-03-12 10:14:51
告警升级通知 → 发送至管理层 张工 (SRE Lead)(持续超25分钟未恢复)
升级
通知策略配置
短信
陈云维
李波
邮件
TKE-Prod-OnCall
(3人组)
企业微信
#prod-oncall-alerts
告警升级
持续 25分钟 未恢复 → 通知 SRE Lead 张工