告警状态
处理中
首次告警时间
2025-03-12 09:47:23
最后更新
2025-03-12 10:14:51
持续时长
27分28秒
告警次数
8 次
通知人
陈云维 +2
基本信息
监控产品
容器服务 TKE
集群 ID
cls-3b7d9f2a
集群名称
prod-microservice-cluster
地域
广州 (ap-guangzhou)
节点池
np-worker-standard
触发节点
eklet-10-168-0-24  +4个
告警指标
节点CPU使用率 (node_cpu_usage)
触发条件
≥ 95%,持续 10 分钟
当前值
97.3%
所属项目
电商平台-核心服务
责任人
陈云维 (chen_yunwei)
指标趋势 — node_cpu_usage
1h
3h
6h
24h
集群节点平均 CPU 使用率 (%) 实例: eklet-10-168-0-24 等5台
阈值 95%
07:1507:4508:1508:45 09:1509:4710:15
事件详情与处置
值班: 陈云维  ·  告警组: TKE-Prod-OnCall
事件描述

集群 prod-microservice-clustercls-3b7d9f2a,ap-guangzhou)下节点池 np-worker-standard 中 5 台工作节点的 CPU 使用率自 09:37 开始持续攀升, 于 09:47 突破 95% 阈值并触发严重告警。截至当前,最高节点(eklet-10-168-0-24) 使用率峰值达 97.3%,告警已持续约 27 分钟。

初步排查:大量 CPU 密集型 Pod 调度至受影响节点,主要来自 Namespace payment-svc 下的 Deployment payment-processor-v2(副本数 12)。HPA 因节点资源耗尽而无法扩缩。

受影响节点列表:eklet-10-168-0-24eklet-10-168-0-31eklet-10-168-0-38eklet-10-168-0-45eklet-10-168-0-52

处置建议
!
处置建议 — 值班工程师
{fill}
关联资源
查看集群详情
节点名称 规格 CPU 使用率 内存使用率 Pod 数量 状态
eklet-10-168-0-24 S5.4XLARGE32 (16C32G) 97.3% 81.2% 28 / 30 资源紧张
eklet-10-168-0-31 S5.4XLARGE32 (16C32G) 96.1% 78.4% 26 / 30 资源紧张
eklet-10-168-0-38 S5.4XLARGE32 (16C32G) 95.8% 76.9% 25 / 30 资源紧张
eklet-10-168-0-45 S5.4XLARGE32 (16C32G) 88.5% 72.1% 22 / 30 运行中
eklet-10-168-0-52 S5.4XLARGE32 (16C32G) 85.3% 69.7% 21 / 30 运行中
告警通知记录
2025-03-12 09:47:23
告警触发 — node_cpu_usage ≥ 95%,持续10分钟。 严重告警已生成,告警 ID: cm-alm-2025031200472 严重
2025-03-12 09:47:26
短信通知发送至 陈云维(+86-135****8821)、李波(+86-139****4412) 短信
2025-03-12 09:47:28
邮件通知发送至 TKE-Prod-OnCall 告警组(3人) 邮件
2025-03-12 09:47:30
Webhook 回调触发 → 企业微信群 #prod-oncall-alerts Webhook
2025-03-12 10:02:15
陈云维 认领告警,状态变更为 处理中
2025-03-12 10:14:51
告警升级通知 → 发送至管理层 张工 (SRE Lead)(持续超25分钟未恢复) 升级
通知策略配置
编辑策略
短信
陈云维 李波
邮件
TKE-Prod-OnCall (3人组)
企业微信
#prod-oncall-alerts
告警升级
持续 25分钟 未恢复 → 通知 SRE Lead 张工