告警详情 - 云监控 CM

告警状态

处理中

首次告警时间

2025-03-12 09:47:23

最后更新

2025-03-12 10:14:51

持续时长

27分28秒

告警次数

8 次

通知人

陈云维 +2

基本信息

监控产品

容器服务 TKE

集群 ID

cls-3b7d9f2a

集群名称

prod-microservice-cluster

地域

广州 (ap-guangzhou)

节点池

np-worker-standard

触发节点

eklet-10-168-0-24 +4个

告警指标

节点CPU使用率 (node_cpu_usage)

触发条件

≥ 95%，持续 10 分钟

当前值

97.3%

告警策略

TKE生产集群监控-严重级

所属项目

电商平台-核心服务

责任人

陈云维 (chen_yunwei)

指标趋势 — node_cpu_usage

24h

集群节点平均 CPU 使用率 (%) 实例: eklet-10-168-0-24 等5台

阈值 95%

07:1507:4508:1508:45 09:1509:4710:15

事件详情与处置

值班: 陈云维 · 告警组: TKE-Prod-OnCall

事件描述

集群 prod-microservice-cluster（cls-3b7d9f2a，ap-guangzhou）下节点池 np-worker-standard 中 5 台工作节点的 CPU 使用率自 09:37 开始持续攀升，于 09:47 突破 95% 阈值并触发严重告警。截至当前，最高节点（eklet-10-168-0-24）使用率峰值达 97.3%，告警已持续约 27 分钟。

初步排查：大量 CPU 密集型 Pod 调度至受影响节点，主要来自 Namespace payment-svc 下的 Deployment payment-processor-v2（副本数 12）。HPA 因节点资源耗尽而无法扩缩。

受影响节点列表：eklet-10-168-0-24、eklet-10-168-0-31、 eklet-10-168-0-38、eklet-10-168-0-45、eklet-10-168-0-52

处置建议

处置建议 — 值班工程师

{fill}

关联资源

查看集群详情

节点名称	规格	CPU 使用率	内存使用率	Pod 数量	状态
eklet-10-168-0-24	S5.4XLARGE32 (16C32G)	97.3%	81.2%	28 / 30	资源紧张
eklet-10-168-0-31	S5.4XLARGE32 (16C32G)	96.1%	78.4%	26 / 30	资源紧张
eklet-10-168-0-38	S5.4XLARGE32 (16C32G)	95.8%	76.9%	25 / 30	资源紧张
eklet-10-168-0-45	S5.4XLARGE32 (16C32G)	88.5%	72.1%	22 / 30	运行中
eklet-10-168-0-52	S5.4XLARGE32 (16C32G)	85.3%	69.7%	21 / 30	运行中

告警通知记录

2025-03-12 09:47:23

告警触发 — node_cpu_usage ≥ 95%，持续10分钟。严重告警已生成，告警 ID: cm-alm-2025031200472 严重

2025-03-12 09:47:26

短信通知发送至 陈云维（+86-135****8821）、李波（+86-139****4412）短信

2025-03-12 09:47:28

邮件通知发送至 TKE-Prod-OnCall 告警组（3人）邮件

2025-03-12 09:47:30

Webhook 回调触发 → 企业微信群 #prod-oncall-alerts Webhook

2025-03-12 10:02:15

陈云维 认领告警，状态变更为处理中

2025-03-12 10:14:51

告警升级通知 → 发送至管理层 张工 (SRE Lead)（持续超25分钟未恢复）升级

通知策略配置

编辑策略

短信

陈云维李波

邮件

TKE-Prod-OnCall （3人组）

企业微信

#prod-oncall-alerts

告警升级

持续 25分钟 未恢复 → 通知 SRE Lead 张工