监控指标如何设置？

访客性能优化 2026-06-06 00:44:54 1

本文目录导读：

监控指标的设置是一个系统性的工作，核心原则是“先明确目标，再定义指标”，不能为了监控而监控,而是要通过监控来回答关于系统状态和业务健康度的关键问题。

下面是一套从战略到战术的完整设置框架，适用于IT系统、业务运营或项目管理。

第一步：明确监控的5个核心目标

在设置指标前，先问自己：“我要通过监控避免什么？”

对于大部分技术系统，Google SRE 提出的 “四个黄金信号” 是最佳起点，这里做了一点扩展,形成五个核心维度：

关键问题：请求处理是否失败？产生了多少垃圾数据？
常用指标：
- 显式错误：HTTP 5xx 状态码、业务返回的错误码、异常抛出次数。
- 隐式错误：HTTP 200 但返回了错误数据（如返回空页面、返回“操作成功”但数据没写进去）。
设置技巧：错误率必须设置告警，对于关键业务，即使错误率是 0.1% 也要告警。

关键问题：系统还有多少余量？何时会崩？
常用指标：CPU使用率、内存使用率、磁盘I/O利用率、磁盘空间使用率、网络带宽饱和度、线程池/连接池占用率、队列长度（如：待处理的任务数）。
设置技巧：关注 “即将耗尽” 的临界点，例如磁盘使用率达到 80% 告警（提前扩容），而不是等到 99%。

不同层级关注不同的指标：

监控层级	关注点	核心指标示例
基础设施	硬件和OS健康	CPU、内存、磁盘、网络I/O、服务器负载、温度
中间件	数据库、缓存、消息队列	MySQL QPS、慢查询数、Redis缓存命中率、连接数、Kafka消息堆积
应用层	代码和API性能	接口延迟、HTTP状态码分布、JVM GC暂停、应用日志错误数、函数调用链路耗时
业务层	核心业务健康	注册用户数、订单量、支付成功率、用户留存率、转化漏斗完成度

不要只设一个静态阈值：
- 错误做法：CPU > 90% 告警。
- 正确做法：动态基线告警，系统在高峰期CPU 80%是正常的，但如果是凌晨3点突然从10%飙到80%,这就是异常。
不要指标过多（告警疲劳）：
- 错误做法：监控所有1000个指标,对每个都设告警。
- 正确做法：先覆盖核心黄金信号，非核心指标只做看板展示，不告警，告警数量控制在每天可处理的范围内（< 5个/人/天）。
不要忽略“业务指标”：
- 错误做法：只监控服务器健康,不管业务逻辑。
- 正确做法：将技术指标与业务指标关联。支付成功率下降 -> 排查API超时或数据库锁。
不要设“无法操作”的告警：
- 错误做法：设置一个告警：“TCP连接数增加”。
- 正确做法：告警信息要能指导行动。“应用程序数据库连接池已满 (100/100)，需重启或排查慢查询”，如果收到告警不知道怎么办,这个指标就是无效的。

假设我们要监控一个 POST /api/login 接口：

延迟（Latency）：
- 指标名：login_api_p99_latency_ms
- 阈值：P99 > 3000ms 告警（超过3秒用户会不耐烦）。
流量（Traffic）：
- 指标名：login_api_qps
- 基线：正常100 QPS，如果突降到0 QPS（可能服务挂了），告警；如果突增到1000 QPS（可能被攻击）,告警。
错误（Errors）：
- 指标名：login_api_error_rate
- 阈值：登录失败率（HTTP 5xx + 业务错误码“账号或密码错误”） > 5% 告警。
饱和度（Saturation）：
- 指标名：backend_pool_usage
- 阈值：处理登录请求的线程池使用率 > 90% 告警。
可用性（Availability）：
- 指标名：login_api_availability
- 阈值：连续3次健康检查失败，触发P0级告警（即最高级别告警）,通知值班人员。

建看板：先用所有指标建一个仪表盘（Dashboard）,观察运行一周。
抓关键：从中筛选出最能反映系统健康度的 5-10个核心指标。
定阈值：先设保守的静态阈值（如 CPU 80%），然后利用工具学习历史数据生成动态基线。
设告警：对核心指标设置告警，区分告警级别（如：P0=立即叫醒，P1=工作时间处理，P2=记录）。
持续优化：每周/每月复盘，如果某个告警从未响应过，删除或降低级别，如果某个事故被漏掉了,补充对应指标。
工具选择：
- 开源：Prometheus (指标存储) + Grafana (可视化) + Alertmanager (告警管理),这是当前云原生的标准组合。
- 商业：Datadog, New Relic, Dynatrace.
- 云厂商自带：AWS CloudWatch, Azure Monitor, 阿里云云监控.

本文地址： https://dfhcn.com/post/549.html

文章来源：访客