读 Google《SRE》第六章有感 ——— 告警配置的一些原则和经验
在运维中,告警的重要性不言而喻,它既能对某些潜在的问题提前预警;也能对已发生的问题提供信息,便于快速定位和及时处理问题。
告警的维度
我们把告警分为系统告警和业务告警。
很多监控和告警系统默认都支持系统的告警,如:
- 硬件异常告警:磁盘,内存,网卡
- 系统指标维度告警:CPU/内存/磁盘/网络流量/链接数等
- 系统日志告警
- ……
业务告警需要根据自身业务需求进行配置,甚至需要做定制化,如:
- 业务进程存活告警
- 业务日志告警
- 访问时延告警
- 服务异常告警
- ……
系统告警往往很直观,现象很明显,容易定位出原因;业务告警的现象往往有有种因素引起,一般需要深入定位原因。
此外,系统异常往往会诱发业务异常,二者存在因果关系。每当收到系统告警时,我们应该能初步的判断系统异常对业务层面的影响;每当收到业务告警,我们可以结合是否有系统告警,以便快速定位问题。
告警配置的原则
每当告警发生时,值班同学需要暂停手头工作,查看告警。这种中断非常影响工作效率,增加研发成本,特别对正在开发调试的同学,影响很严重。所以,每当我们收到告警时,我们希望它能真实的反映出异常,即告警不能误报(对正常状态报警);每当有异常产生时,报警应该及时发出来,即告警不能错报(错过报警)。但是误报和错报总是一对矛盾的指标。
- 从监控范围出发:为了避免误报,就必须增加更多的监控指标,但是增加监控指标后,又带来更多误报的可能性。
- 从阈值角度出发:对于阈值类监控,阈值过高,误报概率低,但是错报概率高;反之,阈值过低,误报概率低,但是错报概率高;
配置告警之初,我们应尽可能扩大监控告警覆盖面,选取保守的阈值,如此是尽可能避免错报。后续定期对告警进行统计分析,对误报的告警,该屏蔽就屏蔽,该简化就简化,这是一个相对长期的过程。结合项目经验和《Google SRE》观点,推荐如下告警设置原则:
- 真实性:告警必须反馈某个真实存在的现象,展示你的服务正在出现的问题或即将出现的问题。
- 表述详细:从内容上,告警要近可能详细的描述现象,比如服务器在某个时间点具体发生了什么异常。
- 可操作性:每当收到告警时,一般需要做出某些操作,对于某些无须做出操作的告警,最好取消。比如磁盘 IO 量瞬间很大,CPU 使用率瞬间飙高,我们往往不会做出操作,对某些业务而言,这类告警意义就不大了。可操作性原则尤为重要,遵循这条原则往往能避免很多误报。
虚拟化告警配置的一些经验
虚拟化提供云计算相关虚拟机和容器产品,集群规模近千个物理节点,集群有数十种管理服务。对我们而言,关心如下告警:
- 所有节点的硬件状况
- 所有节点某些系统指标,比如内存,磁盘
- 所有节点进程存活状况
- 所有节点某些特定日志
- 中心节点日志
- 服务可用性
为了保障业务稳定,我们尽可能的把监控覆盖到最大范围,但是也带来了许多误报,平均每天几十条告警非常影响值班同学的效率。因此我们定期统计和分析告警频率,对于告警频率高的应用,是问题的则把问题解决,误报的告警或优化,或取消。具体如下:
- 优化告警阈值:适当提高 内存/CPU/网络 IO 告警阈值。
- 优化日志级别:优化不合理的日志级别,把部分 ERROR 级别的日志调整为 WARNING。
- 屏蔽某些日志:对难以调整日志级别的应用,根据关键字屏蔽某些频繁的日志告警。
- 预警增强:对于某些影响业务方的操作,提供预警。
- 增强紧急预警:有些硬件故障会出现反应在 /var/log/messages 中,根据关键字匹配硬件类告警,以便及时处理。