对抗警报疲劳的七个步骤!

逻辑流光
• 阅读 2200

警报疲劳是一个棘手的问题,但事不宜迟,越早开始越好。利用警报数据,你可以有效清理监控系统,排除不可操作的警报。

简便起见,我们编写了对抗警报疲劳的七个步骤。

减少警报疲劳的七个步骤

1.付诸行动

清理监控系统并不简单,而且人们容易对高级别警报产生麻木感。但是,第一步需要决定如何处理报警。不妨先浏览一下你的报警数据,看下班时间出现了多少警报以及其影响。

接着,团队启动清理警报的工作流程。Etsy 就曾设立过「黑客周」来解决大型监控卫生问题,当然,一周留出几小时或每个月留一天进行清理工作也可以。

2.删除不可操作的警报并调整阈值

首先回顾最常见的警报(提示:你可以通过 PagerDuty 的 Advanced Reports 深入了解事件)。然后询问最近当值的人员,判断每个警报是否可操作。

一旦发现不可操作的警报,直接删除之。

对 CPU 和内存使用监控和警报非常普遍,因为这些指标会暗示是否存在错误。但是,这些指标无法给出具体的错误信息,所以它们是不可操作的。Etsy 已经放弃监测这些指标,转而专注于排查更具体、可操作的信息。

你可能还需要调整检查的阈值。来自 Exosite 的 Dan Slimmon 曾分享过一个非常不错的谈话 「烟雾警报和汽车警报」,详细介绍了两个医学检测概念如何应用于设置警报问题。这两个概念是敏感性和特异性,将两者结合可得到阳性预测值(PPV)——警报响起时确实存在问题的可能性。该谈话还分享了如何通过滞后(结合考虑当前值与历史值)与其他技术,改进 PPV 的策略。

3.延迟处理不严重事件

尽管所有警报都很重要,但有些可能并不紧急。所以无需为了后者在半夜将整个团队叫醒。你可以为非严重事件创建单独的工作流程,以保证它们不再打扰你休息或当前的工作。在 PagerDuty 中,可以通过在低严重性服务中禁用「Incident Ack Timeout」和「Incident Auto-Resolution」来设置。

4.整合相关警报

当故障出现时,你可能会得到指向同一问题的多个警告。你可以根据监测依赖性进行设置,并利用 OneAlert 最佳实践教程来整合警报:

  • 使用 incident key 告知 PagerDuty 哪些事件是相互关联的。例如,如果多台服务器宕机,每台服务器可能都会向 PagerDuty 发出通知。但如果这些通知的 incident key 相同,我们可以将通知整合成一个警告,告诉你30个服务器正处于宕机状态。

  • 警报风暴期间,PagerDuty 会捆绑首个事件之后触发的警报。例如,如果一分钟内有10个事件被触发,在第一个警告后,你只会再收到一个汇总警报。

5.为警报添加名称和描述

收到警告后,得知某处出现问题,却没有能衡量问题严重程度的信息,也不知该如何处理,这种情况最为糟糕。

  • 给警告添加描述性名称。如果设定一个指标(比如,已使用的磁盘空间),请确保有足够信息使他人了解其意义。磁盘空间达到了80%还是99%?

  • 在警报描述中添加相关的故障排除信息,比如指向现有文档或运行手册的链接,能帮助团队深入挖掘当前事件。在 PagerDuty 中,你可以添加 aclient_url 到事件中,或直接将运行手册链接加到服务描述里。

6.确保相关人员收到警报

当团队刚开始监控时,他们通常会将所有警报发送给所有人。事实上,没人愿意接收毫无意义的信息,如果你有不同的团队负责不同的架构模块,可以使用 Escalation Policies 调整警报设置。

7.更新定期审查

为了保证清理工作的效果,你需要每周定期审查这些警报。 Etsy 就定制过有趣的审查流程 「Opsweekly」(点此查看其 Github repo),但也有些公司使用电子表格来定期审查。

为了防止警告疲劳成为常态,可以为待命团队设定量化指标。一旦满足限度,无论是在监测清理过程还是在休息时间,都必须采取处理行动。 PagerDuty 会查看每周的警报数,如果某个待命团队接收的报警数超过15,我们会总结并审查这些警报。

最重要的,是养成警报监控的团队协作精神。如果你收到一个不可操作的警告,即便只有一次,你也有责任确保该警报不会再打扰其他成员。

目前市面上的类似 SaaS 云告警平台有几个,大家可以参考下:国外的 PagerDuty、VictorOps、OpsGenie,国内目前做的比较好的是 OneAlert ,感兴趣的同学可以去免费试用一下!

原文链接:https://www.pagerduty.com/blog/lets-talk-about-alert-fatigue/

点赞
收藏
评论区
推荐文章
LinMeng LinMeng
4年前
Vue 重复进入相同路由警报
路由守卫重复进入两次,报错(虽然页面还可以运行)原因:vuerouter路由版本更新产生的问题,导致路由跳转失败抛出该错误,但并不影响程序功能Uncaught(inpromise)Error:Redirectedwhengoingfrom"/productDetail?VNK326acc75"to"/productTerms"via
仲远 仲远
2年前
System Dashboard Pro for Mac(系统仪表板)
SystemDashboardPro可以帮助用户实时监测Mac电脑的CPU、内存、硬盘、网络等系统资源的使用情况,以及应用程序的运行状态。它提供了多种实用的功能,包括实时监控、历史记录、警报通知、自定义布局等,可以帮助用户了解系统的运行情况,及时发现和解决
Johnny21 Johnny21
4年前
Prometheus学习系列(一)之Prometheus简介
前言Prometheus官网的非官方中文手册,翻译截至Prometheuslatest(2.9)。什么是prometheus?是一个最初在SoundCloud上构建的开源系统监视和警报工具包。自2012年成立以来,许多公司和组织都采用了Prometheus,该项目拥有非常活跃的开发者和用户社区。它现在是一个独立的开源项目,
Stella981 Stella981
3年前
Echarts实战案例代码(16):geomap地图散点图和label轮播的解决方案
!在这里插入图片描述(https://oscimg.oschina.net/oscnet/up8930ff1bac6b959177ad4482928f9771.png)场景使用:适用于定时显示区域信息、区域警报提醒。设置城市中心点varcenter{
Wesley13 Wesley13
3年前
IOS 图片加载过多导致内存警报的释放内存操作
IOS加载图片越来越多会导致内存警报,此时应该暂停下载操作清除缓存。 (void)applicationDidReceiveMemoryWarning:(UIApplication )application{    //停止下载所有的图片    SDWebImageManager sharedManager
Wesley13 Wesley13
3年前
CCF考试——201712
概要问题描述  小明和小芳出去乡村玩,小明负责开车,小芳来导航。  小芳将可能的道路分为大道和小道。大道比较好走,每走1公里小明会增加1的疲劳度。小道不好走,如果连续走小道,小明的疲劳值会快速增加,连续走s公里小明会增加s2的疲劳度。  例如:有5个路口,1号路口到2号路口为小道,2号路口到3号路口为小道,3号路口到4号路口为大道,
Easter79 Easter79
3年前
Telltale:看Netflix如何简化应用程序监控体系
!(https://oscimg.oschina.net/oscnet/eaa61c7e8e0243f9acc97d0b45690c8c.jpg)_为了解决流媒体平台应用程序监控的诸多痛点:警报太多、滚动屏幕太多、配置和维护太多......Netflix推出了__Telltale__——一个建立在“用不着不断调整警报配置”前提上
Stella981 Stella981
3年前
EMQ X Neuron V1.1.1 正式发布,增加南北协议报文显示和日志追踪
为解决工业领域数据接入上云过程中所面临的协议繁杂、设备异构化等问题,2020年9月,物联网边缘工业协议网关软件EMQXNeuron(以下简称Neuron)正式发布。Neuron提供了通过对各种工业协议转换实现设备端的数据采集、运行业务逻辑服务、警报判定,并将数据及警报上传及存储到云平台。再通过Web服务等部署和客户端应用
不是海碗 不是海碗
2年前
了解短信的实现原理以及如何使用通知短信API
短信作为一种简单、即时、可靠且广泛应用的通信工具,为个人和企业提供了方便的沟通方式,并在许多方面发挥着重要的作用。短信被广泛应用于各个领域。它可以用于发送营销信息、推广活动、账单提醒、验证码验证、密码重置等。短信也可以用于紧急通知、灾难警报等重要的应急通信。
机器人装行业MES/低代码平台免费使用/低代码MES
机器人装行业MES/低代码平台免费使用/低代码MES​1)焊接机器人在汽车、工程机械、船舶、农机等行业,焊接机器人的应用十分普遍。作为精细度需求较高、工作环境质量较差的生产步骤,焊接的劳动强度极大,对焊接工作人员的专业素养要求较高。由于机器人具备抗疲劳、高