通过 Event Correlation 减少 Zabbix 告警数量

简介

使用 Zabbix 的时候我们经常会碰到一个监控项超出阈值，触发多个告警的情况。
例如一台交换机发生 unreachable 故障，会导致所有连接到这台交换机的主机发生 unreachable 告警，结果就是收到无数告警邮件。

幸好，在 Zabbix 3.2 中提供了一个叫做 Event Correlation 的新功能来解决这个问题。

Event Correlation 分为两种

本文主要介绍第二种方式（因为第一种方式我还不知道如何使用）

我们将创建两个告警，一个在 CPU load 大于 0.2 时产生，一个在大于 0.5 时产生。
需要达到的效果是，在第二个告警产生的时候，第一个告警就会自动关闭。

在 zabbix_agentd.conf 中添加

UserParameter=mimic.cpu.load,cat /tmp/cpuload.log

通过 Event Correlation 减少 Zabbix 告警数量

一个用来模拟负载过高的告警
- 在 Expression 中填入 {your-host:mimic.cpu.load.last()}>0.2
- 在 Tags 项里创建一个名为 CPU 的 Tag
一个用来模拟系统饱和的告警，这个告警发生的时候，负载过高就应该自动关闭，因为这两者都是关于 CPU load 的告警
- 在 Expression 中填入{your-host:mimic.cpu.load.last()}>0.5
- 在 Tags 中创建一个名为 CPU 的 Tag

接下来我们可以测试一下同时触发两个告警，操作很简单

$ echo 0.61 > /tmp/cpuload.org

会看到面板上同时显示两个告警
通过 Event Correlation 减少 Zabbix 告警数量
之后可以设置一个较小的 CPU load 值，以消除所有告警

$ echo 0.01 > /tmp/cpuload.org

通过菜单项 Configuration -> Event correlation 创建新的 Event correlation rules
在 Condition 中添加
- Old event tag = CPU
- New event tag = CPU
- 在 Type of calculation 中选择 And 作为条件
在 Operations 标签页中选择 New operation 为 Close old events 并添加
触发负载过高告警，但不触发系统饱和
```
$ echo 0.25 > /tmp/cpuload.log
```
待面板上看到负载过高的告警以后触发系统饱和
```
$ echo 0.99 > /tmp/cpuload.log
```
观察面板，这个时候面板上只有一个告警
通过菜单项 Monitoring -> Problems，可以看到之前的负载过高报警被 correlation rule 关闭了