可观测告警运维系统调研——SLS告警与多款方案对比

产品侠
• 阅读 3056

简介:本文介绍对比多款告警监控运维平台方案,覆盖阿里云SLS、Azure、AWS、自建系统(ELK、Prometheus、TICK)等方案。
前言
本篇是SLS新版告警系列宣传与培训的第三篇,后续我们会推出20+系列直播与实战培训视频,敬请关注。
系列目录(持续更新)
• 一站式云原生智能告警运维平台——SLS新版告警发布!
• 这才是可观测告警运维平台——20个SLS告警运维场景
• 可观测告警运维系统调研——SLS告警与多款方案对比(本篇)
1. 什么是SLS告警运维系统
1.1. SLS(日志服务)是什么
SLS是阿里云上云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。目前对内已经是“阿里巴巴 + 蚂蚁金服”系统的数据总线,数年稳定支撑双十一、双十二、新春红包活动。对外则已经服务阿里云几十万企业客户。
可观测告警运维系统调研——SLS告警与多款方案对比

1.2. SLS新版告警——一站式智能告警运维系统
SLS新版告警在中国站等发布公测(国际站预计4月发布),新版在SLS云原生可观测性平台上提供了一站式智能运维告警系统。新版告警提供对日志、时序等各类数据的告警监控,亦可接受三方告警,对告警进行降噪、事件管理、通知管理等,新增40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。
可观测告警运维系统调研——SLS告警与多款方案对比

1.3. 优势
使用SLS新版告警,可以有效缓解典型告警运维系统的痛点,和其他自建、商业化或云厂商提供的方案比,具备如下5大优势:
可观测告警运维系统调研——SLS告警与多款方案对比

2. 与自建方案对比
2.1. 与ELK X-Pack 告警 (Watcher/KibanaAlert)对比
2.1.1. 简介
自建方案ELK表示使用开源方案ElasticSearch + Logstash + Kibana组合,但是其不包括告警功能,需要额外购买X-Pack商业包,会拥有2个告警功能,一个是ElasticSearch附带的Watcher,一个是Kibana 7.x+新增的Alert功能,注意:这两个告警功能互相独立,并不能协同和关联。
2.1.2. 评估对比
可观测告警运维系统调研——SLS告警与多款方案对比

2.2. 与Prometheus & Loki(含AlertManager)告警对比
2.2.1. 简介
自建方案Prometheus&Loki表示使用开源方案Prometheus + Loki + AlertManager组合,其中Prometheus Alert针对时序进行告警监控,Loki针对日志进行告警监控,两者共同将告警发送给Alert Manager进行告警管理。
2.2.2. 评估对比
可观测告警运维系统调研——SLS告警与多款方案对比

2.3. 与InfluxDB 2.0 告警(含Kapa可观测告警运维系统调研——SLS告警与多款方案对比

2.3.1. 简介
自建方案InfluxDB表示使用开源方案InfluxDB OSS 2.0 + kapacitor组合搭建告警监控系统,如果需要集群部署功能,还需要购买InfluxDB商业版本。注意,该方案只能支持针对时序数据的告警监控。
2.3.2. 评估对比
可观测告警运维系统调研——SLS告警与多款方案对比

3. 与其他云厂商方案对比
3.1. 与AWSCloudWatch 告警 +SNS+SSM对比
3.1.1. 简介
AWS告警监控方案,需要依赖AWS CloudWatch告警加上多个其他AWS服务达到告警监控和管理的能力。一般使用CloudWatch Alarm + SNS + System Manager OpsCenter组合的方式完成对日志、时序的监控管理。CloudWatch Logs支持日志的采集,但实际监控告警时,需要先转换成时序才行。
3.1.2. 评估对比
![上传中...]()
3.2. 与AzureMonitor 告警对比
3.2.1. 简介
Azure Monitor支持完整的基于时序与日志的监控,并很好集成了上下游方案提供完整的告警监控与告警管理通知功能。
3.2.2. 评估对比
可观测告警运维系统调研——SLS告警与多款方案对比

4. 进一步参考
4.1. 各方参考
• ELK:
• ElasticSearch Watcher: https://www.elastic.co/guide/...
• ELK X-Pack Kibana Alert: https://www.elastic.co/guide/...
• Prometheus & Lock:
• Prometheus Alert: https://prometheus.io/docs/pr...
• Prometheus AlertManager: https://prometheus.io/docs/al...
• Loki Alert: https://grafana.com/docs/loki...
• InfluxDB:
• InfluxDB Alert: https://docs.influxdata.com/i...
• Kapacitor: https://docs.influxdata.com/k...
• AWS:
• Cloudwatch Alarm: https://docs.aws.amazon.com/A...
• Cloudwatch 定价: https://aws.amazon.com/cn/clo...
• SNS A2P: https://docs.aws.amazon.com/s...
• SNS 定价: https://aws.amazon.com/cn/sns...
• SSM OpsCenter: https://docs.aws.amazon.com/s...
• SSM 定价:https://aws.amazon.com/cn/sys...
• Azure:
• Azure Monitor Alert概念: https://docs.microsoft.com/en...
• Azure Monitor Alert指南: https://docs.microsoft.com/en...
• Azure Kusto: https://docs.microsoft.com/en...
• Azure Monitor定价: https://azure.microsoft.com/e...
原文链接
本文为阿里云原创内容,未经允许不得转载。

点赞
收藏
评论区
推荐文章
好买-葡萄 好买-葡萄
3年前
窗体底端 有了这个告警系统,DBA提前预警不是难题
好买网www.goodmai.comIT技术交易平台摘要:告警功能是各大云平台必不可少的模块,个性化的告警配置,为帮助用户和运维人员及时发现问题发挥着重要作用。本文分享自华为云社区《GaussDB(DWS)数据库智能监控系统告警框架上线啦!》,作者:codefulture。本文将从一下几个方面介绍DMS告警框架:数据库智能监控系统告警
Johnny21 Johnny21
4年前
Promethus(普罗米修斯)监控
一、任务背景某某某公司是一家电商网站,由于公司的业务快速发展,公司要求对现有机器进行业务监控,责成运维部门来实施这个项目。任务要求1)部署监控服务器,实现7x24实时监控2)针对公司的业务及研发部门设计监控系统,对监控项和触发器拿出合理意见3)做好问题预警机制,对可能出现的问题要及时告警并形成严格的处理机制4)做好监控告警系统,要求可以实
慧销平台ThreadPoolExecutor内存泄漏分析
京东生旅平台慧销系统,作为平台系统对接了多条业务线,主要进行各个业务线广告,召回等活动相关内容与能力管理。最近根据告警发现内存持续升高,每隔23天会收到内存超过阈值告警,猜测可能存在内存泄漏的情况,然后进行排查。根据24小时时间段内存监控可以发现,容器的内存在持续上升:
Stella981 Stella981
3年前
CODING DevOps 系列第六课:IT 运维之智能化告警实践
IT运维告警现状目前IT运维领域保证服务运行正常的主要方法是对相关运维指标进行实时监控,并根据经验设定一些规则,通过将实时监控的数据与规则进行对比,当某个指标监控值不符合设定的规则时,则判定为异常的状况,这样的话就会发送对应的告警到告警平台。告警平台收到通知后,会分配给对应的运维人员进行处理,运维人员去根据告警信息来排查,最终定
Stella981 Stella981
3年前
Prometheus 整合 AlertManager
简介Alertmanager主要用于接收Prometheus发送的告警信息,它很容易做到告警信息的去重,降噪,分组,策略路由,是一款前卫的告警通知系统。它支持丰富的告警通知渠道,可以将告警信息转发到邮箱、企业微信、钉钉等。这一节讲解利用AlertManager,把接受到的告警信息,转发到邮箱。实验准备启动http
Stella981 Stella981
3年前
DevOps运维系统:监控管理
ITIL4的监控管理在DevOps风行的当下,人们越来越关注自动化运维。其中,监控预告警、监控自愈越发流行起来。在《DevOps实践指南》和《持续交付发布可靠软件的系统方法》两本书中(DevOps的教科书级别),都有涉及讲解监控管理和实施。其实,监控早不是什么新概念,运维界无论在理论还是工具中,一直在不断探索。监控管理虽然在I
Stella981 Stella981
3年前
Prometheus监控告警浅析
前言最近有个新项目需要搞一套完整的监控告警系统,我们使用了开源监控告警系统Prometheus;其功能强大,可以很方便对其进行扩展,并且可以安装和使用简单;本文首先介绍Prometheus的整个监控流程;然后介绍如何收集监控数据,如何展示监控数据,如何触发告警;最后展示一个业务系统监控的demo。监控架构Prometheus的整个
Stella981 Stella981
3年前
Prometheus和Grafana告警服务创建与对接腾讯云短信告警平台(prometheus_alert)
!(https://oscimg.oschina.net/oscnet/aHR0cHM6Ly9jb2RpbmczbWluLm9zcy1hY2NlbGVyYXRlLmFsaXl1bmNzLmNvbS9jb2RpbmczbWluLzIwMjAtMDMtMDctMTQzNjEwLmpwZw.jpg)前言在一个监控系统中,如果说数据链路是她的骨
API 小达人 API 小达人
1年前
实用干货丨Eolink Apikit 配置和告警规则的各种用法
API在运行过程中可能会遇到各种异常情况,如响应时间过长、调用频率过高、请求参数错误等,这些异常会对系统的稳定性和性能产生严重影响。因此,对API进行异常监控和告警是非常必要的。本文将介绍EolinkApikit中使用的告警规则,帮助开发者和运维人员更好地监控和管理API。
云监控告警2.0:革新传统告警机制,引领智能化监控新时代
云监控告警机制是云监控体系的核心组成部分,它负责在云服务出现异常或故障时,及时发出告警通知,以便运维人员迅速采取措施解决问题。传统的云监控告警机制虽然能够在一定程度上实现告警功能,但在告警准确性、实时性、智能化等方面存在诸多不足。云监控告警2.0则通过引入先进的技术和算法,对传统告警机制进行了全面升级,大大提高了告警的效率和准确性。