SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台

BigData
• 阅读 2855
简介: SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台

1.目标定位

1.1背景

  • 告警管控平台种类繁多
  • 告警出现后未及时发现处理最终导致故障产生
  • 专有云监控能力拉起依赖版本升级,操作复杂,迭代慢
  • 异常问题和故障的感知力不如客户

1.2目标

  • 制定告警数据接入规范
  • 实现告警统一集中展示
  • 建设多种告警外发通知
  • 独立部署、快速迭代
  • 告警严重程度区分,提升感知力

1.3定位

SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台图1:TAC定位

2.平台简介

2.1介绍

SRE技术保障平台-盯屏中心(TAC-TAM Alarm Center)是TAM为混合云精心打造的一站式告警运维平台,覆盖混合云所涉及的云产品、大数据、云实例以及用户所涉及的站点应用等告警,提供告警生命周期管理以及报警外发等解决方案。帮助混合云平台快速发现、定位异常问题,协助产品团队促进产品改进。

2.2特点

2.2.1告警汇聚

  • 默认集成:云平台、大数据、云实例、站点应用
  • 支持扩展:自定义监控

2.2.2报警通道

  • 钉钉&本地化钉钉
  • 短信服务
  • 企业邮箱
  • 警务微信

2.3业务服务流程

SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台图2:TAC业务服务流程图

3.主要功能及界面展示

3.1告警盯屏中心

  • 实时展示云平台当前所有的告警数据以及列出近7天的产品告警TOP排行, 一目了然告警数据, 提升感知力。

SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台图3:告警盯屏中心界面展示

3.2SRE运维大盘

  • 通过指标化,更方便查看产品的健康状况,判断是否有故障;
  • 指标项包含:健康率、成功率、转实例、准时率、正常率、运行率、使用率、写成功率、读成功率。

SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台图4:SRE运维大盘界面展示

3.3告警工作台

  • 用户可以在平台告警页面上认领新增的待处理告警,线下处理完成后可以在我的告警页面上关闭该告警。
  • 当认领了自己不擅长处理的产品告警,可以通过线上转发的方式移交给擅长处理的同学。
  • 若出现长期无法处理的告警,在确认无影响的情况下可以选择忽略该告警,避免一直外发造成消息轰炸。
  • 自动恢复的告警无需手动认领关闭,在历史告警中可以进行查看。

SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台图5:告警工作台界面展示

3.4事件服务中心

打破签字、短信、邮件式古老的运维管理方式,为客户将众多的线下流程移⾄线上,预设相应的管理体系,以线上提交、线上反馈的模式,可以统一管理、追踪闭环、数据存档,为⽇常流程管理工作提供更多解决⽅法,逐步代替线下管理。

SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台图6:事件服务中心界面展示

3.5告警控制策略

  • 支持设置自动分派策略,当指定产品出现告警自动认领告警;
  • 当天首次出现的告警立即通知,非首次出现的告警遵循1440分钟的静默期后通知;
  • 支持控制告警发送时的状态,“发生时”、“认领时”、“关闭时”;
  • 支持预约在指定的时间范围内使某一类型的告警进入静默期,告警外发暂时失效;
  • 支持对告警推送的告警类型,产品,级别,部门,项目等进行自定义配置。

SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台图7:告警控制策略界面展示

3.6告警推送策略

  • 提供用户体系,系统会识别用户的手机号码以及邮箱地址来发送告警;
  • 提供钉钉、短信、邮件的外发的webhook,api接口的配置;
  • 可以选择的一个或多个告警策略自定义配置推送告警

SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台图8:告警推送策略界面展示

3.7监控网关

  • 支持在监控任务页面配置用户关心的网站、机器或某个接口,TAC根据规则进行监控;
  • 若现场之前有提供过黑屏化的监控工具,用户可以在注册API页面注册一个APP,根据接口调用规范将监控结果上报至TAC以第三方告警来展示和外发。

SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台图9:监控网关界面展示

3.8钉钉通知

SRE技术保障平台-盯屏中心TAC: 混合云一站式告警运维平台图10:钉钉通知效果展示

4.结语

目前,混合云多数项目已通过TAC实现告警通知功能。有效提高告警处理效率,减少因告警未及时处理导致故障的情况,大幅提高项目运维质量,减少项目人力投入成本。

作者:黄家亮  阿里云智能GTS-SRE团队资深技术支持工程师
原文链接
本文为阿里云原创内容,未经允许不得转载

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Wesley13 Wesley13
4年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
好买-葡萄 好买-葡萄
4年前
窗体底端 有了这个告警系统,DBA提前预警不是难题
好买网www.goodmai.comIT技术交易平台摘要:告警功能是各大云平台必不可少的模块,个性化的告警配置,为帮助用户和运维人员及时发现问题发挥着重要作用。本文分享自华为云社区《GaussDB(DWS)数据库智能监控系统告警框架上线啦!》,作者:codefulture。本文将从一下几个方面介绍DMS告警框架:数据库智能监控系统告警
Peter20 Peter20
4年前
mysql中like用法
like的通配符有两种%(百分号):代表零个、一个或者多个字符。\(下划线):代表一个数字或者字符。1\.name以"李"开头wherenamelike'李%'2\.name中包含"云",“云”可以在任何位置wherenamelike'%云%'3\.第二个和第三个字符是0的值wheresalarylike'\00%'4\
Stella981 Stella981
4年前
CODING DevOps 系列第六课:IT 运维之智能化告警实践
IT运维告警现状目前IT运维领域保证服务运行正常的主要方法是对相关运维指标进行实时监控,并根据经验设定一些规则,通过将实时监控的数据与规则进行对比,当某个指标监控值不符合设定的规则时,则判定为异常的状况,这样的话就会发送对应的告警到告警平台。告警平台收到通知后,会分配给对应的运维人员进行处理,运维人员去根据告警信息来排查,最终定
Wesley13 Wesley13
4年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Stella981 Stella981
4年前
OneAlert:国内首家 SaaS 模式的云告警平台
随着互联网行业的高速发展,企业IT应用环境日趋复杂。几分钟的故障就会严重到用户体验,那么如何有效降低IT故障带来的影响呢?权威数据表明,86%的企业认为建立有效的监控系统和告警系统、提升IT的可见性是最佳的方式。9月1日,国内第一个SaaS模式的云告警平台OneAlert(https://www.oschina.net/action/G
云监控告警2.0:革新传统告警机制,引领智能化监控新时代
云监控告警机制是云监控体系的核心组成部分,它负责在云服务出现异常或故障时,及时发出告警通知,以便运维人员迅速采取措施解决问题。传统的云监控告警机制虽然能够在一定程度上实现告警功能,但在告警准确性、实时性、智能化等方面存在诸多不足。云监控告警2.0则通过引入先进的技术和算法,对传统告警机制进行了全面升级,大大提高了告警的效率和准确性。
京东云与中兴新支点国产操作系统完成产品兼容性互认证
在近期,京东科技信息技术有限公司与广东中兴新支点技术有限公司联合宣布,双方已完成云平台产品与国产操作系统的兼容性互认证。经过严格的联合测试,京东云公有云平台、京东云云舰混合云平台、京东云专有云平台(简称:JDStack)与中兴新支点服务器操作系统V6完全兼
BigData
BigData
Lv1
春风十里扬州路,卷上珠帘总不如。
文章
5
粉丝
0
获赞
0