DevOps运维系统:监控管理

Stella981
• 阅读 538

ITIL 4的监控管理

在DevOps风行的当下,人们越来越关注自动化运维。其中,监控预告警、监控自愈越发流行起来。在《DevOps实践指南》和《持续交付 发布可靠软件的系统方法》两本书中(DevOps的教科书级别),都有涉及讲解监控管理和实施。其实,监控早不是什么新概念,运维界无论在理论还是工具中,一直在不断探索。监控管理虽然在ITIL V2 中未曾提交,但在ITIL V3的《服务运营》中作为运营活动来介绍,将监控相关的事件管理,作为一个独立的流程讲解的。在ITIL 4中,监控管理和事件管理,共同组成了一个服务管理实践(Practice)-"监控和事件管理实践"。 

监控在ITIL 4中是如何讲解的?
很多人熟悉各种监控工具,但是却无法从更高的流程层面来归纳和解释监控管理的活动。在这方面,我们可以看看ITIL 4的讲解。

1. 监控和事件管理密不可分。需要注意的是,这里的“事件”并不等于“故障”。事件的含义是:

事件:对服务或其他配置项(CI)的管理具有重要意义的任何状态更改。

ITIL 4中有专门讲解“监控和事件”的管理实践。该实践的目的是系统地观察服务和服务组件,并记录和报告确定为事件的状态变化。此实践可识别基础结构、服务、业务流程和信息安全事件并确定其优先级,并建立对这些事件的适当响应,包括对可能导致潜在故障或事件的情况作出响应。

监控部分侧重于服务和配置项(CI),以检测潜在重要的条件,跟踪和记录服务程序和CI的状态,并将此信息提供给相关人员。而事件管理实践部分侧重于那些被组织定义为事件的状态变化的监控,确定它们的重要性,并识别和启动对它们的正确响应。有关事件的信息也会被记录、存储并提供给相关人员。简单来说,监控是来生产监控数据和信息的,而事件是来消费这些数据和信息,并制定相应的响应方案。

2. 监控和事件管理的主要流程:

监测和事件管理实践活动形成三个过程:

●监控规划过程:向监控中添加监控项的过程,定义监控项的优先级,选择要监测的特征,确定事件分类的指标和阈值,将事件与负责的行动计划和团队对应起来。

●事件处理流程

●监控和事件管理审查:该流程是针对重大事件事后分析、筛选和关联分析的更新、服务“健康模型”、自动化和可操作性监控的改进而计划或触发的审查流程。

具体活动见下图:
DevOps运维系统:监控管理

3. 为监控的输出信息分级:

我们需要注意的是,监控是事件管理所必需的,但并非所有监控结果都会检测到事件。阈值和其他标准决定了哪些状态更改将被视为事件。同样,需要注意的是,并非所有事件都具有相同的重要性或需要相同的响应。我们需要为发生的事件类别定义分类标准。典型的类别,按照重要性的增加顺序,是信息性事件、警告性事件和异常事件。

信息:不需要任何措施,也不代表异常情况的事件,一般用于检查设备或者服务的状态,或者确认活动或任务完成。比如:设备成功接入网络,交易成功完成等。

警告:当服务或者设备接近设定的阈值产生的事件,旨在通知相关的人员、流程或者工具,以便检查这种情况,并采取相应措施,以防发生异常情况。例如:服务器的内存从65%持续升高到75%,服务器的响应时间长到令人无法接受,将会违反OLA;网络上的冲突率在过去一小时,提高了15%。

异常:服务或设备当前运行异常,违反了OLA或者SLA。需要注意,异常情况不总是表现为故障。比如,网络中发现了未被授权的设备,这是异常情况。根据故障和变更管理流程,这些异常可以通过故障和变更进行处理。

我们需要将事件按照预先定义的顺序,匹配一系列标准和规则,也称为业务规则,用来判断业务影响的级别和类型。根据业务规则,我们还需要确定触发程序和响应措施。响应措施里面可以包括记录事件、自动响应、告警和人工干预、故障、问题或者变更等,这些响应措施也产生了和其他实践(流程)的接口。

4. 和其他实践的接口:

如表2.1所示,以下活动与监控和事件管理密切相关。请记住,ITIL实践只是价值流环境中使用的工具的集合,应该根据情况在必要时进行组合。
DevOps运维系统:监控管理


监控管理的落地

ITIL 4虽然讲解了监控管理的框架,但是并没有给出可以落地的工具和实现方法,当然这也是ITIL 一如既往的风格。我在工作中接触到的监控工具包括,Zabbix, Nagios, ELK+Grafana. 网上有很多介绍这些工具的文章,在此就赘述了。

点赞
收藏
评论区
推荐文章
Tommy744 Tommy744
3年前
DevOps简介
DevOps是一个完整的面向IT运维的工作流,以IT自动化以及持续集成(CI)、持续部署(CD)为基础,来优化程式开发、测试、系统运维等所有环节。DevOps的概念DevOps一词的来自于Development和Operations的组合,突出重视软件开发人员和运维人员的沟通合作,通过自动化流程来使得软件构建、测试、发布更加快捷、频繁和可靠。
Tommy744 Tommy744
3年前
DevOps与CICD的区别 及 docker、k8s的CICD思路
1\.DevOps简介DevOps就是开发(Development)、测试(QA)、运维(Operations)这三个领域的合并。image.png为什么要合并这三个领域?主要是开发和运维的脱节。DevOps是一种思想、一组最佳实践、以及一种文化。DevOps落地实施,从组织架构、设计人员、流程、人员分工、人员技能到工具,变化
Tommy744 Tommy744
3年前
一份DevOps工程师职责清单,待你查阅
如果一个组织的开发人员和运维人员是独立工作的模式,实施DevOps就需要对组织进行大的调整。因为,只有具备合适的组织人员,文化和工具来才能成功实施DevOps。根据显示,实施DevOps的最常见的障碍之一是员工缺乏技能。什么是DevOps工程师?DevOps工程师是一位IT专家,应该对开发和运维工作都有广泛的了解,包括编码,基础
Stella981 Stella981
2年前
CODING DevOps 系列第六课:IT 运维之智能化告警实践
IT运维告警现状目前IT运维领域保证服务运行正常的主要方法是对相关运维指标进行实时监控,并根据经验设定一些规则,通过将实时监控的数据与规则进行对比,当某个指标监控值不符合设定的规则时,则判定为异常的状况,这样的话就会发送对应的告警到告警平台。告警平台收到通知后,会分配给对应的运维人员进行处理,运维人员去根据告警信息来排查,最终定
Stella981 Stella981
2年前
DevOps简介
DevOps是一个完整的面向IT运维的工作流,以IT自动化以及持续集成(CI)、持续部署(CD)为基础,来优化程式开发、测试、系统运维等所有环节。DevOps的概念DevOps一词的来自于Development和Operations的组合,突出重视软件开发人员和运维人员的沟通合作,通过自动化流程来使得软件构建、测试、发布更加快捷、频繁和
Stella981 Stella981
2年前
DevOps 初学者宝典
什么是DevOps随着软件发布迭代的频率越来越高,传统的「瀑布型」(开发—测试—发布)模式已经不能满足快速交付的需求。2009年左右DevOps应运而生,简单地来说,就是更好的优化开发(DEV)、测试(QA)、运维(OPS)的流程,开发运维一体化,通过高度自动化工具与流程来使得软件构建、测试、发布更加快捷、频繁和可靠。!DevOps
Stella981 Stella981
2年前
DOIS 2019 DevOps国际峰会北京站来袭~
DevOps国际峰会是国内唯一的国际性DevOps技术峰会,由OSCAR 联盟指导、DevOps时代社区与高效运维社区联合主办,共邀全球80余名顶级专家畅谈DevOps体系与方法、过程与实践、工具与技术。会议召开时间:2019070508:00至2019070618:00结束会议召开地点:北京主办单位:DevOps
Wesley13 Wesley13
2年前
UAVStack的慢SQL数据库监控功能及其实现
!(https://oscimg.oschina.net/oscnet/4d6e0c184a1cee4f0acc5a7e689fc556ec7.png)UAVStack是一个全维监控与应用运维平台。UAV.Monitor具备监控功能,包含基础监控、应用/服务性能监控、日志监控、业务监控等。在应用监控中,UAV可以根据应用实例画像;其中应用实例
Stella981 Stella981
2年前
DevOps世界中的软件开发
!(https://oscimg.oschina.net/oscnet/f40e68cbfe8148deb00f040b4e917a0a.jpg)在整个软件开发过程中,开发人员通常需要花费大量时间来修复错误和漏洞,以便一切按计划进行交付。但是,通过DevOps实践,可以更轻松地管理和保护这些问题。这是由于以下事实:使用DevOps实践的软
API 小达人 API 小达人
3个月前
从苏州银行的 API 治理,看银行数字化转型的合规性探索
平台与行内相关研发和运维管理系统进行打通,实现API研发、测试、治理和运维一体化管理;实现与Devops系统打通,实现接口的自动化发布和测试;实现与测试数据管理平台、缺陷管理平台打通,实现API接口研发一体化管理。