灭火图 - 故障发现和定位的入口

滞空容器
• 阅读 231

通过深入分析和解决企业在可观测性和稳定性保障方面的挑战,Flashcat 提出了“灭火图”这一关键概念。

  • 灭火图以服务/模块/基础组件/基础设施等为维度,以聚合的视角实时度量某个特定维度的可用性(典型指标包括时延、流量、错误、饱和度),并为该可用性指标自动设定合理的阈值,可以回溯历史上的指定时间点的可用性状态(典型的跨度为24小时)。
  • 灭火图是发现服务健康与否的入口,也是整个故障定位信息系统的核心,从灭火图开始,可以下钻到具体的接口/基础设施/链路分析数据/问题特征/相关事件等关键维度,引导技术团队高效、精准的定位故障。

今天详细为大家介绍服务故障定位的入口工具:Flashcat-灭火图

灭火图的功能定位是什么?

在建设和使用可观测性平台的过程中,我们是否经常遇到以下这些问题:

  • 数据分散:需要观测的数据一部分在这个平台,一部分在那个平台,查看和对比的时候切来切去十分苦恼
  • 数据太多:一个主机几十个指标,一个微服务几十个指标,追溯问题的时候成百上千的指标和日志等各类数据,不知从何下手
  • 难以追溯:发现了服务发生问题,是否是网络设备出现问题还是底层基础设施出现问题?追溯时要先确定底层是哪些设备,再依次排查对应数据,效率很低
  • 难以解决:不同的模块和设备往往是不同的人负责的,发生问题时如果没有负责人的及时介入,从查问题到解决问题,可能会被“踢皮球”,在过程中浪费了大量时间

通过灭火图,我们针对性的解决监控中这些痛点,更加快速的帮助用户发现、定位并解决问题。

灭火图 - 故障发现和定位的入口

灭火图,是Flashcat故障定位环节的入口,也是连接Flashcat中各分析能力的核心。

我们可以通过Flashcat的北极星系统和智能告警发现业务异常,日常巡检中则可以通过浏览灭火图,快速聚焦可能出现问题或者已经出现问题的接口、模块以及下层的组件和基础设施,并下钻查看其中具体是哪一部分发生问题。

通过灭火图卡片的关联分析入口,查看所有卡片相关的数据并通过灵活多样化的分析工具和下钻功能继续找到问题根因并解决。

也可通过卡片告警功能对问题发生进行及时预警,以便更加及时的解决可能发生的问题。以灭火图为入口,一站式完成问题的发现、定位、解决、预防的一系列操作。

那么同样也常被用作日常巡检和问题排查的仪表盘和灭火图又有何区别呢?

  • 【组织形态上】 灭火图是结构化的,可以同时观测系统的多个部分,如功能/组件/基础设施,还可以层层下钻,查看具体对象的指标/日志/链路/事件等,是系统的立体抽象和关键数据的浓缩;相比之下,仪表盘更侧重于数据的平铺、多样化展示,各个仪表盘间往往是并列的关系,常用于监控对象明细数据的呈现。
  • 【功能上】 灭火图基于结构化的优点,汇聚串联了各种分析功能和排查问题的最佳实践,比如功能卡片飘红,我们可以下钻查看功能对应的指标,发现成功率下降,继续下钻查看对应时间点的日志,以及进一步查看链路分析数据/问题特征/相关事件等;仪表盘则更侧重于数据展示丰富性的实现,配备简单的变量切换查看功能。
  • 【使用上】 在故障处理时,问题范围收敛、排查路径引导等环节更多需要使用到灭火图。而当问题定位到某个具体的对象,如一台服务器或一个数据库时,则可以查看这个对象的仪表盘详情,用于做更为详细的分析。因此仪表盘可以作为基于灭火图追查问题的一个最终环节,两者结合起来加速问题的排查分析,灭火图也提供了串联仪表盘的功能,让整个定位分析过程变得更为流畅。

传统仪表盘:
灭火图 - 故障发现和定位的入口

灭火图:
灭火图 - 故障发现和定位的入口

推荐一个 Flashcat 灭火图针对C端服务的最佳实践

  1. 将灭火图首页层级规划为:接口、微服务、组件、基础设施。
  2. 确定支持北极星业务线的核心接口(如订单系统核心接口、用户系统核心接口等)、微服务及对应负责人。
  3. 确定支持以上接口和微服务的组件(如MySQL、Redis、Kafka等)、基础设施(网络、DNS等)及对应负责人。
  4. 基于灭火图的各类模板创建规则,规则将自动生成接口、微服务、组件和基础设施的灭火图卡片,并分层展示。同时规则可定期自动执行,自动更新卡片。
  5. 灭火图能够自动关联日志、trace等信息,也可手动补充关联,如某微服务的变更事件、某组件的仪表盘等。
  6. 巡检或故障处理时,在灭火图首页观测服务的全局状态,有飘红的部分则下钻追查,收敛问题范围,并按关联的线索排查相应的指标、日志、tracing、事件等。

针对不同的行业或toC和toB的特点,灭火图配置和观测的对象可以灵活设置。

灭火图 - 故障发现和定位的入口

此外,灭火图能够快速生成为拓扑大屏展示形式,非技术人员也可以简明的完成日常巡检和异常观察。

灭火图 - 故障发现和定位的入口

灭火图的应用范围

灭火图是IT系统全局健康状态的量化,也是服务故障的处理入口,在需要稳定性保障的场景都可以发挥其价值。

例如:

  • 门店类业务
  • 出行类业务
  • 电商类业务
  • .....

灭火图 - 故障发现和定位的入口

总结

灭火图正成为企业提升稳定性保障能力,加速故障定位不可或缺的工具。

灭火图 - 故障发现和定位的入口

了解灭火图的更多详情请访问快猫星云官网:https://flashcat.cloud/

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
3年前
2019第1周日
用消息中间件犹如小马过河,选择合适的才最重要,这需要贴合自身的业务需求,技术服务于业务。具体在选择上可从下面功能、性能、可靠性和可用性、运维管理、社区和生态、团队技术栈等维度来进行筛选。具体技术选型指标1:功能首要的就是功能维度,这个直接决定了你能否最大程度上的实现开箱即用,进而缩短项目周期、降低成本等。如果一款消息中间件的功能达不到想要的功能,那么
架构师日记 - 从技术角度揭露电商大促备战的奥秘 | 京东云技术团队
本文从技术角度深入分析了大促备战的背景和重要性,重点介绍了备战期间稳定性保障的相关措施,包括具体的指导方向和落地细节。本文旨在回顾和梳理备战期间的关键步骤,以帮助我们更加从容的应对系统稳定性的挑战。
【稳定性】稳定性建设之弹性设计 | 京东物流技术团队
弹性设计为系统稳定性建设提供了一种新的视角和方法,它有助于提高系统的可用性、性能和安全性,同时也降低了维护和修复的成本和风险。
云电脑架构设计的层次
云电脑架构设计的层次基础设施层是云电脑架构的最底层,负责提供计算、存储、网络等基础设施。这些基础设施可以由多个服务器组成,通过虚拟化技术进行资源池化,实现资源的动态分配和共享。基础设施层需要提供足够的计算、存储和网络资源,以满足虚拟化层和应用层的资源需求。同时,基础设施层还需要具备高可用性、可扩展性和安全性等特点,以满足用户的需求和保障数据安全。
如何利用容器与中间件实现微服务架构下的高可用性和弹性扩展
在当今的互联网时代,微服务架构已经成为许多企业选择的架构模式,它能够提高系统的灵活性、可维护性和可扩展性。然而,微服务架构下的高可用性和弹性扩展是一个复杂的挑战。本文将介绍如何利用容器与中间件来实现微服务架构下的高可用性和弹性扩展的解决方案。
云监控的核心:确保稳定性的关键监控指标
云监控是指对云服务进行实时监控,收集和分析各种运行数据,以便及时发现和解决潜在问题。云监控的目的是确保云服务的稳定性、可用性和性能。为了实现这一目标,需要选择一系列关键监控指标来全面反映云服务的运行状态。
京东云开发者 京东云开发者
11个月前
探讨打造「高可用架构」秘籍
​背景高可用性的文章多如牛毛,看得人眼花缭乱。今天,咱们换个花样,以终为始,来聊聊如何实现系统业务的高可用性这个宏伟目标。本文覆盖高可用架构设计、常见架构模式、高可用开发运维、大促高可用保障、业务高可用、COE复盘等方面的理念和思考。高可用性是个宏大的主题
云监控的发展历程与未来展望
云监控能够实时监测云端资源的可用性、性能和操作。通过收集和分析关键监控数据,可以快速发现云端系统和应用的性能瓶颈和潜在问题,并作出响应以确保其正常运行。因此,云监控是保证企业云端业务平稳运行的关键组成部分。
京东云开发者 京东云开发者
8个月前
【质量视角】可观测性背景下的质量保障思路
作者:京东保险郑飞背景介绍目前质量团队正在积极建设和完善应用监控能力,旨在能及时发现并解决问题,为线上服务稳定性保驾护航。随着可观测性概念的逐渐普及,监控的建设也有了新的挑战和使命。本文将探讨在可观测性背景下,作为一个测试人员在质量保障中的一些思路和个人思
融云IM即时通讯 融云IM即时通讯
7个月前
融云IM干货丨 使用哪些指标来评估IM服务API调频的效果?
评估API调频效果时,可以关注以下几个关键指标:正常运行时间:衡量服务可用性的重要指标,通常与服务级别协议(SLA)相关联。CPU和内存使用率:跟踪资源利用率有助于了解何时需要扩展实例,同时作为异常情况的预警指标。错误率:如每分钟错误和错误代码,帮助追踪各