SRE体系06----on-call工作

点赞狂
• 阅读 264

on-call的意思是随时待命,on-call轮值工作是SRE, 运维,研发团队的重要职责,它的目标是保证服务的可靠性和可用性。on-call通常处理的都是紧急事故,一般非紧急的工作一线的研发和运维即可处理。

SRE体系06----on-call工作

在我们安排团队内部的on-call轮值工作时,需要注意以下几点:
1.数量上保持合理的平衡
如果公司要求做到7*24,那么尽量做到每人每月轮值一周。同时要为主on-call工程师配置一个副手,确保主on-call联系不上时有备份,或者客户问题溢出时,副手可以分担压力

2.工作压力保持平衡
处理事故时不仅要处理现有问题,处理完毕还需要写事故报告和总结,非常耗时耗力,单日的生产环境报警故障处理总数尽量不超过3-4个,否则会造成运维压力过大,同时长时期执行夜间工作对人的身体不利,尽量避免夜间值班

3.福利措施
on-call值班把工作带入了生活,时刻都有潜在的工作压力,需要为on-call工程师提供额外的补贴,避免工程师对工作厌倦

4.安全感
单独处理未知问题,面对愤怒的客户往往需要承担巨大的心理压力,在处理紧急事故时,需要为on-call工程师提供资源,避免遇到问题手忙脚乱,最紧要的有如下几个:

  • 清晰的问题升级路线
    一旦超出on-call工程师的能力范围,及时将问题升级
  • 清晰定义的紧急事故处理步骤
    有了参照样板,on-call工程师处理起来会更顺畅
  • 包容,合作的文化氛围
    在工作中只针对具体工作和问题,能够控制情绪,不指责,甩锅他人
点赞
收藏
评论区
推荐文章
Stella981 Stella981
3年前
Linux 运维是做什么的
!(https://oscimg.oschina.net/oscnet/up25a98115c12319b11895484bc9dd5ecd170.png)Linux在现在社会发展是非常受欢迎的一个行业,对于从事Linux方面工作的人来说,属于互联网背后的英雄,没有他们的付出,就没有如今的互联网时代。而在Linux从事岗位之中,Linux运维工程师
Stella981 Stella981
3年前
Redis 备份、容灾及高可用实战
郝朝阳,宜搜科技,运维工程师,负责前端运维工作。专注于运维自动化的实现。致力于DevOps思想的推广,帮助企业形成形成自有文化的运维体系建设。一,Redis简单介绍Redis是一个高性能的keyvalue非关系型数据库,由于其具有高性能的特性,支持高可用、持久化、多种数据结构、集群等,使其脱颖而出,成为常用的非关系型数据库。此
Wesley13 Wesley13
3年前
ECS主动运维2.0,体验升级,事半功倍
_摘要:_ 阿里云致力于提供更好用的运维体验,让您使用ECS的过程更透明、高效,并实现更加标准化、自动化的运维方式。基于主动运维2.0,您使用ECS云服务器的体验更加流畅,而且利用系统事件,不再依赖于工单联系客服,可以通过自助处理的方式响应主动运维实例重启,减少对系统可靠性和业务连续性的影响。   云服务器ECS(ElasticCompute
Stella981 Stella981
3年前
Linux运维常见面试题之精华收录
Linux运维常见面试题之精华收录1、什么是运维?什么是游戏运维?1)运维是指大型组织已经建立好的网络软硬件的维护,就是要保证业务的上线与运作的正常,在他运转的过程中,对他进行维护,他集合了网络、系统、数据库、开发、安全、监控于一身的技术运维又包括很多种,有DBA运维、网站运维、虚
Stella981 Stella981
3年前
DevOps背景下的分合之事
DevOps倡导“谁开发,谁运维”和开发运维一体化。那么是不是简单地把开发和运维人员放在一起就完事了呢?01—“插队”的故事小明入职时是运维专员,原来隶属于运维部门,负责某业务线系统的应用维护工作。一旦系统的生产环境出现任何故障,或者业务人员在生产环境上有任何请求,都是由小明所在的运维部门先处理,处理不了的,再联系该系
初识DevOps
基本概念和延伸的思考DevOps,是Development(开发)和Operations(运维)组成的复合词,一般译为“开发运维一体化”。看到这个概念,首先会产生几个问题:开发是什么,哪些环节是开发?运维是什么,哪些环节是运维?开发人员写好代码在本地调试,环境出问题了自己来调整,这是开发工作还是运维工作?系统故障后,运维人员发现是配置文件内容出错了就改成了正
从人工到自动化到AIOps再到ChatOps:大模型在运维领域的应用
一、引言在信息技术飞速发展的今天,运维工作已经从最初的人工操作,逐步演变为自动化、AIOps(人工智能运维)和ChatOps(通过聊天的方式去运维)。这些变革不仅提升了运维效率,还显著保障了系统的稳定性。特别是借助大模型,运维同学能够更加高效地完成工作,并
使用jenkins进行流水线编译
本文分享自天翼云开发者社区《使用jenkins进行流水线编译》,作者:赵媛一、什么是CI/CD企业应用程序开发参与者通常由开发人员,测试人员/QA工程师,运维工程师以及SRE(站点可靠性工程师)或IT运营团队组成。他们紧密合作,目标是高质量软件交付。CI/
点赞狂
点赞狂
Lv1
人间四月芳菲尽,山寺桃花始盛开。
文章
3
粉丝
0
获赞
0