《原神》运维自动化的探索与实践

春风化雨
• 阅读 1641

2020 年 9 月 28 日清晨米哈游办公区域,《原神》运维团队与 OpsMind 重保团队严阵以待,迎接提瓦特大陆第一批旅行者。

《原神》运维自动化的探索与实践

两个月后,《原神》陆续拿下 Google Play Best of 2020 和 App Store Best of 2020 等荣誉,成为谷歌和苹果双平台全球年度游戏。

《原神》运维自动化的探索与实践

​新年伊始,《原神》运维团队为我们揭示了《原神》运维自动化技术的探索实践经历。

时间是唯一的敌人

运维自动化是必然,时间是我们唯一要跑赢的敌人。

与米哈游现有项目对比,《原神》在服务器数量及运维工作量上都面临较大挑战,如何通过运维自动化工具支撑超大规模集群的发布管理没有经验可寻。

然而,是采用自研还是商业方案是首先面临的决策,运维工具的效率、稳定性及满足游戏上线要求是重中之重。要想在短时间内由 0 到 1 自研运维自动化工具是一项低投入产出且高风险的技术投资。在时间和人力不充裕的情况下,选择采用现有的商业方案显得可行性更高。在待考察的方案中,不乏一些在运维行业内比较知名的商业化方案。在深入调研后,发现这些方案各有优缺点,比如有些平台功能不足无法满足定制化的需求;而有些产品研发与交付服务是割裂的,如果出现 Bug 或新的功能需求,须由产品研发团队评估后才能排期立项,少则数月、多则半年,甚至可能 石沉大海。

在探索过程中,OpsMind 低代码运维开发平台的产品形态非常特别,能通过很少的人力,在短时间内搭建起一体自动化运维平台,切中《原神》的痛点。并且可以快速的以周为单位进行 Bug 修复、功能更新迭代,而《原神》运维开发只需要专注自动化工作流的设计编排以及业务方的需求实现。

挑战无处不在

由于《原神》面向的是全球用户,大陆、海外包含多个区服,服务器量大,上线时又要保证任务下发百分百无误;这对米哈游和 OpsMind 都是很大的挑战。面对 100% 成功率的目标,双方一同配合查找影响成功率的问题点,在多层代理、自动检测专线健康度、优化超时处理机制、数据进一步压缩等措施下,最终以 100% 的任务下发成功率完美支撑了《原神》的上线。

对游戏行业来说,快速迭代、快速发布是普遍需求。在追求效率的同时,更加强调质量。为了提升运维质量以及与其他部门的配合效率,需要快速搭建起贴近自有业务场景的运维平台。包括监控、发布自动化、CMDB 等,并且数据彼此互通,可提供给游戏研发及其他部门或系统使用。基于这个目标,《原神》运维团队与 OpsMind 从建模设计、工作流业务划分、页面的配置、自定义指标的收集与下发策略等几方面入手,在一个月内将整个体系搭建起来。为了整体替换老系统,并兼容老系统对外输出的 API,OpsMind 开发 Endpoint 功能,通过 Endpoint,《原神》运维团队可自定义 API 调用格式,驱动工作流执行。

“因为 OpsMind 产品的灵活性、功能的全面性,使它可以满足《原神》项目运维的所有需求,这是一个很大的优势,这就使我们可以把其他工具都扔掉只留 OpsMind 。可以说《原神》和 OpsMind 是相互成就,相互成长。”《原神》项目运维团队表示。

值得期待的 OpsMind

《原神》是一款研发难度极具挑战性的游戏,《原神》的运维工作也同样极具挑战性。经过一年的合作,OpsMind 在产品和性能上有了很大的提升,实现了高速成长。

“希望 OpsMind 近阶段在做的监控系统性能优化工作能取得一个很好的成果,这也会极大提升《原神》运维的工作效率。此外,对于 OpsMind 正在做的平台侧的改造,使交互变得简便,可以降低平台的使用门槛,提高配置效率,也是我们非常期待的。”《原神》项目运维团队负责人表示。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
美凌格栋栋酱 美凌格栋栋酱
6个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Stella981 Stella981
3年前
DevOps简介
DevOps是一个完整的面向IT运维的工作流,以IT自动化以及持续集成(CI)、持续部署(CD)为基础,来优化程式开发、测试、系统运维等所有环节。DevOps的概念DevOps一词的来自于Development和Operations的组合,突出重视软件开发人员和运维人员的沟通合作,通过自动化流程来使得软件构建、测试、发布更加快捷、频繁和
Stella981 Stella981
3年前
DOIS 2019 DevOps国际峰会北京站来袭~
DevOps国际峰会是国内唯一的国际性DevOps技术峰会,由OSCAR 联盟指导、DevOps时代社区与高效运维社区联合主办,共邀全球80余名顶级专家畅谈DevOps体系与方法、过程与实践、工具与技术。会议召开时间:2019070508:00至2019070618:00结束会议召开地点:北京主办单位:DevOps
Stella981 Stella981
3年前
DevOps第一讲:什么是DevOps
DevOps概念早先升温于2009年的欧洲,因传统模式的运维之痛而生。!(https://static.oschina.net/uploads/img/201707/22121051_DBdW.jpg)DevOps是为了填补开发端和运维端之间的信息鸿沟,改善团队之间的协作关系。不过DevOps其实包含了四个部分:产品、开发、测试和运维。!
Stella981 Stella981
3年前
Linux运维常见面试题之精华收录
Linux运维常见面试题之精华收录1、什么是运维?什么是游戏运维?1)运维是指大型组织已经建立好的网络软硬件的维护,就是要保证业务的上线与运作的正常,在他运转的过程中,对他进行维护,他集合了网络、系统、数据库、开发、安全、监控于一身的技术运维又包括很多种,有DBA运维、网站运维、虚
Stella981 Stella981
3年前
DevOps运维系统:监控管理
ITIL4的监控管理在DevOps风行的当下,人们越来越关注自动化运维。其中,监控预告警、监控自愈越发流行起来。在《DevOps实践指南》和《持续交付发布可靠软件的系统方法》两本书中(DevOps的教科书级别),都有涉及讲解监控管理和实施。其实,监控早不是什么新概念,运维界无论在理论还是工具中,一直在不断探索。监控管理虽然在I
亚马逊云科技的MLOps新实践,会给我们哪些启发?
20年前,软件行业在数字化演进的道路上,从部署一个Web服务器到部署几十甚至上百上千个不同的应用,在各种规模化交付方面的挑战之下,诞生了DevOps技术。比如虚拟化、云计算、持续集成/发布、自动化测试等,而MLOps就是机器学习时代的DevOps。它的主要作用就是连接模型构建团队和业务,运维团队,建立起一个标准化的模型开发,部署与运维流程,使得企业组织能更好
API 小达人 API 小达人
1年前
从苏州银行的 API 治理,看银行数字化转型的合规性探索
平台与行内相关研发和运维管理系统进行打通,实现API研发、测试、治理和运维一体化管理;实现与Devops系统打通,实现接口的自动化发布和测试;实现与测试数据管理平台、缺陷管理平台打通,实现API接口研发一体化管理。