DOIS大会参会总结和思考

Wesley13
• 阅读 393

上周去参加DOIS(DevOps International Summit,缩写:DOIS)会议。除了自己的分享外,也看了一些其他公司当前在做的事情,谈谈个人的看法:

一、对于DevOps的理解

目前来看大家都在推行DevOps相关的事情,不同的公司,不同的阶段,不同的行业,都会从不同的维度去入手。

1、ThoughtWorks林冰玉微服务测试的思考与实践

分享中,提到了传统的通过TDD(测试驱动开发)模式向GDS(目标驱动策略)转变,既定目标和度量结果的差异带来的改进手段问题。

在我们日常测试过程中也看出测试同学对测试环境的不够用的诉求,这块恰好和我们的多项目环境最初的诉求一致。

所以,在独立部署的情况下,底层平台对CI/CD的支持,以及遵守契约测试,我们自己Demeter开发阶段也是用过这种方式,提高团队之间协作效率。

注:CDC,消费者驱动的测试,分为服务Provider和服务Consumer端,那原始数据的格式和交互细节定义是由Consumer端定义契约文件,然后Provider根据契约文件来实现。

2、京东的模块化运维体系建设实践

本次和京东运营专家何永成同一个专场,京东在推进DevOps的过程中,是通过Kit工具集合来驱动的,也就是说提供制作和管理Kit的“商店”。

然后,把大家日常用到的工具集合起来,通过Agent下发执行,当然对于一些通用的Kit工具其实是可以被广大用户申请授权使用的。

其次,京东的运维也在做故障模拟相关的系统“响尾蛇系统”,类似我们现在做的故障模拟平台,可以去做场景化的模拟单机,应用,网络,机房级别的故障演练。

同时,在压测系统和容量系统的结合下,实现集容灾,资源,性能于一体的资源管控平台,一方面验证容量符合预期,另一方面在容量符合的前提下能够支持容灾能力

当然,随着机器的增加,同等宕机率的情况下,故障机器数量必然会增加,所以在这种量变带来质变的情况下,对于故障自动报修能力也是他们迫切需要的。

鉴于此,结合日常的故障发现(主机层面),故障分析,然后结合分析结果自动提交报修单,来释放运维的这种简单的繁琐工作

以上是京东分享出来的内容,当然会后沟通,还聊到了包括我们正在做的全生命周期管理平台,涉及到容量,资源,运维能力平台化的思考。

交流下来,上述内容在我们Demeter的规划中都有体现,当然好的产品还是需要持续打磨,需要时间,更需要贴近用户的使用。

二、对AIOPS的一些探索

1、百度曲显平分享的AIOps实践:

百度对AIOPS的探索主要在监控整个体系上面的尝试,比如故障管理中的发现,变更管理的监控,监控体系中的告警。

然后,基于现有数据,通过算法来驱动,按照策略,类型,业务,机房,人的维度去合并,当然对于一些特殊的场景其实并能不能适配,还需要个性化定制。

对于故障自愈方面结合业务场景去收集全局信息,然后通过算法去帮助快速决策,而在所有的能够故障自愈的场景中,不只是底层的公共设施,业务自身也需要具备自愈能力,所以这部分是底层技术和业务共同实现的。

无人值守变更管理,这块其实对于自助化服务来说其实是一个非常重要的环节,百度的整体方案还是结合DevOps自动化流水线的方式来驱动,其中涉及到流量调度,变更多次,信息通知,当然在整个变更过程中,把时间,任务,可用性影响,用户影响,上下游的影响涵盖了。

这块在我们Demeter的CD环节也可以做一定尝试,毕竟未来是开发自助式运维,那么变更是否合理,是否符合预期,出了认为判断,系统是否也能支持自我诊断能力。

不过,就目前AIOPS的探索中,绝大多数公司还都是在尝试,就目前来看大家做的停留在算法中,像BAT等大公司因为在体量和资源上的优势,无疑是走在最前列的。

2、阿里子昊-阿里集团网络的自动化推进

分享中仅提到的对历史的埋坑,一个人用了三个月把集团近5万行的无效配置清理掉,解决了历史坑向自动化标准化的改变。

其实,这块我想说的是我们在系统建设中难免会有各种各样的老数据,甚至是一些非常不标准的,而且是低ROI的事情。

但是,我们还是希望能够在迁移整理过程中,把这部分凌乱的数据规范化,做平台不仅仅是支撑业务,更是让业务在平台的约束能力下做规范,为后续工具平台能够方便、快速的支撑。

3、华为消费者BG张燕斌-云服务自动化运维平台开发实践

整个分享中其实主要谈到的是自动化平台的建设,其中更多的倾向于自动化系统的部署,配置,作业执行,以及基础的CMDB,监控系统,运维管理系统的思考。

这块其实算整个工具平台的场景化下面的原子化操作,这块就不做详细描述了。

监控体系采用的Prometheus和Grafana整合,当然对于小集群还是可以的,规模增加后其实一样会面临着数据压力的问题。

最后

以上是我参加的一些分享主题的思考,对于DevOps,大家都很清楚,它是提高开发的运维能力,必须需要工具平台支撑。

对于AIOps,绝大多数情况下,主要还停留在补数据+跑场景化验证,多数都是结合监控现有的丰富数据去尝试,聚合报警,关联诊断,故障自愈等。未来的AIOps,我想会更加趋于务实的方向逐步发展。


罗伟,花名清泉,蘑菇街工具平台技术专家,目前在主要负责蘑菇街的运维工具平台开发,支撑研发,运维,日常运维相关的服务,致力于提供简单、高效、快速的基础运营运维平台。加入蘑菇街之前曾在就职阿里巴巴,负责手淘整体运维工作,后转型运维开发,负责运维工具平台开发,支持无线,合一,闲鱼,阿里体育等业务。

本文分享自微信公众号 - 成哥的世界(forrest_thinking)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Easter79 Easter79
2年前
swap空间的增减方法
(1)增大swap空间去激活swap交换区:swapoff v /dev/vg00/lvswap扩展交换lv:lvextend L 10G /dev/vg00/lvswap重新生成swap交换区:mkswap /dev/vg00/lvswap激活新生成的交换区:swapon v /dev/vg00/lvswap
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
2年前
Java日期时间API系列31
  时间戳是指格林威治时间1970年01月01日00时00分00秒起至现在的总毫秒数,是所有时间的基础,其他时间可以通过时间戳转换得到。Java中本来已经有相关获取时间戳的方法,Java8后增加新的类Instant等专用于处理时间戳问题。 1获取时间戳的方法和性能对比1.1获取时间戳方法Java8以前
Stella981 Stella981
2年前
DOIS 2019 DevOps国际峰会北京站来袭~
DevOps国际峰会是国内唯一的国际性DevOps技术峰会,由OSCAR 联盟指导、DevOps时代社区与高效运维社区联合主办,共邀全球80余名顶级专家畅谈DevOps体系与方法、过程与实践、工具与技术。会议召开时间:2019070508:00至2019070618:00结束会议召开地点:北京主办单位:DevOps
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
DevOpsDay一个专业且专注的组织
!(https://oscimg.oschina.net/oscnet/37593a205cfc498889e7a05ffb6e0baa.jpg)自2017年加入百度工程效率部开始接触互联网公司的DevOps,到如今在做金融业的DevOps,在一边理解DevOps的深刻含义的同时,也在体会DevOps在不同行业内实施的差异。互联网公司的开放和
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这