开源走向世界(下):从数据库技术演进看开源力量丨BDTC 2021

滞涩重载
• 阅读 1068

本文内容根据 PingCAP 高级副总裁范若晗在 BDTC 2021 的主题演讲:“开源走向世界”整理而成,从协作方式和技术演进两个角度,分享了 “开源”和“全球化” 之间相互关联,密不可分的关系,分为上下两篇,[上篇介绍了开源如何构建全球化的舞台](),本篇主题为:从数据库技术演进看开源力量

我们认为,数据技术演进的驱动力总结起来,主要包括三个方面:理论基础推动软件创新、基础设施保障软件能力的实现、业务需求真正打磨了技术的不断工程化、产品化,是产品真正的 “用武之地”。

数据库演进历史——基础理论驱动

按照时间和功能维度,我们将数据生态做了划分,大致包括 SQL 生态,大数据生态,NoSQL 生态,NewSQL 生态,以及 SQL 的云化生态。每个生态的演进,离不开基础理论的发展。
1970 年 IBM 的关系型数据库理论 Relational Model 包括 System R 原型产品的问世,为 Oracle、DB2、MicroSoft SQL Server 这些商业数据库的诞生奠定了基础。而后 MySQL、PostgreSQL 以开源这一形态获得快速发展和全球最广泛的应用。
2003 年 - 2006 年,谷歌三驾马车 GFS,MapReduce,BigTable 论文的发表,奠定了业界大规模分布式存储系统的理论基础。现如今非常流行的 Hadoop、Spark、MongoDB、Hbase 等也都是建立在这些理论基础上的。大家可以发现,这些数据产品都是用开源模式发展壮大的。因为闭源的模式迭代速度慢,单位成本高,已经无法应对海量用户需求了。
2012 年 - 2014 年,还是 Google 发表的 Spanner 和 F1,以及斯坦福大学的 Raft 论文,推动了 NewSQL 数据库的发展。PingCAP 的 TiDB,也是对这些理论基础的产品化实现,并在此基础上不断创新。

数据库演进历史——业务创新驱动

再来看看怎么理解刚刚说的 “用武之地”,总体而言,业务需求体现在以下三个方面:开源走向世界(下):从数据库技术演进看开源力量丨BDTC 2021一是  “事务特性”  ,也就是通常说的 ACID 原子性、一致性、隔离性、持久性。通俗来说,流程数字化、业务线上化都属于严肃业务,比如金融、电信等业务,以及企业级的 ERP、CRM,都要求可靠的事务特性。
二是  “数据规模” ,主要体现在互联网带来的海量数据爆发增长,不管是用户行为全面互联网化、或移动设备带来的数据采集极大丰富,还是内容本身的创造造成的数据海量暴涨,从文本到图片、动画、短视频、长视频、游戏再到最近很热的元宇宙,都是数据规模增长因素,在疫情的极致推动下,各个行业的数字化转型又催生了新一轮的数据增长。
三是  “处理延迟”  ,在移动互联网及数字化的今天,对用户体验的追求水涨船高,ToC 业务希望更快地服务响应,从而争夺用户的碎片时间,争夺商业时机,ToB 业务对数据处理也需要更迅速的业务响应,更实时的数据分析和更敏捷的运营决策。
这三个因素在不同时期有不同的发展,还有不同的组合,不断催生并落地了数据技术的发展。不同的数据库生态,正是在业务驱动力的不同组合推进的结果。开源走向世界(下):从数据库技术演进看开源力量丨BDTC 2021信息化时代数字基础弱,主要解决关键业务的准确性和效率问题,更多是小数据量的严肃业务,对数据有高度的事务特性要求,且数据结构稳定、规则清晰,数据量有限,这类需求关系型 SQL 单机数据库生态就能满足,要求的是效率和稳定。
2000 年左右进入大数据时代,经过信息化的长期发展,数据有了大量积累,新的数据也以前所未有的体量和速度增加,单机关系型数据库逐渐有了吃力和老态的迹象。为了对海量数据进行存储和分析,尤其是离线积累的数据,各类高效、可伸缩、可部署在低廉硬件上的大数据处理平台纷纷崭露头角。
而后的互联网时代初期,内容和用户线上行为都极大丰富,但当时主要是海量非结构化的数据存储(视频/音频/图文/社交关系等)、但数据规模庞大,要求并发性流量、同时争夺流量,快速响应用户访问、提供低延迟用户体验的需求驱动了 NoSQL 生态的发展。因为早期互联网业务不以盈利为目的,要处理的数据更多是用户在互联网上的浏览记录,社交关系等,所以对于事务特性上就没有那么高的要求。
进入移动互联网时代,随着数据量的迅猛增长,业务在保证良好用户体验的同时还要完成交易和变现,业务敏捷除了要求系统能快速响应业务变化和数据增长,还要求高可靠地支持海量交易、支付等严肃事务。可以看到,这时期业务驱动力的三要素都进入了视野。部分企业仍在通过 SQL 生态云化的过渡方式来满足,但我们也在实践中看到,当用户的数据量尤其数据更新超过一定范畴,原生分布式的 NewSQL 才是先进架构的选择。再加上数据技术都进入到全面云服务化的阶段,架构的差异就更加显露出来。
同时,实时洞察要求数据决策从 T+1 向 T+0 升级,甚至是秒级毫秒级的分析响应,实时汇聚多源数据、动态更新并灵活计算都是不断出现的需求,渐渐的事务性计算和分析性计算之间的分界越来越模糊,数据库和大数据的技术创新会不断融合。

数据库演进历史——基础设施驱动

最后,硬件是软件发挥作用的基石,数据技术的发展离不开基础设施的发展。
从大型机到 X86 服务器再到云计算,基础设施部署实现了从 “年” 到 “月”到“日”到“秒”的颠覆性变革,资源从专有、封闭到按需启动、弹性扩展。云原生时代再次把资源规模扩大,资源颗粒度缩小,API 化、微服务化进一步把业务上线、更新的速度推到秒级。
未来,资源分离的设计将在云上释放更大的威力。上面数据库发展的时间轴只画到了 NewSQL,实际上数据技术还在不断进化。相信在这个进程中,开源能够发挥的价值将越来越大。现在所有云的产品背后核心都来自于开源,创新源动力也是来自于开源。以下是在 2021 PingCAP DevCon 大会上,东旭提出的一个大胆假设:云原生的时代,所有能分离的都会分离,规模效应掌控一切。这个分离包括存储与计算的分离、更极致的是不同目的的存储与存储的分离,业务计算与分布式计算及事务性计算可以进一步分离。不断把规模效应和资源效率优化推向极致,而对于用户而言,只需要关注业务本身就好,其他的都交给云端的数据库来完成。

TiDB 产品迭代的启示

在这三个驱动力作用之下,我们可以总结下 TiDB 过去 6 年中产品的迭代来做个印证。
TiDB 产品最大的优势是技术开放性,架构开放就意味着能够产生更多的连接,更多连接意味着更快的迭代速度、更多的可能性。开源走向世界(下):从数据库技术演进看开源力量丨BDTC 2021TiDB 的初心是希望提供一个原生分布式且良好支持 OLTP 事务的数据库,让我们的 DBA 不再因为海量数据的分库分表加班熬夜。TiDB 1.0 和 2.0 解决的就是这个问题。后来随着数字化带来的实时化诉求,一栈式 HTAP 成为我们的努力方向,伴随今年 TiFlash MPP 的发布,我们已实现全面的 HTAP 能力。
作为云原生的分布式数据库,我们在今年推出了 TiDB Cloud,以及免费开放给开发者试用的 Developer Tier,用户可以在 Amazon Web Services 上免费运行 TiDB 集群一年。TiDB Cloud 负责基础设施管理、集群部署、备份管理等所有后台数据库管理,让开发者可以专注于打造优秀的应用,实现秒级切换。所有这些都基于开源带给我们的迭代速度和创新源动力。
最后用 RedHat CEO Paul Cormier 最近在电视采访中说过的一句话作为总结:Open source software is the heart of the technology behind cloud computing。
是不是开源,是不是要去做开源,是不是要把开源作为公司持续创新的外在推动,我认为是每一家基础软件公司都可以去深度思考的一个问题。

点赞
收藏
评论区
推荐文章
Stella981 Stella981
3年前
Nebula Graph 技术总监陈恒:图数据库怎么和深度学习框架进行结合?
NebulaGraph的技术总监在09.2409.30期间同开源中国·高手问答(https://www.oschina.net/question/4105562_2311761)的小伙伴们以「图数据库的设计和实践」为切入点展开讨论,包括:「图数据库的存储设计」、「图数据库的计算设计」、「图数据库的架构设计」等方面内容,本文整理于他和开源
Wesley13 Wesley13
3年前
go
本文有『Go开源说』第三期gozero直播内容修改整理而成,视频内容较长,拆分成上下篇,本文内容有所删减和重构。大家好,很高兴来到“GO开源说”跟大家分享开源项目背后的一些故事、设计思想以及使用方法,今天分享的项目是gozero,一个集成了各种工程实践的web和rpc框架。我是Kevin,gozero作者,我的github
Stella981 Stella981
3年前
AnalyticDB for MySQL:PB级云数仓核心技术和场景解析
2019阿里云峰会·上海开发者大会于7月24日盛大开幕,本次峰会与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势。本文整理自数据库专场中阿里云智能高级技术专家南仙的精彩演讲,本文为分享了阿里云PB级云数据仓库AnalyticDBforMySQL的核心技术以及其应用场景。数据
Wesley13 Wesley13
3年前
FreeSWITCH视频会议“标准”解决方案
本文由FreeSWITCH中文社区创始人杜金房在LiveVideoStack线上分享的演讲内容整理而成,详细介绍了FreeSWITCH做为一种开源的视频会议解决方案如何在开源、开放的基础上,对接各种无法修改的“标准”视频会议终端、WebRTC浏览器以及微信小程序等,迎接各种挑战。文/ 杜金房整理/ LiveVideoStack
Wesley13 Wesley13
3年前
DTCC大会归来感想
一年一度的中国数据库技术大会DTCC,迎来了第10届,从传统商业数据库各种开源数据库,从大数据到AI,从技术到管理,业界有的,大会上就有涉及的相关主题,议题相当丰富,《议程奉上|DTCC2019中国数据库技术大会最全议程总览(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fmp.we
Wesley13 Wesley13
3年前
2018年阿里巴巴重要开源项目汇总(持续更新中)
_摘要:_ 云栖社区特在2018年年末,将阿里巴巴的一些重要的开源项目进行整理,希望对大家有所帮助。开源展示了人类共同协作,成果分享的魅力,每一次技术发展都是站在巨人的肩膀上,技术诸多创新和发展往往就是基于开源发展起来的,没有任何一家网络公司可以不使用开源技术,仅靠自身技术而发展起来。阿里巴巴各个团队都是发自内心地将踩过的坑和总结的经验融入到开源项目中,
Stella981 Stella981
3年前
Kubernetes 时代的安全软件供应链
作者汤志敏 阿里云容器服务高级技术专家汪圣平 阿里云云平台安全高级安全专家导读:从Dockerimage到Helm,从企业内部部署到全球应用分发,作为开发者的我们如何来保障应用的交付安全。本文会从软件供应链的攻击场景开始,介绍云原生时代的应用交付标准演进和阿里云上的最佳实践。“没有集装箱,就不会有全球化”。在软件行业里,
Easter79 Easter79
3年前
TiDB 初体验
其实从2017年就打算测试下TiDB了,因为工作安排的关系,这个事情在年后才开始计划来做。而根据时间线来看,2015年的那个时候,我正和老杨张罗DBAplus的事情,而东旭已经在构思TiDB的雏形了,几年过去了,TiDB已经很火热,发展势头很不错,难得有这样一批热爱技术的人通过自己的行动来助力开源社区。其实一直以来,我感觉国内的很多开源产品,开源项目
Stella981 Stella981
3年前
Gdevops峰会:一起探讨国产分布式数据库的选型与应用
从过去40年至今,数据库的形态基本经历了传统商业数据库、开源数据库到云原生数据库的演进过程。云时代下数据库将如何革新与创变?金融行业核心数据库迁移与建设如何安全平稳展开?Gdevops全球敏捷运维峰会由阿里巴巴、腾讯、工商银行、民生银行、爱可生、蚂蚁金服等几大巨头,对云原生数据库进行探索,带领我们眺望数据库发展变革更长远的未来。!
Wesley13 Wesley13
3年前
2014年国人开发的最热门的开源软件TOP 100
不知道从什么时候开始,很多一说起国产好像就非常愤慨,其实大可不必。做开源中国六年有余,这六年时间国内的开源蓬勃发展,从一开始的使用到贡献,到推出自己很多的开源软件,而且还有很多软件被国外的认可。中国是开源不可忽视的力量。而我们这个榜单也是从这些国人开发、主要参与开发或者基于国外开源软件进行改进并形成独立版本的软件中,根据该软件的访问、收藏、下载等多个角度
天翼云发布云原生关系型数据库TeleDB for openGauss
近年来,开源软件强势崛起,从开源使用者到开源贡献者,中国的开源数据库产品,让数据库市场格局产生了新的变化。12月28日,openGauss开源社区在北京举办主题为”汇聚数据库创新力量逐梦数字时代星辰大海“的年度开源数据库技术峰会。中国电信天翼云首席专家侯圣文现场发布了运营商首个云原生关系型数据库TeleDBforopenGauss。目前,数字经济占我国