盘点新生代数据库选手之 DuckDB

极客破浪者
• 阅读 858

开一个系列,分别介绍一下最近十年新冒出来的数据库。分别从产品要解决的问题,技术路线,商业化角度分析一下。

这周太可研究所(techinstitute)分享一个嵌入式 OLAP 数据库 -- DuckDB。

Vol.1

什么是嵌入式数据库?通俗来说就是可以嵌入到应用程序内部,无需启动外部 server 的数据库。最知名的例子就是 SQLite,做过 Android、iOS 开发的同学都很熟悉它,如果要使用数据库,默认选择就是 SQLite。如果说 SQLite 是主打 OLTP 场景,那么 DuckDB 就是要解决嵌入式场景下的 OLAP 问题。

说到 OLAP + 嵌入式场景,不难想到它的应用场景在两处,一是作为查询引擎嵌入到某些产品里,二是在单机环境里做快速的分析实验。第二个场景的用户就是数据分析师或者数据科学家,而且竞品还是挺多,pandas、arrow 等 library,以及可以单机跑的 ClickHouse。第一个使用场景前景就很广阔了,毕竟 SQLite 是全世界装机量最大的数据库(每个 Android、iOS 设备上都有),虽然 OLAP 的需求远小于 OLTP,但哪怕百分之一也是很大的规模。

Vol.2

从技术视角上看 DuckDB 的有几个特点:

一是用 C++ 开发,几乎没有任何第三方依赖,甚至连 parquet reader 都是自己写的。可以非常方便地编译成各类产物,既可以编译成二进制可执行文件,也可以编译成 library 方便其他产品集成,多语言集成也很容易,甚至还能编译成 wasm 在浏览器里执行。

二是使用了 SIMD 等技术,可以实现高性能的执行。不过话又说回来,现在还不支持 SIMD 的 OLAP 数据库已经快被淘汰干净了。

三是非常简单的安装方式和可移植性,得益于历史包袱少,第三方依赖少,对接 Python 非常方便,使用简单的 pip 命令就可以安装并且使用。使用 DuckDB 就像 SQLite 一样,只有少量几个存储文件,把文件拷贝到其他机器上,装好 DuckDB 之后就可以直接用起来。

pip install duckdb==0.6.1

四是 SQL 支持好,每家数据库都有自己的 SQL 方言,也就 PostgreSQL 的 SQL 是最标准的,其他的要么加了很多私货,要么是很多函数、语法不支持。DuckDB 的 SQL 支持很丰富,至少是嵌入式数据库里是最好的。

目前DuckDB最新版本是0.9.2,看上去距离发布1.0已经不远了。未来DuckDB的roadmap主要集中在SQL语法补全、性能优化、代码架构优化上。

Vol.3

DuckDB 还很年轻,2019 年才诞生,还没有特别清晰的商业化路线。背后的商业化公司 MotherDuck 已经融到了 B 轮,融了 5 千万美金,估值 4 亿美金。

MotherDuck 早期也只是提供一些 DuckDB 的技术支持、咨询类的服务。现在MotherDuck 也提供了云 Serverless 服务,系统通过云挣钱,但是作者实在没看出来相比于其他云产品的优势在哪里。

说实话 4 亿美金的估值已经不低了,按照现在资本对 SaaS 类产品的要求,至少要营收达到 2、3 千万美金才能匹配现在现有的估值,这个营收如果是在国内,已经是数据库创业公司们的天花板了,在海外可能还有希望。如果 MotherDuck 没有更清晰的商业化数字的话,估计下一轮会比较困难,不过好在看官网介绍,MotherDuck 的人手不多,短期内不会太缺钱,希望他们能把产品越做越好吧。

DuckDB 是一个值得持续关注的新兴技术,在数据分析赛道的定位还是挺清晰的。再考虑到未来和生态高度集成,影响力肯定会在上升一个台阶。

引用:

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Easter79 Easter79
3年前
sql注入
反引号是个比较特别的字符,下面记录下怎么利用0x00SQL注入反引号可利用在分隔符及注释作用,不过使用范围只于表名、数据库名、字段名、起别名这些场景,下面具体说下1)表名payload:select\from\users\whereuser\_id1limit0,1;!(https://o
皕杰报表(关于日期时间时分秒显示不出来)
在使用皕杰报表设计器时,数据据里面是日期型,但当你web预览时候,发现有日期时间类型的数据时分秒显示不出来,只有年月日能显示出来,时分秒显示为0:00:00。1.可以使用tochar解决,数据集用selecttochar(flowdate,"yyyyMMddHH:mm:ss")fromtablename2.也可以把数据库日期类型date改成timestamp
Peter20 Peter20
4年前
mysql中like用法
like的通配符有两种%(百分号):代表零个、一个或者多个字符。\(下划线):代表一个数字或者字符。1\.name以"李"开头wherenamelike'李%'2\.name中包含"云",“云”可以在任何位置wherenamelike'%云%'3\.第二个和第三个字符是0的值wheresalarylike'\00%'4\
Stella981 Stella981
3年前
Python3:sqlalchemy对mysql数据库操作,非sql语句
Python3:sqlalchemy对mysql数据库操作,非sql语句python3authorlizmdatetime2018020110:00:00coding:utf8'''
Wesley13 Wesley13
3年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Stella981 Stella981
3年前
Hibernate纯sql查询结果和该sql在数据库直接查询结果不一致
问题:今天在做一个查询的时候发现一个问题,我先在数据库实现了我需要的sql,然后我在代码中代码:selectdistinctd.id,d.name,COALESCE(c.count_num,0),COALESCE(c.count_fix,0),COALESCE(c
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
美凌格栋栋酱 美凌格栋栋酱
5个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(