Fossil 分布式版本控制系统的设计思想

Stella981
• 阅读 568

原文地址:http://www.fossil-scm.org/index.html/doc/tip/www/theory1.wiki

  有关于Fossil的二个问题(或者评论)被频繁提及,它们可以概述为如下:

  1. 为什么Fossil基于SQLite,而不基于分布式的NoSQL数据库?
  2. 为什么Fossil使用C语言编写,而不是现代的高级语言来开发?

  上述二个问题都无法直接回答,因为它们都是基于错误的假设。我们需要声明Fosssil并不是基于SQLite的,且Fossil也不是基于分布式NoSQL的,因为Fossil就是一个分布式的NoSQL数据库。Fossil已经使用了现代的高级语言,名字叫SQL。

一、Fossil是一个NoSQL数据库

  我们从第一个问题开始:Fossil不是基于分布式NoSQL的,因为Fossil就是一个分布式的NoSQL数据库。Fossil并不是基于SQLite的。在当前版本的Fossil实现中,SQLite用来本地存储分布式数据库的内容以及快速并简单地描述保存预先计算好的关于分布式数据库变化信息的缓存。在这个任务里使用SQLite是一个实现的细节而不是设计的基本原理。将来的某个版本的Fossil可能会放弃SQLite而使用一堆文件或者Key/Value数据库来取代SQLite。(事实上,好像不太可能会发生,因为SQLite在当前的任务里它工作得难以置信的好,这里只是想说明从Fossil里将SQLite在理论上是完全可行的)

  Fossil底层数据库的实现和SQLite或SQL没有任何关系,甚至是关系数据库理论。底层数据库非常简单:它是一个未排序的“artifact”的集合。一个artifact是一个比特列表 — 通俗习惯地理解为一个“文件”。许多artifact可以简化检入Fossil仓库的源码文件的内容。它们叫"content artifacts"。其它artifact,可以叫做"control artifact",包含了其它artifact之间关系的特定格式的ASCII文字,这个content artifact就像是项目制定版本构成元素。每一个artifact都使用它的哈希值命名。Artifact可以加入数据库但是无法删除(如果我们忽略触发的异常)。通过计算artifact集合的合并来实现仓库的同步。SQL和关系理论在这里没有承担任何任务。

  SQL出现在这里只是因为在实现的细节中使用到了它。当前实现的Fossil中每个工件作为BLOB存储在SQLite数据库中。当前实现中每当一个控制工件到达后都会进行解析并将解析结果存储到各类SQLite表单以帮助快速生成报告如时间线、文件历史、文件列表、分支列表等等。 需要注意的是所有这些额外信息都是从工件派生出来的。这些工件都是规则的,关系表只作为缓存来使用。所有关系表内的数据都可以从工件重新计算出来,事实上这个过程就是当你对一个仓库运行“fossil rebuild”命令时所发生的事情。

  所以实际上,Fossil使用了二个分离的数据库。一个是非关系的分布式的(类似NoSQL数据库)工件包数据库以及一个本地的关系数据库。工件包数据库是一个混合的格式的Fossil仓库。Fossil永远都不会修改工件包数据库的格式破坏兼容性,如果这样做了会使得某些东西不再是“Fossil”。本地关系数据库包含了从工件包获取的信息的缓存。本地关系数据库的结构会时常变化以增强Fossil实现,数据内容可以从不变动的工件包重新计算后插入。本地关系数据库就也就是一个如何使用SQLite的实现细节。

  另外一个如何看待Fossil仓库的关系表的观点是将其视为工件的索引。如果没有关系表,生成一个类似时间线的报告需要扫描每一个工件-等同与全表扫描。关系表保存了指向了相关的预存工件序列,因而创建一个时间线非常高效。因而和关系数据库中的索引一样,Fossil仓库里的关系表不会增加任何新信息,它们只是为了使得工件里的信息可以更快更简单地查询。

  Fossil并不"基于"SQLite。Fossil简单地将SQLite作为一个强大的工具来使得开发变得简单。Fossil并没有使用分布式NoSQL数据库,因为Fossil就是一个NoSQL数据库。这就是第一个问题的答案。

二、SQL是一个高级的脚本语言

  第二个集中的问题是Fossil没有使用高级脚本语言。但是这不是事实,Fossil使用SQL(和SQLite的实现一样)作为它的脚本语言。

  这个误解很有可能会越来越深,因为人们错误地认为SQL不是编程语言。人们认为SQL是一个“查询语言”并假设其与“编程语言”某些地方不一样。但是事实是它们都两种不同风格的同一语言。我发现如果把SQL看成是编程语言的人可以把SQL使用得更好,每一个SQL的声明就是一个分离的程序。SQL是一个独特的编程语言,人们使用它指定计算什么,而相反的是大多数其它编程语言指定的是如何实现这样的计算。这个不同点意味着SQL是一个意义非凡的高级编程语言,但是它任然还是一个编程语言。

  对于确定类型的问题,SQL相比其它语言有巨大的优势,因为它太高级而可以让程序员更多地专注于计算什么、高效计算、如何计算的问题上。换句话说,程序员使用SQL语言时倾向于在更高层次上思考问题;这样可以产生更好的程序。SQL语言也非常紧密高效。在实践时,这往往意味着几行SQL语句往往可以取代成百或者上千行的程序代码, 编程采用同样的减少代码的努力往往会导致有更多的几率产生臭虫(BUG)。Fossil遇到哪些问题中的一个使用SQL可以轻松适应。

  Fossil开发过程成很多“难以举起”(的问题)使用了SQL申明。事实是,这些SQL申明与C代码粘合在一起,但是令人意外的是C在这个规则下工作得非常棒。几个早期版本的Fossil原型使用的是一个脚本语言(TCL)。我们经常发现TCL程序往往比C语言要简短,大概是10倍或者更多。但是在Fossil的案例上,使用TCL却会使得代码更长且更难理解。所以在最终设计时,我们从TCL转移到了C语言上,从而使得代码更简单地实现和调试。

  没有内建SQLite的优势,设计也许会遵循一个不同的路径。Fossil通过仓库数据库中的关系表生成的大多数报告牵涉到完整的全库查询。这些查询往往只使用了很少的几行SQL代码。但是如果这些查询使用程序实现的key/value或者多文件数据库,那么就有可能采取高级脚本语言的方案如Tcl,Python或者Ruby,可能会比C更好实现。

点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Easter79 Easter79
2年前
swap空间的增减方法
(1)增大swap空间去激活swap交换区:swapoff v /dev/vg00/lvswap扩展交换lv:lvextend L 10G /dev/vg00/lvswap重新生成swap交换区:mkswap /dev/vg00/lvswap激活新生成的交换区:swapon v /dev/vg00/lvswap
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
2年前
Java获得今日零时零分零秒的时间(Date型)
publicDatezeroTime()throwsParseException{    DatetimenewDate();    SimpleDateFormatsimpnewSimpleDateFormat("yyyyMMdd00:00:00");    SimpleDateFormatsimp2newS
Stella981 Stella981
2年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
3个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这