为 BitCask 存储引擎实现过期删除功能

溢出苔藓
• 阅读 689

最近参与了一个不错的开源项目,是一个基于 BitCask 模型实现的 KV 存储引擎。项目地址:CouloyDB。大家觉得不错的话可以来一个小小的 star

因为功能上想向 Redis 看齐,所以打算实现过期自动删除的功能。我采取了小顶堆来实现过期删除,并且在 Get 的时候,也会进行惰性删除。

时间堆的实现

堆中的每个元素都是一个 Job

type Job struct {
    Key        string
    Expiration time.Time
}

其中记录了每个Key和它的过期时间Expiration

堆的实现定义如下:

type h struct {
    heap  []*Job
    index map[string]int
}

index存储的是Key对应的Job在数组中的切片,用以快速获取Job而无需遍历切片。

在 Go 中可以通过实现heap.go中的接口来实现堆:

type Interface interface {
    sort.Interface
    Push(x any) // add x as element Len()
    Pop() any   // remove and return element Len() - 1.
}

具体实现可以查看CouloyDB/public/ds/timeHeap.go at master · Kirov7/CouloyDB · GitHub,这里就不给出详细代码了,重点注意实现的时候需要在接口方法里同样对 index 进行更新。

实现了堆的接口之后,h结构体就可以使用堆的一些方法来操作了。额外对 h 封装了一层:

type TimeHeap struct {
    heap h
}

TimeHeap实现了如下方法:

  • Push.
  • Pop.
  • Get.
  • Remove.
  • Peek.
  • IsEmpty.

具体实现同样可以查看CouloyDB/public/ds/timeHeap.go at master · Kirov7/CouloyDB · GitHub

利用时间堆实现 TTL 机制

具体实现可以查看CouloyDB/ttl.go at master · Kirov7/CouloyDB · GitHub,这里就重点说一下exec方法:

func (ttl *ttl) exec() {
    now := time.Now()
    duration := MaxDuration

    ttl.mu.Lock()
    job := ttl.timeHeap.Peek()
    ttl.mu.Unlock()

    if job != nil {
        if job.Expiration.After(now) {
            duration = job.Expiration.Sub(now)
        } else {
            duration = 0
        }
    }

    if duration > 0 {
        timer := time.NewTimer(duration)
        defer timer.Stop()

        select {
        case <-ttl.eventCh:
            return
        case <-timer.C:
        }
    }

    ttl.mu.Lock()
    job = ttl.timeHeap.Pop()
    ttl.mu.Unlock()

    if job == nil {
        return
    }

    go ttl.deleter(job.Key)
}

start方法的执行流程如下:

  1. 从堆顶取出一个 Job;
  2. 判断这个 Key 是否已经过期了,并计算剩余的存活时间;
  3. 如果这个 Key 没有过期,那么启动一个 Timer 来等待这个 Key 过期,Timer 触发之后,会将这个 Job 从堆中 Pop 出来;如果已经过期了那么直接 Pop 出来。
  4. 开启一个协程来异步删除 Key。

这个流程中有一个很值得注意的地方是:

select {
case <-ttl.eventCh:
    return
case <-timer.C:
}

一旦有堆中元素被插入或删除都需要直接返回,跳到下一次exec的调用。这是因为有可能新插入的元素会在当前堆顶元素之前过期,应该要先删除。或是当前堆顶元素已经被删除了,再次 Pop 的话就会出现错误了。

调用接口

Get方法中,如果 Key 存在就要去时间堆中检查一下是否过期了,如果过期了就直接返回错误。

if db.ttl.isExpired(string(key)) {
    // if the key is expired, just return and don't delete the key now
    return nil, public.ErrKeyNotFound
}

然后我将原先的Put方法又重新封装了一下:

func (db *DB) PutWithExpiration(key, value []byte, duration time.Duration) error {
    return db.put(key, value, duration)
}

func (db *DB) Put(key, value []byte) error {
    return db.put(key, value, 0)
}

put方法中可以根据duration是不是 0 来进行相应的操作。

如果duration不为 0,那么就计算出过期时间,并向时间堆中添加/更新一个Job,但duration如果为 0,有可能是要将之间设置了过期时间的 Key 给取消过期时间,所以要进行一次删除。

var expiration int64
if duration != 0 {
    expiration = time.Now().Add(duration).UnixNano()
    db.ttl.add(ds.NewJob(string(key), time.Unix(0, expiration)))
} else {
    // If it is a key without an expiration time set
    // you may need to remove the previously set expiration time
    db.ttl.del(string(key))
}

接着在Del方法中,只需要简单的从时间堆删除对应的Job即可。

db.ttl.del(string(key))

测试

测试了正常的过期删除、数据库重启之后的过期删除(重构时间堆)、取消过期时间、对同一个 Key 再次 Put 来取消过期时间均无问题。具体实现可以查看CouloyDB/ttl_test.go at master · Kirov7/CouloyDB · GitHub

参与项目

目前项目还处于刚起步的状态,有很多功能还没有实现也有性能优化方面的事情要做,想要参与项目的朋友可以直接提 issue 或 pr,有什么问题也可以直接联系我,掘金私信或联系邮箱 bigboss2063@outlook.com

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
美凌格栋栋酱 美凌格栋栋酱
7个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Stella981 Stella981
3年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
Java日期时间API系列36
  十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰。二十四小时和十二时辰对照表:时辰时间24时制子时深夜11:00凌晨01:0023:0001:00丑时上午01:00上午03:0001:0003:00寅时上午03:00上午0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这
溢出苔藓
溢出苔藓
Lv1
江南二月多芳草,春在蒙蒙细雨中。
文章
4
粉丝
0
获赞
0