Go Mmap 文件内存映射简明教程

HelloWorld官方
• 阅读 2837

Go Mmap 文件内存映射简明教程

1 mmap 简介

In computing, mmap is a POSIX-compliant Unix system call that maps files or devices into memory. It is a method of memory-mapped file I/O. – mmap - wikipedia.org

简单理解,mmap 是一种将文件/设备映射到内存的方法,实现文件的磁盘地址和进程虚拟地址空间中的一段虚拟地址的一一映射关系。也就是说,可以在某个进程中通过操作这一段映射的内存,实现对文件的读写等操作。修改了这一段内存的内容,文件对应位置的内容也会同步修改,而读取这一段内存的内容,相当于读取文件对应位置的内容。

mmap 另一个非常重要的特性是:减少内存的拷贝次数。在 linux 系统中,文件的读写操作通常通过 read 和 write 这两个系统调用来实现,这个过程会产生频繁的内存拷贝。比如 read 函数就涉及了 2 次内存拷贝:

  • 1) 操作系统读取磁盘文件到页缓存;
  • 2) 从页缓存将数据拷贝到 read 传递的 buf 中(例如进程中创建的byte数组)。

mmap 只需要一次拷贝。即操作系统读取磁盘文件到页缓存,进程内部直接通过指针方式修改映射的内存。因此 mmap 特别适合读写频繁的场景,既减少了内存拷贝次数,提高效率,又简化了操作。KV数据库 bbolt 就使用了这个方法持久化数据。

2 标准库 mmap

Go 语言标准库 ==golang.org/x/exp/mmap== 仅实现了 read 操作,后续能否支持 write 操作未知。使用场景非常有限。看一个简单的例子:

从第4个byte开始,读取 tmp.txt 2个byte的内容。

package main

import (
    "fmt"
    "golang.org/x/exp/mmap"
)

func main() {
    at, _ := mmap.Open("./tmp.txt")
    buff := make([]byte, 2)
    _, _ = at.ReadAt(buff, 4)
    _ = at.Close()
    fmt.Println(string(buff))
}
$ echo "abcdefg" > tmp.txt
$ go run .
ef

如果使用 os.File 操作,代码几乎是一样的,os.File`` 还支持写操作 WriteAt

package main

import (
    "fmt"
    "os"
)

func main() {
    f, _ := os.OpenFile("tmp.txt", os.O_CREATE|os.O_RDWR, 0644)
    _, _ = f.WriteAt([]byte("abcdefg"), 0)

    buff := make([]byte, 2)
    _, _ = f.ReadAt(buff, 4)
    _ = f.Close()
    fmt.Println(string(buff))
}

3 mmap(linux)

如果要支持 write 操作,那么就需要直接调用 mmap 的系统调用来实现了。Linux 和 Windows 都支持 mmap,但接口有所不同。对于 linux 系统,mmap 方法定义如下:

func Mmap(fd int, offset int64, length int, prot int, flags int) (data []byte, err error)

每个参数的含义分别是:

- fd:待映射的文件描述符。
- offset:映射到内存区域的起始位置,0 表示由内核指定内存地址。
- length:要映射的内存区域的大小。
- prot:内存保护标志位,可以通过或运算符`|`组合
    - PROT_EXEC  // 页内容可以被执行
    - PROT_READ  // 页内容可以被读取
    - PROT_WRITE // 页可以被写入
    - PROT_NONE  // 页不可访问
- flags:映射对象的类型,常用的是以下两类
    - MAP_SHARED  // 共享映射,写入数据会复制回文件, 与映射该文件的其他进程共享。
    - MAP_PRIVATE // 建立一个写入时拷贝的私有映射,写入数据不影响原文件。

首先定义2个常量和数据类型Demo:

const defaultMaxFileSize = 1 << 30        // 假设文件最大为 1G
const defaultMemMapSize = 128 * (1 << 20) // 假设映射的内存大小为 128M

type Demo struct {
    file    *os.File
    data    *[defaultMaxFileSize]byte
    dataRef []byte
}

func _assert(condition bool, msg string, v ...interface{}) {
    if !condition {
        panic(fmt.Sprintf(msg, v...))
    }
}
  • 内存有换页机制,映射的物理内存可以远小于文件。
  • Demo结构体由3个字段构成,file 即文件描述符,data 是映射内存的起始地址,dataRef 用于后续取消映射。

定义 mmap, grow, ummap 三个方法:

func (demo *Demo) mmap() {
    b, err := syscall.Mmap(int(demo.file.Fd()), 0, defaultMemMapSize, syscall.PROT_WRITE|syscall.PROT_READ, syscall.MAP_SHARED)
    _assert(err == nil, "failed to mmap", err)
    demo.dataRef = b
    demo.data = (*[defaultMaxFileSize]byte)(unsafe.Pointer(&b[0]))
}

func (demo *Demo) grow(size int64) {
    if info, _ := demo.file.Stat(); info.Size() >= size {
        return
    }
    _assert(demo.file.Truncate(size) == nil, "failed to truncate")
}

func (demo *Demo) munmap() {
    _assert(syscall.Munmap(demo.dataRef) == nil, "failed to munmap")
    demo.data = nil
    demo.dataRef = nil
}
  • mmap 传入的内存保护标志位为 syscall.PROT_WRITE|syscall.PROT_READ,即可读可写,映射类型为 syscall.MAP_SHARED,即对内存的修改会同步到文件。

  • syscall.Mmap 返回的是一个切片对象,需要从该切片中获取到内存的起始地址,并转换为可操作的 byte 数组,byte数组的长度为 defaultMaxFileSize。

  • grow 用于修改文件的大小,Linux 不允许操作超过文件大小之外的内存地址。例如文件大小为 4K,可访问的地址是data[0~4095],如果访问 data[10000] 会报错。

  • munmap 用于取消映射。

在文件中写入 hello, world!

func main() {
    _ = os.Remove("tmp.txt")
    f, _ := os.OpenFile("tmp.txt", os.O_CREATE|os.O_RDWR, 0644)
    demo := &Demo{file: f}
    demo.grow(1)
    demo.mmap()
    defer demo.munmap()

    msg := "hello world!"

    demo.grow(int64(len(msg) * 2))
    for i, v := range msg {
        demo.data[2*i] = byte(v)
        demo.data[2*i+1] = byte(' ')
    }
}
  • 在调用mmap 之前,调用了grow(1),因为在mmap 中使用 &b[0]获取到映射内存的起始地址,所以文件大小至少为 1 byte

  • 接下来,便是通过直接操作 demo.data,修改文件内容了。

运行:

$ go run .
$ cat tmp.txt
h e l l o   w o r l d!
4 mmap(Windows)

相对于 Linux,Windows 上 mmap 的使用要复杂一些。

func (demo *Demo) mmap() {
    h, err := syscall.CreateFileMapping(syscall.Handle(demo.file.Fd()), nil, syscall.PAGE_READWRITE, 0, defaultMemMapSize, nil)
    _assert(h != 0, "failed to map", err)

    addr, err := syscall.MapViewOfFile(h, syscall.FILE_MAP_WRITE, 0, 0, uintptr(defaultMemMapSize))
    _assert(addr != 0, "MapViewOfFile failed", err)

    err = syscall.CloseHandle(syscall.Handle(h));
    _assert(err == nil, "CloseHandle failed")

    // Convert to a byte array.
    demo.data = (*[defaultMaxFileSize]byte)(unsafe.Pointer(addr))
}

func (demo *Demo) munmap() {
    addr := (uintptr)(unsafe.Pointer(&demo.data[0]))
    _assert(syscall.UnmapViewOfFile(addr) == nil, "failed to munmap")
}
  • 需要 CreateFileMappingMapViewOfFile 两步才能完成内存映射。MapViewOfFile 返回映射成功的内存地址,因此可以直接将该地址转换成 byte 数组。

  • Windows 对文件的大小没有要求,直接操作内存data,文件大小会自动发生改变。

使用时无需关注文件的大小。

func main() {
    _ = os.Remove("tmp.txt")
    f, _ := os.OpenFile("tmp.txt", os.O_CREATE|os.O_RDWR, 0644)
    demo := &Demo{file: f}
    demo.mmap()
    defer demo.munmap()

    msg := "hello world!"
    for i, v := range msg {
        demo.data[2*i] = byte(v)
        demo.data[2*i+1] = byte(' ')
    }
}
$ go run .
$ cat .	mp.txt
h e l l o   w o r l d !
点赞
收藏
评论区
推荐文章
blmius blmius
2年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Jacquelyn38 Jacquelyn38
2年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Easter79 Easter79
2年前
swap空间的增减方法
(1)增大swap空间去激活swap交换区:swapoff v /dev/vg00/lvswap扩展交换lv:lvextend L 10G /dev/vg00/lvswap重新生成swap交换区:mkswap /dev/vg00/lvswap激活新生成的交换区:swapon v /dev/vg00/lvswap
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
2年前
Java获得今日零时零分零秒的时间(Date型)
publicDatezeroTime()throwsParseException{    DatetimenewDate();    SimpleDateFormatsimpnewSimpleDateFormat("yyyyMMdd00:00:00");    SimpleDateFormatsimp2newS
Wesley13 Wesley13
2年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
2年前
Java日期时间API系列36
  十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰。二十四小时和十二时辰对照表:时辰时间24时制子时深夜11:00凌晨01:0023:0001:00丑时上午01:00上午03:0001:0003:00寅时上午03:00上午0
Wesley13 Wesley13
2年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
2年前
Docker 部署SpringBoot项目不香吗?
  公众号改版后文章乱序推荐,希望你可以点击上方“Java进阶架构师”,点击右上角,将我们设为★“星标”!这样才不会错过每日进阶架构文章呀。  !(http://dingyue.ws.126.net/2020/0920/b00fbfc7j00qgy5xy002kd200qo00hsg00it00cj.jpg)  2
Wesley13 Wesley13
2年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
2个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这