基于eBPF的开源工具Kindling之page-fault事件可观测性实现机制

富丽堂皇
• 阅读 1248

什么是page fault

在Linux内核中,每一个进程都有一个独立的虚拟地址空间,而进程本身感知不到真正的物理内存的存在(比如某进程感知到的内存是连续的,但是实际上它被分配的内存是物理内存中分散的空间)。MMU(内存管理单元)负责完成对于这种虚拟地址-物理内存地址的转换工作。Linux为每一个进程维护了一张页表,用于记录虚拟地址和物理内存地址之间的关系,并在进程运行时实时进行地址转换从而使得进程访问到真正的物理内存。
基于eBPF的开源工具Kindling之page-fault事件可观测性实现机制
图1 内存管理单元MMU

而我们要提到的page fault便是在这种场景下产生的,page fault大致可以分为三类:

  • major page fault:进程要访问的页面不在真正的物理内存中,可能需要从磁盘中载入(比如Linux开启了swap机制,内核通过LRU页面置换算法将页面置换到了磁盘中暂存),这个时候将会产生一个major page fault。
    基于eBPF的开源工具Kindling之page-fault事件可观测性实现机制

图2 swap页面置换机制

  • minor page fault:进程要访问的页面在物理内存中,但是MMU还没有建立进程的虚拟地址和相应物理地址的映射关系,这个时候就会触发soft page fault(比如说我们使用malloc函数在堆上申请内存,在进程不访问这片虚拟内存之前它的物理内存页是不会被实际分配的,当进程第一次访问使用malloc分配的内存空间时,由于会分配物理内存,这时候只需要再建立虚拟内存-物理内存的映射关系即可)。
  • invalid fault:就是segment fault,进程的内存越界。

在kindling中,我们重点关注前两种page fault,事实上,结合实际需求,我们其实往往只需要关注major page fault即可,因为minor page fault从某种意义上来说并不算是一种"fault",它是内核中普遍且常见的一种现象,而major page fault的出现往往意味着系统开始我们内存可能不太够用了,这时候我们就需要重点关注是哪些线程触发了这些major page fault,从而帮助我们更好的定位和排查问题。

有关page fault的tracepoint

Linux内核为page fault提供了tracepoint,/sys/kernel/debug/tracing/events/exceptions里面有相关的tracepoint结构体描述,/sys/kernel/debug/tracing/events/exceptions分为pagefaultkernel和pagefaultuser,对应于内核和用户态的page fault(内核也可能page fault,比如copyfromuser的时候)。我们打开里面的format文件可以看到如下结构:

name: page_fault_kernel
ID: 115
format:
  field:unsigned short common_type; offset:0; size:2; signed:0;
  field:unsigned char common_flags; offset:2; size:1; signed:0;
  field:unsigned char common_preempt_count; offset:3; size:1; signed:0;
  field:int common_pid; offset:4; size:4; signed:1;

  field:unsigned long address;  offset:8; size:8; signed:0;
  field:unsigned long ip; offset:16;  size:8; signed:0;
  field:unsigned long error_code; offset:24;  size:8; signed:0;

print fmt: "address=%pf ip=%pf error_code=0x%lx", (void *)REC->address, (void *)REC->ip, REC->error_code

name: page_fault_user
ID: 116
format:
  field:unsigned short common_type; offset:0; size:2; signed:0;
  field:unsigned char common_flags; offset:2; size:1; signed:0;
  field:unsigned char common_preempt_count; offset:3; size:1; signed:0;
  field:int common_pid; offset:4; size:4; signed:1;

  field:unsigned long address;  offset:8; size:8; signed:0;
  field:unsigned long ip; offset:16;  size:8; signed:0;
  field:unsigned long error_code; offset:24;  size:8; signed:0;

print fmt: "address=%pf ip=%pf error_code=0x%lx", (void *)REC->address, (void *)REC->ip, REC->error_code

这个结构里面有个error_code的字段,含义如下:

  • error_code:当异常发生时,硬件压入栈中的错误代码。
  • 当第0位被置0时,则异常是由一个不存在的页所引起的,否则是由无效的访问权限引起的。
  • 如果第1位被置0,则异常由读访问或者执行访问所引起,如果被设置,则异常由写访问引起。
  • 如果第2位被置0,则异常发生在内核态,否则异常发生在用户态。

    page fault事件可观测性实现方案

    方案一 基于switch等事件

    可在switch,execeve,fork,vfork,clone这些事件中引入pgftmaj,pgftmin等参数,区别于tracepoint的方式,其pgftmaj和pgftmin是通过内核的taskstruct结构体中的参数获取的。以switch为例,这种实现方式会在线程进行上下文切换时获取pgftmaj&pgft_min的值,这样做的好处是可以实时监测到每一次线程调度时的page fault的变化情况,对于单进程来说,这样的实现方式是没有太大问题的。但是在目前kindling的实现中,由于probe和collector之间通过unix socket domain来通信,经过文件系统进行跨进程的数据传输,经测试,通过文件系统进行跨进程通信对于大量的switch事件的性能敏感度是非常高的。

方案二 基于page fault事件

在kindling中,我们尝试在pagefaultuser和kernel的tracepoint点中获取进程结构体信息,从而实现这一部分功能,由于page_fault只在产生页错误时触发,因此事件数量得到了控制,避免了过多事件导致的性能问题。
基于eBPF的开源工具Kindling之page-fault事件可观测性实现机制
图3 page fault可观测性实现原理

总结

为了兼顾性能,我们选择了基于page fault tracepoint的方式来实现,并在其中通过内核task_struct补充所需参数的信息。整个机制以事件为驱动,只有当内核产生了page fault事件时才会对数据进行获取。我们可以通过page fault信息(尤其是major page fault)帮助我们定位和排查问题。

Kindling是一款基于eBPF的云原生可观测性开源工具,旨在帮助用户更好更快的定界云原生系统问题,并致力于打造云原生全故障域的定界能力。欢迎这方面的使用者和爱好者与我们联系。

加入我们
基于eBPF的开源工具Kindling之page-fault事件可观测性实现机制
关注我们
基于eBPF的开源工具Kindling之page-fault事件可观测性实现机制

点赞
收藏
评论区
推荐文章
blmius blmius
4年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
Wesley13 Wesley13
4年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Stella981 Stella981
4年前
Linux 内核 VS 内存碎片 (上)
(外部)内存碎片是一个历史悠久的Linux内核编程问题,随着系统的运行,页面被分配给各种任务,随着时间的推移内存会逐步碎片化,最终正常运行时间较长的繁忙系统可能只有很少的物理页面是连续的。由于Linux内核支持虚拟内存管理,物理内存碎片通常不是问题,因为在页表的帮助下,物理上分散的内存在虚拟地址空间仍然是连续的(除非使用大页),但对于需要从内核线性
Wesley13 Wesley13
4年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Wesley13 Wesley13
4年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
4年前
PHP创建多级树型结构
<!lang:php<?php$areaarray(array('id'1,'pid'0,'name''中国'),array('id'5,'pid'0,'name''美国'),array('id'2,'pid'1,'name''吉林'),array('id'4,'pid'2,'n
Wesley13 Wesley13
4年前
Java日期时间API系列36
  十二时辰,古代劳动人民把一昼夜划分成十二个时段,每一个时段叫一个时辰。二十四小时和十二时辰对照表:时辰时间24时制子时深夜11:00凌晨01:0023:0001:00丑时上午01:00上午03:0001:0003:00寅时上午03:00上午0
为什么mysql不推荐使用雪花ID作为主键
作者:毛辰飞背景在mysql中设计表的时候,mysql官方推荐不要使用uuid或者不连续不重复的雪花id(long形且唯一),而是推荐连续自增的主键id,官方的推荐是auto_increment,那么为什么不建议采用uuid,使用uuid究
Python进阶者 Python进阶者
2年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这