L&H SITE

Linux内核内存管理 - 缺页异常处理

2021-11-19T10:38:02.000Z

这是系列的第八篇:
第一篇为内核内存管理过程知识点的的简单梳理
第二篇介绍了内核的数据结构
第三篇介绍了从内核第一行代码加载到跳转到C代码前的内存处理。
第四篇概览了初始化C代码中的内存处理
第五篇（上）和第五篇（下）介绍了Memblock和伙伴系统分配器
第六篇介绍了内存检测工具KFence工作原理
第七篇介绍了进程内存分配malloc的原理
第八篇介绍了MMAP映射和反向映射原理

前言

Page Fault（缺页异常）大概是最为常见的异常，它发生在CPU访问不在内存的页时。本文以Intel IA32体系结构为例，介绍Linux对缺页异常的处理过程。

流程

Linux内核内存管理 - 文件mmap映射和反向映射

2021-11-13T13:45:55.000Z

这是系列的第八篇:
第一篇为内核内存管理过程知识点的的简单梳理
第二篇介绍了内核的数据结构
第三篇介绍了从内核第一行代码加载到跳转到C代码前的内存处理。
第四篇概览了初始化C代码中的内存处理
第五篇（上）和第五篇（下）介绍了Memblock和伙伴系统分配器
第六篇介绍了内存检测工具KFence工作原理
第七篇介绍了进程内存分配malloc的原理

mmap和munmap

mmap()的主要作用是将文件（普通文件或者设备文件）映射到进程的内存地址空间中，让应用程序可以以读写内存的方式来访问文件。与之对应的操作是munmap()。

一段示例代码来自维基百科如下：

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 

int main(void)
{
        const char str1[] = "string 1";
        const char str2[] = "string 2";
        pid_t parpid = getpid(), childpid;
        int fd = -1;
        char *anon, *zero;

        if ((fd = open("/dev/zero", O_RDWR, 0)) == -1)
                err(1, "open");

        anon = (char*)mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_ANON|MAP_SHARED, -1, 0);
        zero = (char*)mmap(NULL, 4096, PROT_READ|PROT_WRITE, MAP_SHARED, fd, 0);

        if (anon == MAP_FAILED || zero == MAP_FAILED)
                errx(1, "either mmap");

        strcpy(anon, str1);
        strcpy(zero, str1);

        printf("PID %d:\tanonymous %s, zero-backed %s\n", parpid, anon, zero);
        switch ((childpid = fork())) {
        case -1:
                err(1, "fork");
                /* NOTREACHED */
        case 0:
                childpid = getpid();
                printf("PID %d:\tanonymous %s, zero-backed %s\n", childpid, anon, zero);
                sleep(3);

                printf("PID %d:\tanonymous %s, zero-backed %s\n", childpid, anon, zero);
                munmap(anon, 4096);
                munmap(zero, 4096);
                close(fd);
                return EXIT_SUCCESS;
        }

        sleep(2);
        strcpy(anon, str2);
        strcpy(zero, str2);

        printf("PID %d:\tanonymous %s, zero-backed %s\n", parpid, anon, zero);
        munmap(anon, 4096);
        munmap(zero, 4096);
        close(fd);
        return EXIT_SUCCESS;
}

上述代码的输出是：

PID 22475:      anonymous string 1, zero-backed string 1
PID 22476:      anonymous string 1, zero-backed string 1
PID 22475:      anonymous string 2, zero-backed string 2
PID 22476:      anonymous string 2, zero-backed string 2

主要作用是创建了两个匿名映射，父进程和子进程可以通过匿名映射来访问共享的内存。

mmap和munmap的架构如图所示，与上篇文章中介绍的malloc()工作原理类似：

应用程序通过libc的API mmap()和munmap()来创建和销毁映射
libc执行对应的系统调用SYS_mmap和SYS_munmap等
mmap()，内核根据传入的地址，映射长度，文件信息进行VMA映射的创建
munmap()则根据地址信息进行VMA映射的删除

内核实现mmap的核心函数是do_mmap()：

unsigned long do_mmap(struct file *file, unsigned long addr,
unsigned long len, unsigned long prot,
unsigned long flags, unsigned long pgoff,
unsigned long *populate, struct list_head *uf)
{
struct mm_struct *mm = current->mm;
.....................
if ((prot & PROT_READ) && (current->personality & READ_IMPLIES_EXEC))
if (!(file && path_noexec(&file->f_path)))
prot |= PROT_EXEC;

/* force arch specific MAP_FIXED handling in get_unmapped_area */
if (flags & MAP_FIXED_NOREPLACE)
flags |= MAP_FIXED;

if (!(flags & MAP_FIXED))
addr = round_hint_to_min(addr);

/* Careful about overflows.. */
len = PAGE_ALIGN(len);
if (!len)
return -ENOMEM;

/* offset overflow? */
if ((pgoff + (len >> PAGE_SHIFT)) < pgoff)
return -EOVERFLOW;

/* Too many mappings? */
if (mm->map_count > sysctl_max_map_count)
return -ENOMEM;
.........
if (flags & MAP_NORESERVE) {
/* We honor MAP_NORESERVE if allowed to overcommit */
if (sysctl_overcommit_memory != OVERCOMMIT_NEVER)
vm_flags |= VM_NORESERVE;

/* hugetlb applies strict overcommit unless MAP_NORESERVE */
if (file && is_file_hugepages(file))
vm_flags |= VM_NORESERVE;
}

addr = mmap_region(file, addr, len, vm_flags, pgoff, uf);
if (!IS_ERR_VALUE(addr) &&
    ((vm_flags & VM_LOCKED) ||
     (flags & (MAP_POPULATE | MAP_NONBLOCK)) == MAP_POPULATE))
*populate = len;
return addr;
}

该函数主要就是根据输入参数做一系列检查，并根据参数配置vm_flags，最终传入mmap_region()函数开始创建映射。

unsigned long mmap_region(struct file *file, unsigned long addr,
unsigned long len, vm_flags_t vm_flags, unsigned long pgoff,
struct list_head *uf)
{
struct mm_struct *mm = current->mm;
struct vm_area_struct *vma, *prev, *merge;
int error;
struct rb_node **rb_link, *rb_parent;
unsigned long charged = 0;

/* Check against address space limit. */
if (!may_expand_vm(mm, vm_flags, len >> PAGE_SHIFT)) {
unsigned long nr_pages;
nr_pages = count_vma_pages_range(mm, addr, addr + len);

if (!may_expand_vm(mm, vm_flags,
(len >> PAGE_SHIFT) - nr_pages))
return -ENOMEM;
}

/* Clear old maps, set up prev, rb_link, rb_parent, and uf */
if (munmap_vma_range(mm, addr, len, &prev, &rb_link, &rb_parent, uf))
return -ENOMEM;
/*
 * Private writable mapping: check memory availability
 */
if (accountable_mapping(file, vm_flags)) {
charged = len >> PAGE_SHIFT;
if (security_vm_enough_memory_mm(mm, charged))
return -ENOMEM;
vm_flags |= VM_ACCOUNT;
}

vma = vma_merge(mm, prev, addr, addr + len, vm_flags,
NULL, file, pgoff, NULL, NULL_VM_UFFD_CTX);
if (vma)
goto out;

vma = vm_area_alloc(mm);
if (!vma) {
error = -ENOMEM;
goto unacct_error;
}

vma->vm_start = addr;
vma->vm_end = addr + len;
vma->vm_flags = vm_flags;
vma->vm_page_prot = vm_get_page_prot(vm_flags);
vma->vm_pgoff = pgoff;

if (file) {
if (vm_flags & VM_SHARED) {
error = mapping_map_writable(file->f_mapping);
if (error)
goto free_vma;
}

vma->vm_file = get_file(file);
error = call_mmap(file, vma);
if (error)
goto unmap_and_free_vma;

WARN_ON_ONCE(addr != vma->vm_start);

addr = vma->vm_start;

/* If vm_flags changed after call_mmap(), we should try merge vma again
 * as we may succeed this time.
 */
if (unlikely(vm_flags != vma->vm_flags && prev)) {
merge = vma_merge(mm, prev, vma->vm_start, vma->vm_end, vma->vm_flags,
NULL, vma->vm_file, vma->vm_pgoff, NULL, NULL_VM_UFFD_CTX);
if (merge) {
/* ->mmap() can change vma->vm_file and fput the original file. So
 * fput the vma->vm_file here or we would add an extra fput for file
 * and cause general protection fault ultimately.
 */
fput(vma->vm_file);
vm_area_free(vma);
vma = merge;
/* Update vm_flags to pick up the change. */
vm_flags = vma->vm_flags;
goto unmap_writable;
}
}

vm_flags = vma->vm_flags;
} else if (vm_flags & VM_SHARED) {
error = shmem_zero_setup(vma);
if (error)
goto free_vma;
} else {
vma_set_anonymous(vma);
}

/* Allow architectures to sanity-check the vm_flags */
if (!arch_validate_flags(vma->vm_flags)) {
error = -EINVAL;
if (file)
goto unmap_and_free_vma;
else
goto free_vma;
}

vma_link(mm, vma, prev, rb_link, rb_parent);
/* Once vma denies write, undo our temporary denial count */
unmap_writable:
if (file && vm_flags & VM_SHARED)
mapping_unmap_writable(file->f_mapping);
file = vma->vm_file;
out:
perf_event_mmap(vma);

vm_stat_account(mm, vm_flags, len >> PAGE_SHIFT);
if (vm_flags & VM_LOCKED) {
if ((vm_flags & VM_SPECIAL) || vma_is_dax(vma) ||
is_vm_hugetlb_page(vma) ||
vma == get_gate_vma(current->mm))
vma->vm_flags &= VM_LOCKED_CLEAR_MASK;
else
mm->locked_vm += (len >> PAGE_SHIFT);
}

if (file)
uprobe_mmap(vma);

/*
 * New (or expanded) vma always get soft dirty status.
 * Otherwise user-space soft-dirty page tracker won't
 * be able to distinguish situation when vma area unmapped,
 * then new mapped in-place (which must be aimed as
 * a completely new data area).
 */
vma->vm_flags |= VM_SOFTDIRTY;
vma_set_page_prot(vma);

return addr;
........
}

mmap_region()函数的实现也比较简单，这里不做过多解释。值得注意的是：如果传入的文件为空，则表示创建匿名映射。若连共享标记VM_SHARED也未指定，则与使用malloc()分配内存相同，仅为对应虚拟地址创建内存映射。

munmap()的内核实现仅为移除对应VMA映射，本文也不再做分析。

反向映射

反向映射的作用是给定物理页面，找到与其对应的所有进程的VMA。为什么会有这样的查找呢？这是因为所有进程的虚拟内存总大小往往远大于物理内存，为了支撑Linux系统的有效运作，内核在管理内存时，会将暂时不用的物理内存页换出到磁盘上，在有需要时再换入到内存中。

这种情况下，如何确定该物理内存有哪些进程正在使用？这便需要反向映射。

系统中内存页很多，在管理反向映射时，即使引入很小的数据结构，也会带来很大的额外内存开销。同时，因为反向映射使用比较频繁，也需要最优化查找效率，避免成为系统瓶颈。

回顾一下struct page，为了节省管理开销，其定义了很多联合体。其中与逆向映射有关的储存在mapping，_mapcount，index等成员中。

struct page {
union {
struct {/* Page cache and anonymous pages */
/**
 * @lru: Pageout list, eg. active_list protected by
 * lruvec->lru_lock.  Sometimes used as a generic list
 * by the page owner.
 */
struct list_head lru;
/* See page-flags.h for PAGE_MAPPING_FLAGS */
struct address_space *mapping;
pgoff_t index;/* Our offset within mapping. */
/**
 * @private: Mapping-private opaque data.
 * Usually used for buffer_heads if PagePrivate.
 * Used for swp_entry_t if PageSwapCache.
 * Indicates order in the buddy system if PageBuddy.
 */
unsigned long private;
};
.............
};

union {/* This union is 4 bytes in size. */
/*
 * If the page can be mapped to userspace, encodes the number
 * of times this page is referenced by a page table.
 */
atomic_t _mapcount;

unsigned int page_type;

unsigned int active;/* SLAB */
int units;/* SLOB */
};
.............
} _struct_page_alignment;

内核文档对这种映射有个直观的描述如下图:

简单一点讲：物理页结构体struct page使用mapping成员查找所有该页对应的VMA，从而找到所有正在使用该物理页的虚拟页。

mapping成员查找VMA的方法并非如上图那样容易理解。实际需要考虑很多情况，因此内核设计了如下数据结构：

/*
 * The anon_vma heads a list of private "related" vmas, to scan if
 * an anonymous page pointing to this anon_vma needs to be unmapped:
 * the vmas on the list will be related by forking, or by splitting.
 *
 * Since vmas come and go as they are split and merged (particularly
 * in mprotect), the mapping field of an anonymous page cannot point
 * directly to a vma: instead it points to an anon_vma, on whose list
 * the related vmas can be easily linked or unlinked.
 *
 * After unlinking the last vma on the list, we must garbage collect
 * the anon_vma object itself: we're guaranteed no page can be
 * pointing to this anon_vma once its vma list is empty.
 */
struct anon_vma {
struct anon_vma *root;/* Root of this anon_vma tree */
struct rw_semaphore rwsem;/* W: modification, R: walking the list */
atomic_t refcount;
unsigned degree;
struct anon_vma *parent;/* Parent of this anon_vma */
struct rb_root_cached rb_root;
};

/*
 * The copy-on-write semantics of fork mean that an anon_vma
 * can become associated with multiple processes. Furthermore,
 * each child process will have its own anon_vma, where new
 * pages for that process are instantiated.
 *
 * This structure allows us to find the anon_vmas associated
 * with a VMA, or the VMAs associated with an anon_vma.
 * The "same_vma" list contains the anon_vma_chains linking
 * all the anon_vmas associated with this VMA.
 * The "rb" field indexes on an interval tree the anon_vma_chains
 * which link all the VMAs associated with this anon_vma.
 */
struct anon_vma_chain {
struct vm_area_struct *vma;
struct anon_vma *anon_vma;
struct list_head same_vma;   /* locked by mmap_lock & page_table_lock */
struct rb_node rb;/* locked by anon_vma->rwsem */
unsigned long rb_subtree_last;
#ifdef CONFIG_DEBUG_VM_RB
unsigned long cached_vma_start, cached_vma_last;
#endif
};

事实上，数据结构定义有描述为什么需要这样的数据结构而不是直接由mapping指向vma_area_struct。即：vm_area_struct可能会被合并、拆分等。

下图描述了当fork一个新进程时，反向映射相关字段的变化状况。

Fork新进程会将每个VM area(vm_area_struct)进行复制
将每一个VM area的anon_vma_chain链表的anon_vma_chain进行复制，并与父进程的anon_vma关联
对每个VM area，创建新的anon_vma和anon_vma_chain，与父进程的anon_vma关联

这样的关联建立起来后，通过物理页结构体struct page就可以查找到所有的关联VM area。

结语

本文概要介绍了mmap和反向映射的原理。

mmap主要用于用户空间态进程映射一段虚拟地址，用以共享、分配内存或者使用访问内存的方式来访问文件节点。
反向映射用于内核查找一个物理页面对应的所有虚拟地址，以便系统换页时使用。

内存管理系统内容纷繁，也是内核工作者集体智慧的结晶，笔者在理解时不免有遗失或者偏差之处。如您有问题或者建议，请留言提出讨论。

Linux内核内存管理 - 进程内存

2021-11-03T13:45:55.000Z

这是系列的第七篇:
第一篇为内核内存管理过程知识点的的简单梳理
第二篇介绍了内核的数据结构
第三篇介绍了从内核第一行代码加载到跳转到C代码前的内存处理。
第四篇概览了初始化C代码中的内存处理
第五篇（上）和第五篇（下）介绍了Memblock和伙伴系统分配器
第六篇介绍了内存检测工具KFence工作原理

前言

malloc() 大概是在Linux平台上用户空间态编程，最常用的内存分配函数。大家可能会想，

这个函数是如何拿到内存的？内核如何为它做的映射？
另外，一个可执行程序有自己的代码和静态数据，内核如何将这个可执行程序代码加载到内存中执行？其对应的静态变量，全局变量等所需内存又是如何分配的？

以上问题是开发用户空间态程序时，容易被忽略的、甚至完全不会被注意到的问题。因为这些都是由程序所链接的C库和底层内核实现的，程序开发者往往无需在意这些细节。

一般情况下，这并不影响大家写出一个像样的程序。但是当面临一些疑难问题时，仅有如何使用C函数的知识，是无法胜任和处理的。

本文意在从以下几点剖析内核处理进程内存有关的过程:

进程创建过程的段映射
进程内存分配过程的堆映射

架构

下图简要描述了Linux内存管理架构：

用户空间态程序使用GLIBC来创建进程或管理内存

这里GLIBC并不是唯一选项，也有许多其替代。例如：musl Libc, 嵌入式设备常用的uClibc等。

内核态和用户空间态处理内存分配和进程管理的接口是系统调用。

当然除了系统调用之外，内核和用户空间态通信方式还有Netlink等。

malloc()、free()等函数并不会直接跟系统要内存，反而会在必要时才会使用系统调用向内核申请内存。
启动程序时，使用系统调用fork或者clone创建进程，调用execv加载ELF，为进程创建必要的数据结构、分配必要的内存和页表。
内核内存管理如系列文章所述，有按页分配的伙伴系统、更小级别的分配器SLAB。
系统调用通过虚拟地址映射管理VMA来为进程分配和管理内存。
内核根据需要，会将暂时不需要使用的进程内存换出。而当有使用需求时，再将对应内存换入。这就需要内核的缺页中断处理程序及换页机制来保障。

数据结构

内核为每个进程分配了一个数据结构task_struct，而其中管理内存的部分是mm_struct:

struct mm_struct {
struct vm_area_struct *mmap;/* list of VMAs */
struct rb_root mm_rb;
....
unsigned long mmap_base;/* base of mmap area */
...
unsigned long task_size;/* size of task vm space */
unsigned long highest_vm_end;/* highest vma end address */
pgd_t * pgd;
...
struct list_head mmlist;
unsigned long total_vm;   /* Total pages mapped */
unsigned long locked_vm;   /* Pages that have PG_mlocked set */
atomic64_t    pinned_vm;   /* Refcount permanently increased */
unsigned long data_vm;   /* VM_WRITE & ~VM_SHARED & ~VM_STACK */
unsigned long exec_vm;   /* VM_EXEC & ~VM_WRITE & ~VM_STACK */
unsigned long stack_vm;   /* VM_STACK */
...
unsigned long start_code, end_code, start_data, end_data;
unsigned long start_brk, brk, start_stack;
unsigned long arg_start, arg_end, env_start, env_end;
...
struct linux_binfmt *binfmt;
...
};

其中所结构体栏位的意义标注如下图：

mmap_base指向进程的MMAP空间
brk和start_brk分别指向进程堆的当前位置（若进程需要申请更大的堆，则从该位置开始分配）和起始地址。
start_code和end_code分别指向代码段的起始地址和结束地址。
start_data和end_data分别指向数据段的起始地址和结束地址。
start_stack指向栈的初始地址。
除此之外，还有为该进程参数、环境变量所分配的内存(arg_start/arg_end/env_start/env_end)。

以上地址皆为虚拟地址，是内核进程启动的过程中，由内核所初始化。

mmap和mm_rb下管理内核所以为该进程分配的虚拟内存，分别使用红黑树和链表管理。
pgd指向该进程的页目录

进程创建时内存管理

您可能会想知道，前一节所提及的那些段地址，内核是如何确定的？其实这跟ELF格式有关。

所有的Linux进程都遵循ELF格式，在链接的过程中，链接器按照Linker Script的指定将程序打包成ELF。

如果没有明确指定，GCC会指定一个默认的Linker Script

内核创建进程时，会初始化mm_struct。
内核加载进程的过程中，按照ELF头部信息为该进程分配内存。

一张图描述上述过程。

内核加载进程执行，也遵守ELF规范，在此期间为进程分配虚拟内存VMA。

内存分配

用户空间态

使用musl Libc来对malloc()进行介绍。

没有选择Glibc分析的原因，是因为没有搞懂Systemtap的原理。使用musl Libc分析不会影响理解。

static void *__simple_malloc(size_t n)
{
static uintptr_t brk, cur, end;
static unsigned mmap_step;
size_t align=1;
void *p;

if (n > SIZE_MAX/2) {
errno = ENOMEM;
return 0;
}

if (!n) n++;
while (align
align += align;

LOCK(lock);

cur += -cur & align-1;

if (n > end-cur) {
size_t req = n - (end-cur) + PAGE_SIZE-1 & -PAGE_SIZE;

if (!cur) {
brk = __syscall(SYS_brk, 0);
brk += -brk & PAGE_SIZE-1;
cur = end = brk;
}

if (brk == end && req < SIZE_MAX-brk
    && !traverses_stack_p(brk, brk+req)
    && __syscall(SYS_brk, brk+req)==brk+req) {
brk = end += req;
} else {
int new_area = 0;
req = n + PAGE_SIZE-1 & -PAGE_SIZE;
/* Only make a new area rather than individual mmap
 * if wasted space would be over 1/8 of the map. */
if (req-n > req/8) {
/* Geometric area size growth up to 64 pages,
 * bounding waste by 1/8 of the area. */
size_t min = PAGE_SIZE<<(mmap_step/2);
if (min-n > end-cur) {
if (req < min) {
req = min;
if (mmap_step < 12)
mmap_step++;
}
new_area = 1;
}
}
void *mem = __mmap(0, req, PROT_READ|PROT_WRITE,
MAP_PRIVATE|MAP_ANONYMOUS, -1, 0);
if (mem == MAP_FAILED || !new_area) {
UNLOCK(lock);
return mem==MAP_FAILED ? 0 : mem;
}
cur = (uintptr_t)mem;
end = cur + req;
}
}

p = (void *)cur;
cur += n;
UNLOCK(lock);
return p;
}
weak_alias(__simple_malloc, __libc_malloc_impl);

void *__libc_malloc(size_t n)
{
return __libc_malloc_impl(n);
}

这段代码比较容易理解,我们只关注其中__syscall(SYS_brk, ….)。它的作用就是使用brk这个系统调用向内核要内存。

weak_alias的定义如下：

1	##define weak_alias(old,new) __attribute__((__weak__, __alias__(old)))

其中Weak Alias的意义即给old symbol设置一个别名new。

内核空间态

内核空间态处理brk系统调用的代码如下：

首先做一些必要的检查，如检查所申请的堆大小是否超过系统的rlimit，出错则退出返回错误。解释如下：

RLIMIT_DATA
The maximum size of the process’s data segment (initialized data, uninitialized data, and heap). This limit affects calls to brk(2) and sbrk(2), which fail with the error ENOMEM upon encountering the soft limit of this resource.

如果当前brk大于所需brk，则将多出的部分从该进程的堆VM映射中移除并返回。
如果当前brk小于所需brk，则为其扩展堆的VM映射并返回。

SYSCALL_DEFINE1(brk, unsigned long, brk)
{
unsigned long newbrk, oldbrk, origbrk;
struct mm_struct *mm = current->mm;
struct vm_area_struct *next;
unsigned long min_brk;
bool populate;
bool downgraded = false;
LIST_HEAD(uf);

if (mmap_write_lock_killable(mm))
return -EINTR;

origbrk = mm->brk;

#ifdef CONFIG_COMPAT_BRK
/*
 * CONFIG_COMPAT_BRK can still be overridden by setting
 * randomize_va_space to 2, which will still cause mm->start_brk
 * to be arbitrarily shifted
 */
if (current->brk_randomized)
min_brk = mm->start_brk;
else
min_brk = mm->end_data;
#else
min_brk = mm->start_brk;
#endif
if (brk < min_brk)
goto out;

/*
 * Check against rlimit here. If this check is done later after the test
 * of oldbrk with newbrk then it can escape the test and let the data
 * segment grow beyond its set limit the in case where the limit is
 * not page aligned -Ram Gupta
 */
if (check_data_rlimit(rlimit(RLIMIT_DATA), brk, mm->start_brk,
      mm->end_data, mm->start_data))
goto out;

newbrk = PAGE_ALIGN(brk);
oldbrk = PAGE_ALIGN(mm->brk);
if (oldbrk == newbrk) {
mm->brk = brk;
goto success;
}

/*
 * Always allow shrinking brk.
 * __do_munmap() may downgrade mmap_lock to read.
 */
if (brk <= mm->brk) {
int ret;

/*
 * mm->brk must to be protected by write mmap_lock so update it
 * before downgrading mmap_lock. When __do_munmap() fails,
 * mm->brk will be restored from origbrk.
 */
mm->brk = brk;
ret = __do_munmap(mm, newbrk, oldbrk-newbrk, &uf, true);
if (ret < 0) {
mm->brk = origbrk;
goto out;
} else if (ret == 1) {
downgraded = true;
}
goto success;
}

/* Check against existing mmap mappings. */
next = find_vma(mm, oldbrk);
if (next && newbrk + PAGE_SIZE > vm_start_gap(next))
goto out;

/* Ok, looks good - let it rip. */
if (do_brk_flags(oldbrk, newbrk-oldbrk, 0, &uf) < 0)
goto out;
mm->brk = brk;

success:
populate = newbrk > oldbrk && (mm->def_flags & VM_LOCKED) != 0;
if (downgraded)
mmap_read_unlock(mm);
else
mmap_write_unlock(mm);
userfaultfd_unmap_complete(mm, &uf);
if (populate)
mm_populate(oldbrk, newbrk - oldbrk);
return brk;

out:
mmap_write_unlock(mm);
return origbrk;
}

VMA

要更进一步理解以上过程，皆需理解VMA的管理方式。引用<深入理解Linux内核架构>一书的介绍：

如果一个新区域紧接着现存区域前后直接添加(因此也包括在两个现存区域之间的情况)，内核将涉及的数据结构合并为一个。当然，前提是涉及的所有区域的访问权限相同，而且是从同一后备存储器映射的连续数据。
如果在区域的开始或结束处进行删除，则必须据此截断现存的数据结构。
如果删除两个区域之间的一个区域，那么一方面需要减小现存数据结构的长度，另一方面需
要为形成的新区域创建一个新的数据结构。

代码部分不做进一步分析，大家可以直接看内核源码或者找相关资料学习。

结语

本文概要介绍了Linux内核对进程内存的管理方式。主要有：

进程内存管理架构
进程加载执行时内存分配
堆管理
VMA的管理方式

进程内存管理还涉及到以下知识，将会在之后的文章中介绍：

内存映射mmap
反向映射
缺页管理

MAC运行Virtual Box时"The support driver is not installed"解决

2021-10-17T00:52:17.000Z

注意：这只是一个Work Around方法，并非完全解决方案

背景

MAC升级Big Sur后，每次运行Virtual Box都会有如下报错：

Kernel driver not installed (rc=-1908)

Make sure the kernel module has been loaded successfully.

where: suplibOsInit what: 3 VERR_VM_DRIVER_NOT_INSTALLED (-1908) - The support driver is not installed. On linux, open returned ENOENT.

CSDN这篇文章介绍得很详细，但不够完整，这里做一下补充

下载安装Extension

到Virtual Box官网下载Extension Pack并安装，如下图：

下载安装时，如果被系统安全阻拦，可以在“安全与隐私”设置里信任相关程序的执行。

执行kext

这里很奇怪，无论怎么安装重启，在我的电脑上，对应的Driver总不能开机自动运行(这也是前文说这是Workaround的原因)，因此每次重新开机后还必须执行一次如下命令：

1	sudo kextload -b org.virtualbox.kext.VBoxDrv

接着再运行Virtual Box就不会报错了。

后续若找到自动加载的方法，可以再交流讨论更新

简单说明

这里说明一下，会有以上报错的主要原因就是MAC High Sierra，开始逐渐淘汰运行在内核态的驱动，改推荐（甚至强制推行）厂商改用System Extension来开发驱动，于是乎，各种兼容性问题就来了。

这也是Apple强硬的一点。当然反之使用System Extension是有好处的，希望Oracle后续看如何更好地兼容新的MAC OS。

Linux内核内存管理 - KFENCE

2021-10-16T12:16:55.000Z

这是系列的第六篇
第一篇为内核内存管理过程知识点的的简单梳理
第二篇介绍了内核的数据结构
第三篇介绍了从内核第一行代码加载到跳转到C代码前的内存处理。
第四篇概览了初始化C代码中的内存处理
第五篇（上）和第五篇（下）介绍了Memblock和伙伴系统分配器

前言

Kernel Electric-Fence (KFENCE)是5.12版本内核新引入的内存使用错误检测机制。它可以检查的错误有：

内存访问越界
释放后使用
无效释放

显然，它可以检测的内存错误类型不如KASAN多。但与KASAN相比，它最大的优势是运行时小Overhead，可以直接用在生产环境中。因此在X86，ARM64，RISCV等平台上均默认开启。

在Arch对应的defconfig中使用CONFIG_HAVE_ARCH_KFENCE开启。

架构及原理

Kfence的原理比较简单，如下图：

初始化

初始化过程中，KFENCE向Memblock申请一段内存，作为KFENCE内存池。
- 这个内存池的大小配置为CONFIG_KFENCE_NUM_OBJECTS
- 即，预留两个页面作为保护页（Guard Page），接着为每一个用于分配的内存页分配一个Guard Page。因此总大小为：

1	#define KFENCE_POOL_SIZE ((CONFIG_KFENCE_NUM_OBJECTS + 1) * 2 * PAGE_SIZE)

初始化一个Delayed Worker，定期（CONFIG_KFENCE_SAMPLE_INTEVAL）重置kfence_alloc_gate值为0。

这个值可以通过sysfs修改

分配

kfence_alloc_gate值为0时，使用kmem_cache_alloc所作的内存分配从KFENCE内存池中分配，并增加kfence_alloc_gate的值。kfence_alloc_gate值大于等于1时，直接从SLUB中分配。由此可以看出，kfence是基于采样的内存检测。

大于一个Page(4K)的分配不会从KFENCE Pool中分配

每次通过KFENCE进行内存分配时，都会从KFENCE内存池分配一个内存页和一个Guard Page，并在实际使用内存的两端内存填充Canary数据。

解释一下为什么保护数据叫Canary。这是因为在19世纪，金丝雀在采矿业中常用的毒气检测方法，因为它们比人类对毒气更为敏感反应也更快。

如果KFENCE内存池中没有可用内存，则直接从SLAB中分配。

释放

释放时，检查Canary数据，将所用内存放回KFENCE内存池。

检测报错

在以下情况，会检测报错：

释放时发现Canary数据不对。
当KFENCE内存池的内存区域发生Page Fault时，它或者是因为越界访问、或者是释放后使用。
无效释放：当一段KFENCE内存没有被标记分配，但对齐释放时，会有相应报错提示。

总结

开源社区总能带来新的idea。KFENCE，克服了KASAN等工具需要占用大量内存且影响运行时性能的缺点，是一个有效地运行时内存访问错误检测工具。

当然，因为它所针对的内存区域仅仅是KFENCE内存池，且其是周期性进行采样，检测效果还不得而知。其又有可以动态开关、参数可调节等优点，这些劣势或许也不是问题。后续若有时间可以研究分析对比其和KASAN的检测效果。

PlantUML主题选项

2021-10-10T00:10:24.000Z

前言

PlantUML可以算是最成功最知名的开源绘图工具了，它可以方便地将您输入文字型描述，转化成您想要的各种图（当然，要遵循其语法）。近日，在做流程图的时候，到网站上去翻语法，赫然发现其增加了一个新的主题功能。

用法

用法也很简单, 在文件头部增加如下配置即可：

1	!theme 主题名

例如，如下图采用内置的spacelab主题：

@startuml
!theme spacelab
Bob -> Alice :  hello
Bob <- Alice :  $success("success: hello B.")
Bob -x Alice :  $failure("failure")
Bob ->> Alice : $warning("warning")
@enduml

效果如下：

除了内置主题，也支持本地主题：

1	!theme 主题名 from /本地/摆放/主题的路径

互联网主题也支持，例如：

1	!theme 主题名 from https://raw.githubusercontent.com/plantuml/plantuml/master/themes

内置主题

您可以使用如下代码查看PLANTUML支持哪些内置主题：

1
2
3

@startuml
help themes
@enduml

目前plantuml支持如下内置主题，为了方便大家选用，我将所有的示例图显示出来（P.S. 个人比较喜欢sketchy）：

总结

本文介绍了PlantUML的主题，将内置主题的样式全部呈现出来供参考。这类开发实用工具其实很多，本人后续也会推荐一些优秀的工具给大家。本站的链接栏也有一些链接可以参考。

Linux内核内存管理 - SLUB

2021-10-07T02:48:24.000Z

这是系列的第六篇
第一篇为内核内存管理过程知识点的的简单梳理
第二篇介绍了内核的数据结构
第三篇介绍了从内核第一行代码加载到跳转到C代码前的内存处理。
第四篇概览了初始化C代码中的内存处理
第五篇（上）和第五篇（下）介绍了Memblock和伙伴系统分配器
为了避免晦涩难懂，本文及之后均主要使用图表+文字描述，尽量避免涉及过多代码。专注点会在：
背景
架构及其思想
流程
特殊处理及其原因

前言

网络上介绍SLAB/SLUB的文章很多，也都很详细，本文以当前内核版本(5.14.X)来介绍被广泛采用的SLAB内存管理，希望尽可能地做到详尽易理解。一些更多的参考资料见，文中不再另外标注引用：

kmalloc/kfree 大概是内核最常用的内存分配和释放函数，其背后的实现就是SLAB分配器。而SLUB是SLAB分配器的一种实现，另外的两种实现分别是SLAB和SLOB。从命名也可以看出SLAB是鼻祖，随着内核的发展，演进出了SLOB和SLUB分配器。

SLOB分配器是为了应对嵌入式设备内存管理的特殊需求而生
SLUB则是在SLAB的基础上演进而来，可以很好地适应各种平台的需求，更为有效地使用内存，同时增强了调试的容易度。

SLAB分配器解决的是什么问题？这个问题可以换种方式来问，为什么有了Buddy System，还要用SLAB分配器？解释如下：

伙伴系统是以页为单位进行管理的，每页的大小一般为4096字节。内核程序在申请内存时，往往不会刚好申请页大小的倍数，如果我们按页进行分配，没过多久系统内存就会被耗尽。
因为上述原因，必须采用更小的单位对内存进行管理。这需要考虑频繁内存分配释放造成的内存碎片问题。与此同时，需要考虑如何更有效地利用CPU缓存，以及尽量避免访问同一块内存区域造成的静态，等等。

为什么这三种分配器又都是SLAB分配器的实现？这是因为这三种分配器采用一样的数据结构名称和内存分配/释放API（注意，仅仅是“名称”一样）。例，其管理结构体，都叫struct kmem_cache。

内核配置

前言讲到，SLAB/SLOB/SLUB采用相同的API，相同的结构体，那么他们一定是相互排他的，这从内核定义KConfig也可以看出：

choice
prompt "Choose SLAB allocator"
default SLUB
help
   This option allows to select a slab allocator.

config SLAB
bool "SLAB"
select HAVE_HARDENED_USERCOPY_ALLOCATOR
help
  The regular slab allocator that is established and known to work
  well in all environments. It organizes cache hot objects in
  per cpu and per node queues.

config SLUB
bool "SLUB (Unqueued Allocator)"
select HAVE_HARDENED_USERCOPY_ALLOCATOR
help
   SLUB is a slab allocator that minimizes cache line usage
   instead of managing queues of cached objects (SLAB approach).
   Per cpu caching is realized using slabs of objects instead
   of queues of objects. SLUB can use memory efficiently
   and has enhanced diagnostics. SLUB is the default choice for
   a slab allocator.

config SLOB
depends on EXPERT
bool "SLOB (Simple Allocator)"
help
   SLOB replaces the stock allocator with a drastically simpler
   allocator. SLOB is generally more space efficient but
   does not perform as well on large systems.

endchoice

从中默认选项就是SLUB。

KConfig相关知识可以参考KConfig Language

架构

SLAB（下文中SLAB也统一代表SLUB）在系统中的位置如Figure 1所示.

简单说明如下:

内存管理系统的最大管理单位是Node，被划分为多个Memory Zone（ToDo: 上一章Buddy System和第二章补充图片示意）。
在进行Page分配时（Page分配还记得吗？可以参考第五篇（上）和第五篇（下）对Buddy System的介绍），是依据分配传入的参数，选择从哪个Memory Zone分配内存。
SLAB的分配需要kmem_cache管理结构，而这些管理结构所需的内存也是从的kmem_cache来的。这里内核做了很巧妙的设计:
- 建立kmem_cache的slab所需的slab初始管理对象是boot_kmem_cache和boot_kmem_cache_node。它们被__init属性修饰，表示将会被放到.init.data段，并在内核初始化的后半段释放。
- 在整个SLAB系统初始化过程中，会从boot_kmem_cache和boot_kmem_cache_node指向的SLAB，分配出全局SLAB对象kmem_cache和kmem_cache_node。
- 之后将boot_kmem_cache和boot_kmem_cache_node内容拷贝到kmem_cache和kmem_cache_node。
- 至此，使用全局SLAB对象kmem_cache和kmem_cache_node来进行SLUB管理。
kmalloc的内存也是内核初始化早期分配的。其实质上是建立了大小分别为2, 4, 8, ….的SLAB对象。

源文件

下表介绍SLAB及SLUB相关内核源文件：

文件	描述
slab.c	SLAB分配器（三个分配器之一）的实现
slab.h	所有SLAB分配器的头文件定义
slob.c	SLOB分配器的实现
slub.c	SLUB分配器的实现
slab_common.c	所有SLAB分配器公用的，与实现无关的函数。大部分都会调用到具体的某个分配器。

数据结构

SLAB的重要的数据结构有三个，其内容和相互关系如下图：

其中：

kmem_cache代表一个SLAB对象
kmem_cache_cpu里存储了该SLAB对象在CPU本地的资源，这里__percpu修饰表示这是一个Per CPU对象（每个CPU有一份拷贝）
kmem_cache_node是一个数组，每个数组成员代表该SLAB对象在每个内存结点的内存资源。

管理方式

SLUB的管理方式如下图：

简单描述如下：

每个SLUB管理结构分别有多个cpu本地slab和node slab。
SLUB刚建立时，只有对应的管理结构。
SLUB分配内存时
- 若此时该对象中没有页面可用，则从伙伴系统中分配页面、挂到cpu本地slab上，从中返回一个所需内存。
- 若此时该对象中有可用页面，则从中分配内存。
- 若当前kmem_cache_cpu已经没有可用页面(kmem_cache_cpu的freelist和partial所指向页都满)，则从kmem_cache_node的partial处分配内存

这样处理可以保证总是优先从该cpu的cache区域分配，提升资源的访问速度。

释放内存：会先将内存释放到该内存所在页。释放有如下情况：

场景	释放方式
释放前该页上内存已经全部使用，per cpu partial链表上的空闲可用内存总数 > kmem_cache.cpu_partial	1. 将kmem_cache_cpu的partial链表上的页挂到per node partial。 2.将该内存所在页放回kmem_cache_cpu的partial链表
释放前该页上内存已经全部使用，per cpu partial链表上的空闲可用内存总数 <= kmem_cache.cpu_partial	将该内存所在页放回kmem_cache_cpu的partial链表
1. 该页在per node partial 2.释放后，该页呈未分配状态 3.kmem_cache_node.nr_partial > kmem_cache.min_partial	将该页归还给伙伴系统
其他	/

设置阈值的主要目的是为了避免SLAB占用过多的内存页，导致系统中其他对象想要分配内存时拿不到内存。

总结

本文介绍了SLAB内存分配器，其是整个系统运行中，起重要且主要作用的内存分配器。介绍了：

SLAB分配器的分类
SLUB分配器的架构
SLUB分配器的逻辑原理

希望对您分析内核代码有所帮助。

Linux内核内存管理 - Memblock和Buddy System(2)

2021-10-03T00:59:16.000Z

书接前文，本文介绍《Memblock和Buddy System》的第二篇，第一篇见前文

伙伴系统

Mem Block向Buddy System过渡

伙伴系统便是使用页为单位对内存进行管理的方法。伙伴系统接管前，处理建立mem_section结构，也必须先从Mem Block中释放出不再使用的内存交给伙伴系统管理。本文Figure 2中略有体现，实现这个过渡的函数是memblock_free_all:

void __init memblock_free_all(void)
{
unsigned long pages;

free_unused_memmap();
reset_all_zones_managed_pages();
pages = free_low_memory_core_early();
totalram_pages_add(pages);
}

free_unused_memmap 释放未使用mem_map内存。
reset_all_zones_managed_pages 作用是将所有节点所有区域的managed_pages自动设置为0（managed_pages表示被伙伴系统管理的页的数量）。
_free_low_memory_core_early_主要做两个动作：
- 将reserve类型的memblock和明确标记为Memory None的内存对应的页做标记为reserved(PG_reserved)
- 将Mem block类型为memory的区域free掉，并标记为Free页面
_totalram_pages_add_增加 _totalram_pages ，用于标记系统中可用总页数。

管理方式

伙伴系统的管理方式可以参考<Understanding the Linux® Virtual Memory Manager>的图：

每个内存区域(zone)，都有一个链表数组，数组元素用来存放 $2^{Order}$个页的链表。内存的分配和释放便围绕着这个表来管理。

数据结构

数据结构一文，我们已经介绍的struct page/struct zone/struct pglist_data等数据结构。我们回顾其中部分字段：

//include/linux/mmzone.h
struct zone {
    ...
struct pglist_data*zone_pgdat;
    ...
/* zone_start_pfn == zone_start_paddr >> PAGE_SHIFT */
unsigned longzone_start_pfn;
    ...
atomic_long_tmanaged_pages; //managed_pages = present_pages - reserved_pages;
unsigned longspanned_pages; //spanned_pages = zone_end_pfn - zone_start_pfn;
unsigned longpresent_pages; //present_pages = spanned_pages - absent_pages(pages in holes);
#ifdef CONFIG_CMA
unsigned longcma_pages;
#endif
    ...
/* free areas of different sizes */
struct free_areafree_area[MAX_ORDER];
    ...
} ____cacheline_internodealigned_in_smp;

zone

zone_pgdat: 表示该内存区域所在的内存结点
zone_start_pfn: 表示该内存区域的起始页帧号
managed_pages: 表示该区域内由伙伴系统管理的页数
spanned_pages: 表示该区域跨越的总页数
present_pages：表示该区域内去掉内存空洞的总页数（含系统保留页）
free_area: 如前文，存放伙伴系统有关的可用区域。

typedef struct pglist_data {
/*
 * node_zones contains just the zones for THIS node. Not all of the
 * zones may be populated, but it is the full list. It is referenced by
 * this node's node_zonelists as well as other node's node_zonelists.
 */
struct zone node_zones[MAX_NR_ZONES];
/*
 * node_zonelists contains references to all zones in all nodes.
 * Generally the first zones will be references to this node's
 * node_zones.
 */
struct zonelist node_zonelists[MAX_ZONELISTS];
    ...
wait_queue_head_t kswapd_wait;
...
struct task_struct *kswapd;/* Protected by
   mem_hotplug_begin/end() */
int kswapd_order;
enum zone_type kswapd_highest_zoneidx;
int kswapd_failures;/* Number of 'reclaimed == 0' runs */
unsigned longtotalreserve_pages;
    ...
} pg_data_t;

pglist_data

node_zones: 该数组存储该内存节点内所有的内存区域
node_zonelists：保护所有内存节点中所有内存区域的应用
kswapd_wait、kswapd、kswapd_order等: kswpad线程运行所需字段。

内存分配

内存分配使用alloc_pages*系列函数，其核心代码__alloc_pages代码如下：

struct page *__alloc_pages(gfp_t gfp, unsigned int order, int preferred_nid,
nodemask_t *nodemask)
{
    ....
    ....
if (!prepare_alloc_pages(gfp, order, preferred_nid, nodemask, &ac,
&alloc_gfp, &alloc_flags))
return NULL;
    ....
/* First allocation attempt */
page = get_page_from_freelist(alloc_gfp, order, alloc_flags, &ac);
if (likely(page))
goto out;
    ...
page = __alloc_pages_slowpath(alloc_gfp, order, &ac);

out:
if (memcg_kmem_enabled() && (gfp & __GFP_ACCOUNT) && page &&
    unlikely(__memcg_kmem_charge_page(page, gfp, order) != 0)) {
__free_pages(page, order);
page = NULL;
}

trace_mm_page_alloc(page, order, alloc_gfp, ac.migratetype);

return page;
}

代码很多，但是核心部分就是下面三个函数：

prepare_alloc_pages: 主要作用是，分配前准备页面分配的上下文，特别是选取合适的内存节点的内存区域（Zone）

static inline bool prepare_alloc_pages(gfp_t gfp_mask, unsigned int order,
int preferred_nid, nodemask_t *nodemask,
struct alloc_context *ac, gfp_t *alloc_gfp,
unsigned int *alloc_flags)
{
ac->highest_zoneidx = gfp_zone(gfp_mask);
ac->zonelist = node_zonelist(preferred_nid, gfp_mask);
ac->nodemask = nodemask;
ac->migratetype = gfp_migratetype(gfp_mask);
    
    ........
/*
 * The preferred zone is used for statistics but crucially it is
 * also used as the starting point for the zonelist iterator. It
 * may get reset for allocations that ignore memory policies.
 */
ac->preferred_zoneref = first_zones_zonelist(ac->zonelist,
ac->highest_zoneidx, ac->nodemask);

return true;
}

get_page_from_freelist: 作用是根据传入的分配参数不断尝试来分配内存。同样引用<Understanding the Linux® Virtual Memory Manager>的图，当所需order的页数不足时，会将更大order的free_area拆分来满足返回对应的page指针。当无法分配成功时，则返回NULL。

static struct page *
get_page_from_freelist(gfp_t gfp_mask, unsigned int order, int alloc_flags,
const struct alloc_context *ac)
{
struct zoneref *z;
struct zone *zone;
struct pglist_data *last_pgdat_dirty_limit = NULL;
bool no_fallback;

retry:
/*
 * Scan zonelist, looking for a zone with enough free.
 * See also __cpuset_node_allowed() comment in kernel/cpuset.c.
 */
no_fallback = alloc_flags & ALLOC_NOFRAGMENT;
z = ac->preferred_zoneref;
for_next_zone_zonelist_nodemask(zone, z, ac->highest_zoneidx,
ac->nodemask) {
struct page *page;
unsigned long mark;

if (cpusets_enabled() &&
(alloc_flags & ALLOC_CPUSET) &&
!__cpuset_zone_allowed(zone, gfp_mask))
continue;
if (ac->spread_dirty_pages) {
if (last_pgdat_dirty_limit == zone->zone_pgdat)
continue;

if (!node_dirty_ok(zone->zone_pgdat)) {
last_pgdat_dirty_limit = zone->zone_pgdat;
continue;
}
}

if (no_fallback && nr_online_nodes > 1 &&
    zone != ac->preferred_zoneref->zone) {
int local_nid;

/*
 * If moving to a remote node, retry but allow
 * fragmenting fallbacks. Locality is more important
 * than fragmentation avoidance.
 */
local_nid = zone_to_nid(ac->preferred_zoneref->zone);
if (zone_to_nid(zone) != local_nid) {
alloc_flags &= ~ALLOC_NOFRAGMENT;
goto retry;
}
}

mark = wmark_pages(zone, alloc_flags & ALLOC_WMARK_MASK);
if (!zone_watermark_fast(zone, order, mark,
       ac->highest_zoneidx, alloc_flags,
       gfp_mask)) {
int ret;

            ...
/* Checked here to keep the fast path fast */
BUILD_BUG_ON(ALLOC_NO_WATERMARKS < NR_WMARK);
if (alloc_flags & ALLOC_NO_WATERMARKS)
goto try_this_zone;

if (!node_reclaim_enabled() ||
    !zone_allows_reclaim(ac->preferred_zoneref->zone, zone))
continue;

ret = node_reclaim(zone->zone_pgdat, gfp_mask, order);
switch (ret) {
case NODE_RECLAIM_NOSCAN:
/* did not scan */
continue;
case NODE_RECLAIM_FULL:
/* scanned but unreclaimable */
continue;
default:
/* did we reclaim enough */
if (zone_watermark_ok(zone, order, mark,
ac->highest_zoneidx, alloc_flags))
goto try_this_zone;

continue;
}
}

try_this_zone:
page = rmqueue(ac->preferred_zoneref->zone, zone, order,
gfp_mask, alloc_flags, ac->migratetype);
if (page) {
prep_new_page(page, order, gfp_mask, alloc_flags);

if (unlikely(order && (alloc_flags & ALLOC_HARDER)))
reserve_highatomic_pageblock(page, zone, order);
return page;
} else {
        ...
}
}
if (no_fallback) {
alloc_flags &= ~ALLOC_NOFRAGMENT;
goto retry;
}

return NULL;
}

__alloc_pages_slowpath:如果get_page_from_freelist分配页面失败，则进行慢速分配。这个函数会尝试回收内存，采用以下顺序：
- 触发kswapd尝试回收内存。
- 如果回收失败，则尝试杀掉进程回收内存。

内存释放

内存释放最后会调用到*__free_one_page *：释放过程比较容易来讲，找到可以合并的Buddy页帧号向上一级Order合并直到不能合并，将合并好的页加入到对应Order的free_area。

static inline void __free_one_page(struct page *page,
unsigned long pfn,
struct zone *zone, unsigned int order,
int migratetype, fpi_t fpi_flags)
{   .....
max_order = min_t(unsigned int, MAX_ORDER - 1, pageblock_order);
    .....
continue_merging:
while (order < max_order) {
if (compaction_capture(capc, page, order, migratetype)) {
__mod_zone_freepage_state(zone, -(1 << order),
migratetype);
return;
}
buddy_pfn = __find_buddy_pfn(pfn, order);
buddy = page + (buddy_pfn - pfn);

if (!pfn_valid_within(buddy_pfn))
goto done_merging;
if (!page_is_buddy(page, buddy, order))
goto done_merging;
/*
 * Our buddy is free or it is CONFIG_DEBUG_PAGEALLOC guard page,
 * merge with it and move up one order.
 */
if (page_is_guard(buddy))
clear_page_guard(zone, buddy, order, migratetype);
else
del_page_from_free_list(buddy, zone, order);
combined_pfn = buddy_pfn & pfn;
page = page + (combined_pfn - pfn);
pfn = combined_pfn;
order++;
}
if (order < MAX_ORDER - 1) {
/* If we are here, it means order is >= pageblock_order.
 * We want to prevent merge between freepages on isolate
 * pageblock and normal pageblock. Without this, pageblock
 * isolation could cause incorrect freepage or CMA accounting.
 *
 * We don't want to hit this code for the more frequent
 * low-order merging.
 */
if (unlikely(has_isolate_pageblock(zone))) {
int buddy_mt;

buddy_pfn = __find_buddy_pfn(pfn, order);
buddy = page + (buddy_pfn - pfn);
buddy_mt = get_pageblock_migratetype(buddy);

if (migratetype != buddy_mt
&& (is_migrate_isolate(migratetype) ||
is_migrate_isolate(buddy_mt)))
goto done_merging;
}
max_order = order + 1;
goto continue_merging;
}

done_merging:
set_buddy_order(page, order);

if (fpi_flags & FPI_TO_TAIL)
to_tail = true;
else if (is_shuffle_order(order))
to_tail = shuffle_pick_tail();
else
to_tail = buddy_merge_likely(pfn, buddy_pfn, page, order);

if (to_tail)
add_to_free_list_tail(page, zone, order, migratetype);
else
add_to_free_list(page, zone, order, migratetype);

/* Notify page reporting subsystem of freed page */
if (!(fpi_flags & FPI_SKIP_REPORT_NOTIFY))
page_reporting_notify_free(order);
}

kswapd

见内存分配一节，_alloc_pages_slowpath会触发kswapd来回收内存。kswapd在每个内存节点都有一个，其定义和代码如下。其实这里就是调用了balance_pgdat进行内存回收。

int kswapd_run(int nid)
{
pg_data_t *pgdat = NODE_DATA(nid);
    ...
pgdat->kswapd = kthread_run(kswapd, pgdat, "kswapd%d", nid);
    ...
}
static int kswapd(void *p)
{
    ...
for ( ; ; ) {
bool ret;

alloc_order = reclaim_order = READ_ONCE(pgdat->kswapd_order);
highest_zoneidx = kswapd_highest_zoneidx(pgdat,
highest_zoneidx);

kswapd_try_sleep:
kswapd_try_to_sleep(pgdat, alloc_order, reclaim_order,
highest_zoneidx);
        ......
ret = try_to_freeze();
if (kthread_should_stop())
break;
        ......
trace_mm_vmscan_kswapd_wake(pgdat->node_id, highest_zoneidx,
alloc_order);
reclaim_order = balance_pgdat(pgdat, alloc_order,
highest_zoneidx);
if (reclaim_order < alloc_order)
goto kswapd_try_sleep;
}

tsk->flags &= ~(PF_MEMALLOC | PF_SWAPWRITE | PF_KSWAPD);

return 0;
}

总结

本文是自己学习Linux内存管理的简单梳理，介绍了：

Linux初始化早期的Memblock内存管理
Linux物理内存模型
Linux伙伴系统（Buddy Allocator）

希望也对您理解Linux的内存管理有一些帮助。

参考资料

内核代码. https://elixir.bootlin.com/linux/latest/source/.
内核手册. https://www.kernel.org/doc/html/latest/vm/index.html.
Understanding the Linux® Virtual Memory Manager. Mel Gorman. http://ptgmedia.pearsoncmg.com/images/0131453483/downloads/gorman_book.pdf.

Linux内核内存管理 - Memblock和Buddy System(1)

2021-09-23T11:27:15.000Z

这是系列的第四篇
第一篇为内核内存管理过程知识点的的简单梳理
第二篇介绍了内核的数据结构
第三篇介绍了从内核第一行代码加载到跳转到C代码前的内存处理。
第四篇概览了初始化C代码中的内存处理

概述

参考内核文档，系统初始化早期是不能使用我们常用的 kmalloc ，vmalloc 等函数，这是因为此时对应的功能还没初始化好。

尽管如此，早期初始化仍然需要分配内存。因此早期内核提供了基于bitmap的Bootmem分配器，后续逐渐演进成了现在的Memblock。
Memblock或者早期的Bootmem并不能适应系统运行时的各种复杂场景（多线程、碎片等）。因此在内核启动到一定阶段后，内存管理的工作会交由伙伴系统(Buddy System)接管。

当然也并非是仅由伙伴系统管理。除了伙伴系统来以页为单位进行内存分配，还会有SLAB系统的某种（一般是SLUB）来实现对小内存分配的管理。

Memblock

Memblock将系统中的内存分为一系列不同类型的连续区域。主要有以下几个类型：

memory：用于描述当前内核可用的物理内存。
reserved: 用于描述不可用内存（已分配）。
physmem：特殊体系结构才有，此处不表。

Memblock使用以上概念对内核启动早期内存分配进行管理。

数据结构

Memblock的内存主要数据结构如下：

struct memblock_region {
phys_addr_t base;
phys_addr_t size;
enum memblock_flags flags;
#ifdef CONFIG_NUMA
int nid;
#endif
};
struct memblock_type {
unsigned long cnt;
unsigned long max;
phys_addr_t total_size;
struct memblock_region *regions;
char *name;
};
struct memblock {
bool bottom_up;  /* is bottom up direction? */
phys_addr_t current_limit;
struct memblock_type memory;
struct memblock_type reserved;
};

memblock_region: 代表一段物理内存区域。
- base：表示区域物理起始物理地址
- size：表示区域大小
- flags：区域标记，主要有（HOTPLUG, MIRROR, NOMAP），分别表示区域是否是热插拔，镜像区域和是否加入到内核直接映射区。
- nid: 如果开启了NUMA（Non Unified Memory Access）
memblock_type: 表示某种内存类型的集合。如前文所述，目前主要有Memory和Reserved。
- cnt：表示该memblock_type的个数
- max: 此type内区域的数量（即regions链表的元素个数）
- total_size: 此类内存区域内存的总大小
- regions：所有此类区域内存的链表
- name: 该类型的符号名
memblock: 管理整个Memblock的数据结构
- bottom_up: 内存分配的方向，是否从底向上
- current_limit：Memblock分配器管理的物理内存地址的上限
- memory: memory类型
- reserved: memory类型

一张图说明以上结构的关系：

分配和释放

Memblock分配和释放函数主要有以下：

memblock_alloc: 分配内存，主要有(memblock_alloc_range_nid, memblock_alloc_raw, memblock_alloc_from等)
memblock_add: 分配内存区域
memblock_add_node: 在指定NUMA上分配内存区域
memblock_add_range: 在指定NUMA区域内分配指定类型和FLAG标记的内存区域
memblock_remove: 删除一个内存区域
memblock_remove_range: 删除一个指定类型的内存区域
memblock_remove_region: 删除指定内存区域
memblock_free: 删除内存区域，主要有(memblock_free_early, memblock_free_early_nid等)
memblock_reserve: 将指定区域设定为保留区域

以上API名称很像，但其实最终只是对其中某几个API的封装。

分配

从如下alloc系函数调用关系可以看到，最终调用到memblock_add_range。

从不同分支进到分配函数memblock_add_range，差异仅在与分配时选取的NUMA Node ID、标记（Flag）、类型（Memory还是Reserved）等参数的不同。其具体代码如下：

static int __init_memblock memblock_add_range(struct memblock_type *type,
phys_addr_t base, phys_addr_t size,
int nid, enum memblock_flags flags)
{
bool insert = false;
phys_addr_t obase = base;
phys_addr_t end = base + memblock_cap_size(base, &size);
int idx, nr_new;
struct memblock_region *rgn;

if (!size)
return 0;

/* special case for empty array */
if (type->regions[0].size == 0) {
WARN_ON(type->cnt != 1 || type->total_size);
type->regions[0].base = base;
type->regions[0].size = size;
type->regions[0].flags = flags;
memblock_set_region_node(&type->regions[0], nid);
type->total_size = size;
return 0;
}
repeat:
/*
 * The following is executed twice.  Once with %false @insert and
 * then with %true.  The first counts the number of regions needed
 * to accommodate the new area.  The second actually inserts them.
 */
base = obase;
nr_new = 0;

for_each_memblock_type(idx, type, rgn) {
phys_addr_t rbase = rgn->base;
phys_addr_t rend = rbase + rgn->size;

if (rbase >= end)
break;
if (rend <= base)
continue;
/*
 * @rgn overlaps.  If it separates the lower part of new
 * area, insert that portion.
 */
if (rbase > base) {
#ifdef CONFIG_NUMA
WARN_ON(nid != memblock_get_region_node(rgn));
#endif
WARN_ON(flags != rgn->flags);
nr_new++;
if (insert)
memblock_insert_region(type, idx++, base,
       rbase - base, nid,
       flags);
}
/* area below @rend is dealt with, forget about it */
base = min(rend, end);
}

/* insert the remaining portion */
if (base < end) {
nr_new++;
if (insert)
memblock_insert_region(type, idx, base, end - base,
       nid, flags);
}

if (!nr_new)
return 0;

/*
 * If this was the first round, resize array and repeat for actual
 * insertions; otherwise, merge and return.
 */
if (!insert) {
while (type->cnt + nr_new > type->max)
if (memblock_double_array(type, obase, size) < 0)
return -ENOMEM;
insert = true;
goto repeat;
} else {
memblock_merge_regions(type);
return 0;
}
}

代码虽长，其实比较容易理解：

首先如果对应类型类型还没有任何内存区域，便直接在对应分配所要求的的内存区域。
如果该类型区域非空，就需要遍历所有内存区域，确定待加入区域是否与已存在区域重合。据此会有三种处理：
- 如果待加入区域与现存区域无重叠，则直接添加此区域
- 如果待加入区域与现存区域有重叠且并未被现存区域完整包含，则将待加入区域与现存区域进行合并
- 如果待加入区域被现存区域完全包含，则不用重新添加该区域

释放

另外可以从如下free系函数调用关系的简图看到，memblock_free*最终调用到memblock_remove_region和memblock_free_pages。

memblock_remove_region的主要作用是移除对应内存区，其代码如下：

static void __init_memblock memblock_remove_region(struct memblock_type *type, unsigned long r)
{
type->total_size -= type->regions[r].size;
memmove(&type->regions[r], &type->regions[r + 1],
(type->cnt - (r + 1)) * sizeof(type->regions[r]));
type->cnt--;

/* Special case for empty arrays */
if (type->cnt == 0) {
WARN_ON(type->total_size != 0);
type->cnt = 1;
type->regions[0].base = 0;
type->regions[0].size = 0;
type->regions[0].flags = 0;
memblock_set_region_node(&type->regions[0], MAX_NUMNODES);
}
}

这里的主要作用就是将内存区域从对应类型的区域数组中移除，修改对应类型区域的长度，同时将该区域索引之后的区域依次向前移动一位。

memblock_free_pages的作用则是将对应页释放会给Buddy System：

void __init memblock_free_pages(struct page *page, unsigned long pfn,
unsigned int order)
{
if (early_page_uninitialised(pfn))
return;
__free_pages_core(page, order);
}

物理内存模型

在讲解伙伴系统之前，我们先讲解物理内存模型（Physical Memory Model），这是向伙伴系统过度的基础。简单一点讲，伙伴系统是按页对内存进行管理的，物理内存模型解决的是：

页对应的描述符(struct page)如何与对应物理页匹配。
通过物理页帧号如何快速找到对应的页描述符。
处理内存地址不连续（存在多个内存节点，或者同个内存节点内有空洞造成的不连续）

Linux系统的物理内存管理模型有三种配置，通过KConfig选择：

Flat：平坦内存模型是最简单的内存管理模型，适用于地址连续没有内存空洞的系统，也是Linux最早采用的内存模型。因为被管理的内存地址连续，因此可以方便地使用数组来管理。数组下标也可以直接和页帧号进行关联。
Discontiguous：随着处理器系统发展，有了非均匀内存访问模型（NUMA）。为了处理这种需求，内核就有了Discontiguous内存管理模型。这种管理模型因为在对页帧和对应页描述符映射不够有效，且不能很好适应一些嵌入式系统的需求，逐渐被Sparse模型替代。

也可以称为“非一致性内存访问”，但一致性内存往往会跟DMA一致性，Cache一致性等概念混淆。

Sparse：目前最常用且适配性最强的内存模型，它还支持内存的热拔插。管理方式如下：

数据结构

从上图看出，mem_section的数据结构比较简单：

#ifdef CONFIG_SPARSEMEM_EXTREME
struct mem_section **mem_section;
#else
struct mem_section mem_section[NR_SECTION_ROOTS][SECTIONS_PER_ROOT]
____cacheline_internodealigned_in_smp;
#endif
struct mem_section {
/*
 * This is, logically, a pointer to an array of struct
 * pages.  However, it is stored with some other magic.
 * (see sparse.c::sparse_init_one_section())
 *
 * Additionally during early boot we encode node id of
 * the location of the section here to guide allocation.
 * (see sparse.c::memory_present())
 *
 * Making it a UL at least makes someone do a cast
 * before using it wrong.
 */
unsigned long section_mem_map;

struct mem_section_usage *usage;
#ifdef CONFIG_PAGE_EXTENSION
struct page_ext *page_ext;
unsigned long pad;
#endif
};

section_mem_map: 存的是指向对应struct page表的指针，以及一些标记性栏位（如该section是否是存在的）
usage:
page_ext:
pad:

初始化

Sparse的每个mem_section管理一块连续的内存区域，它由多个物理页组成。mem_section和这些内存区域的映射关系在sparse_init函数建立。代码如下：

void __init sparse_init(void)
{
unsigned long pnum_end, pnum_begin, map_count = 1;
int nid_begin;

memblocks_present();

pnum_begin = first_present_section_nr();
nid_begin = sparse_early_nid(__nr_to_section(pnum_begin));

/* Setup pageblock_order for HUGETLB_PAGE_SIZE_VARIABLE */
set_pageblock_order();

for_each_present_section_nr(pnum_begin + 1, pnum_end) {
int nid = sparse_early_nid(__nr_to_section(pnum_end));

if (nid == nid_begin) {
map_count++;
continue;
}
/* Init node with sections in range [pnum_begin, pnum_end) */
sparse_init_nid(nid_begin, pnum_begin, pnum_end, map_count);
nid_begin = nid;
pnum_begin = pnum_end;
map_count = 1;
}
/* cover the last node */
sparse_init_nid(nid_begin, pnum_begin, pnum_end, map_count);
vmemmap_populate_print_last();
}

memblocks_present 作用是为Mem Block中标记的memory类型的内存分配mem_section，并对mem_section的section_mem_map自段做Present标记。如下：

if (!ms->section_mem_map) {
ms->section_mem_map = sparse_encode_early_nid(nid) |
SECTION_IS_ONLINE;
section_mark_present(ms);
}

“分配mem_section”并不准确，当Kconfig不是 _CONFIG_SPARSEMEM_EXTREME_时，mem_section数组是静态定义的。

接着的循环就是遍历所有mem_section，分配struct page，修改mem_sesction的section_mem_map将该mem_section指向的page首地址与其关联。这里提一点是，section_mem_map主要存的是struct page表首地址减去该mem_section首个页的页帧号。这样后续可以快速的进行页帧号与对应struct page的相互转换。如下代码是封装，及页和页帧转换部分：

static unsigned long sparse_encode_mem_map(struct page *mem_map, unsigned long pnum)
{
unsigned long coded_mem_map =
(unsigned long)(mem_map - (section_nr_to_pfn(pnum)));
BUILD_BUG_ON(SECTION_MAP_LAST_BIT > (1UL<
BUG_ON(coded_mem_map & ~SECTION_MAP_MASK);
return coded_mem_map;
}
#define __page_to_pfn(pg)\
({const struct page *__pg = (pg);\
int __sec = page_to_section(__pg);\
(unsigned long)(__pg - __section_mem_map_addr(__nr_to_section(__sec)));\
})

#define __pfn_to_page(pfn)\
({unsigned long __pfn = (pfn);\
struct mem_section *__sec = __pfn_to_section(__pfn);\
__section_mem_map_addr(__sec) + __pfn;\
})

小节

本文先介绍到这，后续篇幅接着介绍Buddy System。

Linux内核内存管理 - 初始化C代码中的内存处理概览

2021-09-20T02:27:33.000Z

这是系列的第四篇
第一篇为内核内存管理过程知识点的的简单梳理
第二篇介绍了内核的数据结构
第三篇介绍了从内核第一行代码加载到跳转到C代码前的内存处理。

x86_64体系结构C代码处理

前文我们从汇编代码跳转到了x86_64_start_kernel，该函数代码如下：

asmlinkage __visible void __init x86_64_start_kernel(char * real_mode_data)
{

BUILD_BUG_ON(MODULES_VADDR < __START_KERNEL_map);
BUILD_BUG_ON(MODULES_VADDR - __START_KERNEL_map < KERNEL_IMAGE_SIZE);
BUILD_BUG_ON(MODULES_LEN + KERNEL_IMAGE_SIZE > 2*PUD_SIZE);
BUILD_BUG_ON((__START_KERNEL_map & ~PMD_MASK) != 0);
BUILD_BUG_ON((MODULES_VADDR & ~PMD_MASK) != 0);
BUILD_BUG_ON(!(MODULES_VADDR > __START_KERNEL));
MAYBE_BUILD_BUG_ON(!(((MODULES_END - 1) & PGDIR_MASK) ==
(__START_KERNEL & PGDIR_MASK)));
BUILD_BUG_ON(__fix_to_virt(__end_of_fixed_addresses) <= MODULES_END);

cr4_init_shadow();
reset_early_page_tables();
clear_bss();
clear_page(init_top_pgt);

sme_early_init();
kasan_early_init();
idt_setup_early_handler();
copy_bootdata(__va(real_mode_data));

load_ucode_bsp();
init_top_pgt[511] = early_top_pgt[511];

x86_64_start_reservations(real_mode_data);
}

首先几个BUILD_BUG_ON 用于检查潜在的配置错误，分别检查的是：

内核模块的虚拟地址位于内核映像之后。
内核模块+内核映像所占空间小于 2^31 (即2GB)
内核映像和内核模块的地址为2MB对齐
固定映射结束地址大于内核模块结束地址

接着初始化CR4 Shadow，内核Check-in List给出其作用如下：

Context switches and TLB flushes can change individual bits of CR4. CR4 reads take several cycles, so store a shadow copy of CR4 in a per-cpu variable. To avoid wasting a cache line, I added the CR4 shadow to cpu_tlbstate, which is already touched during context switches.

也就是说，CR4读取是需要多个CPU时钟周期的，所以将CR4存在一个per-cpu变量内。CR4 Shadow放置于cpu_tlbstate，因为cpu_tlbstate在上下文切换时会被CPU加载到Cache，由此可以节省Cache line的使用。

reset_early_page_tables将early_top_pgt清除并重新加载其为内核页表。clear_bss清理BSS和init_top_pgtsme_early_init是初始化内存加密相关。
kasan_early_init作用是初始化KASAN功能，后续会再具体介绍KASAN，这里略过不表。
idt_setup_early_handler作用是加载IDT Handler，其代码如下：

SYM_CODE_START_LOCAL(early_idt_handler_common)

cld

incl early_recursion_flag(%rip)
pushq %rsi/* pt_regs->si */
movq 8(%rsp), %rsi/* RSI = vector number */
movq %rdi, 8(%rsp)/* pt_regs->di = RDI */
pushq %rdx/* pt_regs->dx */
pushq %rcx/* pt_regs->cx */
pushq %rax/* pt_regs->ax */
pushq %r8/* pt_regs->r8 */
pushq %r9/* pt_regs->r9 */
pushq %r10/* pt_regs->r10 */
pushq %r11/* pt_regs->r11 */
pushq %rbx/* pt_regs->bx */
pushq %rbp/* pt_regs->bp */
pushq %r12/* pt_regs->r12 */
pushq %r13/* pt_regs->r13 */
pushq %r14/* pt_regs->r14 */
pushq %r15/* pt_regs->r15 */
UNWIND_HINT_REGS

movq %rsp,%rdi/* RDI = pt_regs; RSI is already trapnr */
call do_early_exception

decl early_recursion_flag(%rip)
jmp restore_regs_and_return_to_kernel
SYM_CODE_END(early_idt_handler_common)

上述代码主要作用是寄存器状态保存，同时执行do_early_exception。
copy_bootdata的主要作用是检查初始化参数，并将它们复制boot_params和boot_command_line内。同时将early_top_pgt页表的第512项赋值给init_top_pgt对应项。
最后x86_64_start_reservations执行一些特定平台相关的”quirks”后，开始执行start_kernel。

start_kernel

start_kernel执行所有内核初始化代码。本文仅分析与内存管理相关的步骤如下图：

set_task_stack_end_magic 为内核栈底设置Magic Number，用于栈溢出的检查。
page_address_init 初始化page_address_htable链表

setup_arch为体系结构相关的初始化代码。X64系统对应的setup_arch定义在arch/x86/kernel/setup.c

early_ioremap_init 初始化数组 slot_virt 用于保存虚拟地址和外设物理地址的早期固定映射，其定义在fixmap.h。
setup_olpc_ofw_pgd 为“One Laptop Per Child”公益项目相关设备初始化PGD。

e820__memory_setup 执行 e820__memory_setup_default ，主要作用是从 E820获取硬件内存布局，保存在全局变量e820_table。代码如下：

static struct e820_table e820_table_init__initdata;
static struct e820_table e820_table_kexec_init__initdata;
static struct e820_table e820_table_firmware_init__initdata;

struct e820_table *e820_table __refdata= &e820_table_init;
struct e820_table *e820_table_kexec __refdata= &e820_table_kexec_init;
struct e820_table *e820_table_firmware __refdata= &e820_table_firmware_init;

注意 initdata和refdata修饰作用在内核代码有说明,其中init的作用是为了标记初始化使用的数据以便内核初始化结束后释放对应的内存。而refdata的用于引用__initdata标记的数据。

#define __init__section(".init.text") __cold  __latent_entropy __noinitretpoline __nocfi
#define __initdata__section(".init.data")
#define __initconst__section(".init.rodata")
#define __exitdata__section(".exit.data")
#define __exit_call__used __section(".exitcall.exit")

#define __ref            __section(".ref.text") noinline
#define __refdata        __section(".ref.data")
#define __refconst       __section(".ref.rodata")

early_reserve_memory 作用是将已占用的内存区域标记为不可用。这样后续不允许被memblock或者伙伴系统分配器再分配。
- [_text, __end_of_kernel_reserve]
- [0,64K]
- setup_data: [hdr.setup_data, sizeof(setup_data)+hdr.setup_data]
- initrd
- ibft(iSCSI Boot Format Table) 区域(如果有的话)
- BIOS区域: [BIOS Start, 0x1000000]
- etc.
memblock_set_bottom_up 标记memblock内存分配是从低地址到高地址
memblock是系统初始化初期，伙伴系统接管前的分配器，它取代了内核早期的bootmem分配器。
e820__reserve_setup_data 将Boot Loader扩展的数据区标记为内核保留区域，并为其分配内存映射。
e820__finish_early_params 更新e820表。用户可以通过Loader传入内核CMD line来自定义内存区域映射。下图是在QEMU中E820扫描到的内存映射。
probe_roms 为ROM的分配IO资源
insert_resource 将code、rodata、data和bss插入IOMEM资源
e820_add_kernel_range 将内核_text 到 _end区域加入到e820表。
trim_bios_range 处理一些BIOS识别内存的特殊情况
- 0到4KB区域没有被BIOS加入到e820中，我们将这段区域加入到e820保留区域。
- 将BIOS区域中BIOS_BEGIN到BIOS_END(640Kb -> 1Mb) 从e820表中删除。这是因为有些BIOS会将这段区域识别为物理内存（但起始不是）。
early_gart_iommu_check 针对早期的AMD处理器中基于GART IOMMU的支持。
e820__end_of_ram_pfn 从e820获取最大物理页帧号
init_cache_modes 待确定
kernel_randomize_memory 与KASLR相关，后续介绍，此处不表
early_alloc_pgt_buf 为初始化过程中分配PGT预留堆空间
reserve_brk 在Boot分配器Reserve堆空间
e820__memblock_setup 将e820内存分布表的数据读出，并填写到Boot分配器管理
关于memblock分配器memblock，系列后续文章专门介绍
e820__memblock_alloc_reserved_mpc_new 从Memblock为MPC Table分配内存。
reserve_real_mode 从Memblock为实模式的[0, 1MB]分配内存。
init_mem_mapping 待确定
memblock_set_current_limit 设置memblock.current_limit为membelcok管理的最大页帧号
initmem_init 初始化NUMA（如果开启对应Kconfig的话），为memblock的现有区域分配NUMA节点ID号
dma_contiguous_reserve 为DMA预留连续内存
reserve_crashkernel 为kernel crash分配内存
memblock_find_dma_reserve 计算DMA区域的大小
x86_init.paging.pagetable_init 调用 native_pagetable_init 来初始化paging 待确定
kasan_init 初始化KASAN
sync_initial_page_table 待确定
e820__reserve_resources 为e820表项分配IO resource （reserve标记的表项除外）
x86_init.resources.reserve_resources 使用reserve_standard_io_resources 为下面硬件端口分配ioport resource

static struct resource standard_io_resources[] = {
{ .name = "dma1", .start = 0x00, .end = 0x1f,
.flags = IORESOURCE_BUSY | IORESOURCE_IO },
{ .name = "pic1", .start = 0x20, .end = 0x21,
.flags = IORESOURCE_BUSY | IORESOURCE_IO },
{ .name = "timer0", .start = 0x40, .end = 0x43,
.flags = IORESOURCE_BUSY | IORESOURCE_IO },
{ .name = "timer1", .start = 0x50, .end = 0x53,
.flags = IORESOURCE_BUSY | IORESOURCE_IO },
{ .name = "keyboard", .start = 0x60, .end = 0x60,
.flags = IORESOURCE_BUSY | IORESOURCE_IO },
{ .name = "keyboard", .start = 0x64, .end = 0x64,
.flags = IORESOURCE_BUSY | IORESOURCE_IO },
{ .name = "dma page reg", .start = 0x80, .end = 0x8f,
.flags = IORESOURCE_BUSY | IORESOURCE_IO },
{ .name = "pic2", .start = 0xa0, .end = 0xa1,
.flags = IORESOURCE_BUSY | IORESOURCE_IO },
{ .name = "dma2", .start = 0xc0, .end = 0xdf,
.flags = IORESOURCE_BUSY | IORESOURCE_IO },
{ .name = "fpu", .start = 0xf0, .end = 0xff,
.flags = IORESOURCE_BUSY | IORESOURCE_IO }
};

e820__setup_pci_gap 在0到4GB找到空闲的内存区域，用于PCI设备的IO映射。
build_all_zonelists 将所有内存节点的区域加入到对应的zonelist，可以参考数据结构的介绍
page_alloc_init 待确定
mm_init 为内存管理初始化最核心的部分，由以下部分组成
- page_ext_init_flatmem
- init_mem_debugging_and_hardening
- kfence_alloc_pool
- report_meminit
- stack_depot_init
- mem_init 回收memblock分配的内存（Reserve的除外），接着用mem_init_print_info打印内存信息
- kmem_cache_init 初始化SLAB分配器
- kmemleak_init 初始化Kmemleak
- pgtable_init 为启动后各进程的页表分配建立SLAB
- debug_objects_mem_init 为debugobject功能分配SLAB内存
- vmalloc_init
kmem_cache_init_late 为SLAB分配器的后续初始化。如果编译时采用的是SLUB，此处无操作。
numa_policy_init
anon_vma_init

总结

本文是对初始化C代码中内存管理的概览，并没有介绍到每个子部分的细节，后续将会在专门的章节进行具体介绍。

Linux内核内存管理 - 数据结构

2021-09-10T00:25:32.000Z

内存管理是Linux内核最为复杂且最为重要的部分，本文从原理及代码角度对Linux内存管理机制进行分析。

内存的划分

Linux将内存从大到小依次划分为Node（节点）->Zone（内存域）->Page（页）：

节点：在大型结算及系统中，内存有不同的簇，依据对处理器距离的不同，访问这些簇有不同的代价。而这些簇就可以成为节点。例：在PC系统中可以理解为实际挂载的物理内存；在嵌入式系统中，有两块内存芯片A和B，分别代表一个节点。
内存域：内存域并不是物理存在的概念，是Linux系统对每个内存节点进行管理的单位，每个节点的内存域表示的是对该节点不同地址范围的划分。一般内存域有三种，分别为Normal、DMA和HighMem。
页：在每个内存域中，内存被划分为大小固定的块（32位系统一般为4K大小），为内核进行内存分配的基本单位（当然内核内存管理机制其实更为复杂，“基本单位”不代表每次分配内存最小就要分到4K。后边可以看到，当需要获取小于4K大小的内存时，内核有Slab分配器来满足要求）

一张图说明Node、Zone和Page的关系如下：

                  Node 1            Node 2           Node 3
                       +----------+     +----------+     +----------+
                       |          |     |          |     |          |
                       |Zone_High |     |          |     |          |
                       |          |     |          |     |          |
                       +----------+     |          |     |          |
                       |          |     |          |     |          |
                       |          |     |          |     |          |
                       |Zone_Norm |     |          |     |          |
                       |          |     |          |     |          |
                       |          |     |          |     |          |
                       +----------+     |          |     |          |
                       |          |     |          |     |          |
     page  page        |Zone_DMA  |     |          |     |          |
+-+--+--+--+--+        |          |     |          |     |          |
| |  |  |  |  |  <--------+       |     |          |     |          |
+-+--+--+--+--+        +----------+     +----------+     +----------+

数据结构

构成上述三个内存划分的数据结构如下：

内存节点

Node对应的结构为pglist_data_t，定义如下（为方便理解，省略部分结构体成员）：

typedef struct pglist_data {
    struct zone node_zones[MAX_NR_ZONES];
    struct zonelist node_zonelists[MAX_ZONELISTS];
    int nr_zones;
#ifdef CONFIG_FLAT_NODE_MEM_MAP /* means !SPARSEMEM */
    struct page *node_mem_map;
#ifdef CONFIG_PAGE_EXTENSION
    struct page_ext *node_page_ext;
#endif
#endif
#ifndef CONFIG_NO_BOOTMEM
    struct bootmem_data *bdata;
#endif
#ifdef CONFIG_MEMORY_HOTPLUG
    spinlock_t node_size_lock;
#endif
    unsigned long node_start_pfn;
    unsigned long node_present_pages; /* total number of physical pages */
    unsigned long node_spanned_pages; /* total size of physical page  range, including holes */
    int node_id;
    wait_queue_head_t kswapd_wait;
    wait_queue_head_t pfmemalloc_wait;
    struct task_struct *kswapd; /* Protected by mem_hotplug_begin/end() */
    int kswapd_order;
    enum zone_type kswapd_classzone_idx;
    int kswapd_failures;        /* Number of 'reclaimed == 0' runs */
#ifdef CONFIG_COMPACTION
    int kcompactd_max_order;
    enum zone_type kcompactd_classzone_idx;
    wait_queue_head_t kcompactd_wait;
    struct task_struct *kcompactd;
#endif
#ifdef CONFIG_NUMA_BALANCING
    /* Lock serializing the migrate rate limiting window */
    spinlock_t numabalancing_migrate_lock;
    /* Rate limiting time interval */
    unsigned long numabalancing_migrate_next_window;
    /* Number of pages migrated during the rate limiting time interval */
    unsigned long numabalancing_migrate_nr_pages;
#endif
    unsigned long       totalreserve_pages;
#ifdef CONFIG_NUMA
    /*
     * zone reclaim becomes active if more unmapped pages exist.
     */
    unsigned long       min_unmapped_pages;
    unsigned long       min_slab_pages;
#endif /* CONFIG_NUMA */

    /* Write-intensive fields used by page reclaim */
    ZONE_PADDING(_pad1_)
    spinlock_t      lru_lock;

#ifdef CONFIG_DEFERRED_STRUCT_PAGE_INIT
    /*
     * If memory initialisation on large machines is deferred then this
     * is the first PFN that needs to be initialised.
     */
    unsigned long first_deferred_pfn;
    /* Number of non-deferred pages */
    unsigned long static_init_pgcnt;
#endif /* CONFIG_DEFERRED_STRUCT_PAGE_INIT */

#ifdef CONFIG_TRANSPARENT_HUGEPAGE
    spinlock_t split_queue_lock;
    struct list_head split_queue;
    unsigned long split_queue_len;
#endif
    unsigned int inactive_ratio;
    unsigned long       flags;
    ZONE_PADDING(_pad2_)
    /* Per-node vmstats */
    struct per_cpu_nodestat __percpu *per_cpu_nodestats;
    atomic_long_t       vm_stat_NR_VM_NODE_STAT_ITEMS];
} pg_data_t;

node_zones: 内存节点上的内存域，分别为 ZONE_HIGHMEM, ZONE_NORMAL, ZONE_DMA。新版Linux还增加了ZONE_MOVABLE和ZONE_DEVICE。
node_zonelists: 对内存域进行类别指定的优先级顺序。例，当ZONE_HIGHMEM分配失败时，会u退到ZONE_DMA类型后ZONE_NORMAL类型
nr_zones: 该节点上的内存域数量
node_mem_map: 节点中页面的映射图
bdata: 与内核初始化内存分配器相关数据
node_size_lock：与内存热拔插相关
node_start_pfn: 内存节点的起始页。
node_present_pages: 物理页面数量.
node_spanned_pages: 内存节点物理页面的大小
node_id: 节点编号
kswapd_wait/pfmemalloc_wait/kswapd/kswapd_order/kswapd_classzone_idx/kswapd_failures: kswapd内核线程相关参数
……..

内存区域

内存区域对应的结构体为struct zone，定义如下：

struct zone {
    unsigned long watermark_NR_WMARK];
    unsigned long nr_reserved_highatomic;
    long lowmem_reserve_MAX_NR_ZONES];
#ifdef CONFIG_NUMA
    int node;
#endif
    struct pglist_data  *zone_pgdat;
    struct per_cpu_pageset __percpu *pageset;

#ifndef CONFIG_SPARSEMEM
    unsigned long       *pageblock_flags;
#endif /* CONFIG_SPARSEMEM */
    unsigned long       zone_start_pfn;
    unsigned long       managed_pages;
    unsigned long       spanned_pages;
    unsigned long       present_pages;

    const char      *name;
#ifdef CONFIG_MEMORY_ISOLATION
    unsigned long       nr_isolate_pageblock;
#endif

#ifdef CONFIG_MEMORY_HOTPLUG
    seqlock_t       span_seqlock;
#endif
    int initialized;
    ZONE_PADDING(_pad1_)
    struct free_area    free_area_MAX_ORDER];
    unsigned long       flags;
    spinlock_t      lock;
    ZONE_PADDING(_pad2_)
    unsigned long percpu_drift_mark;
    ........
    atomic_long_t       vm_stat_NR_VM_ZONE_STAT_ITEMS];
} ____cacheline_internodealigned_in_smp;

watermark: 内存域的水位
nr_reserved_highatomic: 紧急内存大小，
lowmem_reserve:内存域最少保留内存
zone_pgdat: 所在内存节点指针
pageset: 每个CPU维护的页面列表
zone_start_pfn:内存域第一个页的索引
managed_pages: 伙伴系统管理的所有页面数量
spanned_pages: 内存域所跨越所有内存页数量
present_pages: 内存域物理内存所有页数量(除去内存空洞后的部分)present_pages=spanned_pages-absent_pages
name: 区域名
free_area:所有空闲页面的数组
flags:内存域标识
lock:保护free_area的锁
vm_stat:虚拟内存统计信息

特别说明一下内存域的水位（Watermark），它表示几个阈值，用来管理内核线程kswapd唤起与休眠的。当域内可用内存水位较高时，kswapd不用起来工作，而水位较低时，kswapd需要唤起来回收内存。如下图（来自深入理解Linux虚拟内存管理）：

页面

系统中每个物理页面都有数据结构struct page与其关联，用于管理页面的使用。结构如下：

struct page {
    /* First double word block */
    unsigned long flags;       
    union {
        struct address_space *mapping; 
        void *s_mem;            /* slab first object */
        atomic_t compound_mapcount; /* first tail page */
    };

    /* Second double word */
    union {
        pgoff_t index;      /* Our offset within mapping. */
        void *freelist;     /* slub first free object */
    };

    union {
#if defined(CONFIG_HAVE_CMPXCHG_DOUBLE) && \
    defined(CONFIG_HAVE_ALIGNED_STRUCT_PAGE)
        /* Used for cmpxchg_double in slub */
        unsigned long counters;
#else
        unsigned counters;
#endif
        struct {
            union {
                atomic_t _mapcount;
                unsigned int active;        /* SLAB */
                struct {            /* SLUB */
                    unsigned inuse:16;
                    unsigned objects:15;
                    unsigned frozen:1;
                };
                int units;          /* SLOB */
            };
            atomic_t _refcount;
        };
    };

    /*  Third double word block */
    union {
        struct list_head lru;   
        struct dev_pagemap *pgmap; 
        struct {        /* slub per cpu partial pages */
            struct page *next;  /* Next partial slab */
#ifdef CONFIG_64BIT
            int pages;  /* Nr of partial slabs left */
            int pobjects;   /* Approximate # of objects */
#else
            short int pages;
            short int pobjects;
#endif
        };

        struct rcu_head rcu_head;   
        struct {
            unsigned long compound_head; 
#ifdef CONFIG_64BIT
            unsigned int compound_dtor;
            unsigned int compound_order;
#else
            unsigned short int compound_dtor;
            unsigned short int compound_order;
#endif
        };

#if defined(CONFIG_TRANSPARENT_HUGEPAGE) && USE_SPLIT_PMD_PTLOCKS
        struct {
            unsigned long __pad;    
            pgtable_t pmd_huge_pte; /* protected by page->ptl */
        };
#endif
    };

    /* Remainder is not double word aligned */
    union {
        unsigned long private;      
#if USE_SPLIT_PTE_PTLOCKS
#if ALLOC_SPLIT_PTLOCKS
        spinlock_t *ptl;
#else
        spinlock_t ptl;
#endif
#endif
        struct kmem_cache *slab_cache;  /* SLuB: Pointer to slab */
    };

#ifdef CONFIG_MEMCG
    struct mem_cgroup *mem_cgroup;
#endif
#if defined(WANT_PAGE_VIRTUAL)
    void *virtual;          /* Kernel virtual address (NULL if  not kmapped, ie. highmem) */
#endif /* WANT_PAGE_VIRTUAL */

#ifdef CONFIG_KMEMCHECK
    void *shadow;
#endif

#ifdef LAST_CPUPID_NOT_IN_PAGE_FLAGS
    int _last_cpupid;
#endif
}

页面结构体使用双字块来划分：

第一个双字
- flags: 页面状态，脏页、上锁等院子标记
- 联合体
  - mapping：指向inode address_space
  - s_mem：slab首对象
  - compound_mapcount：
第二个双字：
- 联合体
  - index：页面偏移
  - freelist：slab/slob的首个可用对象
- 联合体：slab/slub/slob相关的记数（取决于编译内核时选择的管理方式）
第三个双字：
- lru：换出页列表
- pgmap:
- rcu_head
- 结构体，用于slub管理
- 结构体，用于复合页管理
联合体(ptl/slab_cache): slab指针，或者PTE自旋锁
virtual: 内核虚拟地址。用于高端内存中的页，即无法直接映射到内核内存中的页

页表

Linux进行内存寻址时，往往不会直接内存物理地址，需要经过虚拟地址到物理地址的转化。使用虚拟地址的好处是可以避免进程与进程间互踩内存（除非特别指定共享内存），同时虚拟内存的换出换入使得进程使用超过物理内存大小的内存范围。

CPU中内存管理单元（MMU）作用就是根据内存中特定的转化表格（不错，页表本身也是需要内存存储的），将虚拟地址转化为真正的物理地址。而这个表格就是我们所讲的页表。

取决于体系结构，Linux采用三级或者四级页表机制：

PGD：Page Global Directory，全局页表目录
PUD：Page Upper Directory，上级页表目录
PMD：Page Middle Directory，中级页表目录
PTE：Page Table Entry，页表表项

每级表项所占位数，取决于我们编译内核时的选择。一般情况下，取决于寻址宽度，以及CPU体系结构每级页表所占位数是有约定俗成的。

内核在arch/xxx/include/asm/page.h（其中xxx表示CPU体系结构）定义了一系列的类型、函数和宏来方便对每级页表进行操作。

如上图我们看到的几个SHIFT宏定义，是为了方便通过位移操作来快速获取对应等级页表。

在IA64中用来表示以上各级页表目录的数据结构定义如下：

  typedef struct { unsigned long pte; } pte_t;
  typedef struct { unsigned long pmd; } pmd_t;
#if CONFIG_PGTABLE_LEVELS == 4
  typedef struct { unsigned long pud; } pud_t;
#endif
  typedef struct { unsigned long pgd; } pgd_t;

与页表相关的宏或者函数定义有pmd/pte/pgd_alloc/free()等等，具体可以参考include/linux/mm.h。

结语

本文介绍了Linux内核内存管理的基本单位划分Node、Zone和Page及对应的数据结构，同时对页表的基本概念进行了介绍。将在下一文分析Linux初始化流程中对内存的管理。

Linux内核内存管理 - 从内核启动过程透视内存管理

2021-09-05T09:56:48.000Z

这是系列的第三篇
第一篇为内核内存管理过程知识点的的简单梳理
第二篇介绍了内核的数据结构

前言

以Intel X64 CPU为例，Linux的初始化可大致分为如下几个过程：

Loader跳转到内核后的实模式(Real Mode)
32位保护模式跳转到64位长模式
64位长模式下解压内核
解压内核后，建立新的页表映射，并跳转到Arch（平台）相关C代码
执行平台无关初始化代码

内存管理占据了以上过程的重要角色。包括了内存布局规划、分段管理、页表配置、内核移动等。

本文使用Qemu模拟，基于Linux v5.13.9版本，按顺序介绍以上过程中的内存管理。

实模式(Real Mode)

使用如下命令启动编译好的64位内核：

1	qemu-system-x86_64 -kernel arch/x86/boot/bzImage -nographic -append "console=ttyS0 nokaslr" -s -S

其中：

内核参数”console=ttyS0 nokaslr“的主要作用为指定内核控制台，以及关闭KASLR功能（主要原因是为了调试方便，开启KASLR后每次开机内核解压的地址都是随机的）。
而-s和-S参数主要是为了GDB调试Qemu之用。

执行上述命令后，便得到如下图的内核地址分布。

根据内核文档Linux/x86 Boot Protocol，任何Boot Loader(Grub/Lilo/…)加载X86内核，均要遵守该协议。内核发展至今，该协议版本已经发展到了2.15。图中X为Boot Loader加载内核的起始偏移，在Qemu平台上该偏移为 0x10000。加载后，内核Boot Sector开始执行，执行入口点为 _start。参考Linker Script arch/x86/boot/setup.ld。

OUTPUT_FORMAT("elf32-i386")
OUTPUT_ARCH(i386)
ENTRY(_start)

SECTIONS
{
. = 0;
.bstext: { *(.bstext) }
.bsdata: { *(.bsdata) }
....

这里会直接跳转到start_of_setup开始执行。

#arch/x86/boot/header.S
.globl_start
_start:
.byte0xeb# short (2-byte) jump
.bytestart_of_setup-1f

.section ".entrytext", "ax"
start_of_setup:
# Force %es = %ds
movw%ds, %ax
movw%ax, %es
cld

movw%ss, %dx
cmpw%ax, %dx# %ds == %ss?
movw%sp, %dx
je2f# -> assume %sp is reasonably set

# Invalid %ss, make up a new stack
movw$_end, %dx
testb$CAN_USE_HEAP, loadflags
jz1f
movwheap_end_ptr, %dx
1:addw$STACK_SIZE, %dx
jnc2f
xorw%dx, %dx# Prevent wraparound

2:# Now %dx should point to the end of our stack space
andw$~3, %dx# dword align (might as well...)
jnz3f
movw$0xfffc, %dx# Make sure we're not zero
3:movw%ax, %ss
movzwl%dx, %esp# Clear upper half of %esp
sti# Now we should have a working stack

# We will have entered with %cs = %ds+0x20, normalize %cs so it is on par with the other segments.
pushw%ds
pushw$6f
lretw
6:
# Check signature at end of setup
cmpl$0x5a5aaa55, setup_sig
jnesetup_bad

# Zero the bss
movw$__bss_start, %di
movw$_end+3, %cx
xorl%eax, %eax
subw%di, %cx
shrw$2, %cx
rep; stosl

# Jump to C code (should not return)
calllmain

以上代码会为实模式代码执行清理方向位，并未C代码的执行分配堆空间和栈空间。接着跳转到6执行，检查内核代码加载的正确性。这里说明一下， lretw及之前两行汇编语句的作用是调用返回，之前两行是将返回地址保存在栈内，参考<Intel® 64 and IA-32 Architectures Software Developer’s Manual>。如注释，使用lret的目的是为了重置CS寄存器的值，确保与其他段寄存器一致。可参考Intel手册，ret指令的说明：

When executing a far return, the processor pops the return instruction pointer from the top of the stack into the EIP
register, then pops the segment selector from the top of the stack into the CS register. The processor then begins
program execution in the new code segment at the new instruction pointer.

接着清空BSS段后跳转到main函数执行。

/* First, copy the boot header into the "zeropage" */
copy_boot_params();
console_init();
if (cmdline_find_option_bool("debug"))
puts("early console in setup code\n");
init_heap();
if (validate_cpu()) {
puts("Unable to boot - please use a kernel appropriate "
     "for your CPU.\n");
die();
}
set_bios_mode();
detect_memory();
keyboard_init();
query_ist();
#if defined(CONFIG_APM) || defined(CONFIG_APM_MODULE)
query_apm_bios();
#endif
#if defined(CONFIG_EDD) || defined(CONFIG_EDD_MODULE)
query_edd();
#endif
set_video();
go_to_protected_mode();

main函数的注释比较清楚,我们这里只讲一下copy_boot_param/detect_memory/go_to_protected_mode:

copy_boot_param将内存中boot_param的信息（见图“实模式内存分布”）拷贝到全局变量boot_params内。boot_params存放的就是Linux Boot Protocol定义的哪些参数。有些栏位是编译过程中改写，有些烂尾由Boot Loader填写。boot_param包括内核cmdline会穿插内核初始化的各个子过程中
detect_memory主要是使用e820获取内存的基础布局，存储到boot_param指定区域（boot_params.e820_table和boot_params.e820_entries）。
go_to_protected_mode主要是打开32位地址线（A20 Gate），做GDT/IDT表的配置，关中断，打开保护模式，并跳转到32位代码开始执行。代码如下：

//arch/x86/boot/pm.c
void go_to_protected_mode(void)
{
realmode_switch_hook();

/* Enable the A20 gate */
if (enable_a20()) {
puts("A20 gate not responding, unable to boot...\n");
die();
}

reset_coprocessor();

mask_all_interrupts();

setup_idt();
setup_gdt();
protected_mode_jump(boot_params.hdr.code32_start,
    (u32)&boot_params + (ds() << 4));
}

protected_mode_jump是一段汇编代码，定义在arch/x86/boot/pmjump.S，这里不多过多分析。其主要就是修改CR0寄存器的PE（Protect Enable）位，并执行跳转指令跳转到32位代码(.Lin_pm32标号)处执行。

#arch/x86/boot/pmjump.S
/*
 * void protected_mode_jump(u32 entrypoint, u32 bootparams);
 */
SYM_FUNC_START_NOALIGN(protected_mode_jump)
........

movl%cr0, %edx
orb$X86_CR0_PE, %dl# Protected mode
movl%edx, %cr0

# Transition to 32-bit mode
.byte0x66, 0xea# ljmpl opcode
2:.long.Lin_pm32# offset
.word__BOOT_CS# segment
SYM_FUNC_END(protected_mode_jump)

SYM_FUNC_START_LOCAL_NOALIGN(.Lin_pm32)
# Set up data segments for flat 32-bit mode
movl%ecx, %ds
movl%ecx, %es
movl%ecx, %fs
movl%ecx, %gs
movl%ecx, %ss
# The 32-bit code sets up its own stack, but this way we do have
# a valid stack if some debugging hack wants to use it.
addl%ebx, %esp

# Set up TR to make Intel VT happy
ltr%di

# Clear registers to allow for future extensions to the
# 32-bit boot protocol
xorl%ecx, %ecx
xorl%edx, %edx
xorl%ebx, %ebx
xorl%ebp, %ebp
xorl%edi, %edi

# Set up LDTR to make Intel VT happy
lldt%cx

jmpl*%eax# Jump to the 32-bit entrypoint
SYM_FUNC_END(.Lin_pm32)

32位代码伊始就是重建各个段寄存器为BOOT_DS。段寄存器内容为向GDT某项的段选择子，而BOOT_DS即为GDT的第三个表项。此时GDT的表项可以到arch/x86/boot/pm.c查找，大概定义了Base为0大小为4G的段，这足以覆盖内核初始化32位代码执行的区域。有关GDT表及段选择相关知识，可以查阅<Intel® 64 and IA-32 Architectures Software Developer’s Manual>中Volume 3，CHAPTER 3 PROTECTED-MODE MEMORY MANAGEMENT一节。做一些寄存器内容的清理，就跳转到32位内核的起始地址执行。

该起始地址，是protected_mode_jump函数的第一个参数-boot_params.hdr.code32_start。在我们的QEMU环境中这个值为0x100000

为什么是存储在eax寄存器呢，这里就需要了解System V Application Binary Interface AMD64中有关calling convention的知识,Linux内核也是遵守System V ABI的。ABI指的是Application Binary Interface，根据程序运行的Arch不同而有不同的定义。

32位保护模式跳转到64位长模式

startup_32

_
0x100000存放的是32位代码起始地址，具体布局可以参考链接脚本：vmlinux.lds

链接脚本，即Linker Script，这是告诉链接器目标文件该如何链接的脚本。一般GCC编译我们不会指定链接脚本，这是因为其有默认的链接脚本。

#ifdef CONFIG_X86_64
OUTPUT_ARCH(i386:x86-64)
ENTRY(startup_64)
#else
OUTPUT_ARCH(i386)
ENTRY(startup_32)
#endif

SECTIONS
{
/* Be careful parts of head_64.S assume startup_32 is at
 * address 0.
 */
. = 0;
.head.text : {
_head = . ;
HEAD_TEXT
_ehead = . ;
}
.rodata..compressed : {
*(.rodata..compressed)
}
.text :{
_text = .; /* Text */
*(.text)
*(.text.*)
_etext = . ;
}
.rodata : {
_rodata = . ;
*(.rodata) /* read-only data */
*(.rodata.*)
_erodata = . ;
}
.data :{
_data = . ;
*(.data)
*(.data.*)
*(.bss.efistub)
_edata = . ;
}
. = ALIGN(L1_CACHE_BYTES);
.bss : {
_bss = . ;
*(.bss)
*(.bss.*)
*(COMMON)
. = ALIGN(8);/* For convenience during zeroing */
_ebss = .;
}
#ifdef CONFIG_X86_64
       . = ALIGN(PAGE_SIZE);
       .pgtable : {
_pgtable = . ;
*(.pgtable)
_epgtable = . ;
}
#endif
. = ALIGN(PAGE_SIZE);/* keep ZO size page aligned */
_end = .;

经过ld链接、且qemu加载后，得到下图左侧的内存布局。从地址0x100000开始，首先是32位保护模式入口代码、解压缩代码等，之后摆放了压缩的内核。其后分别是解压后内核的代码段、只读数据段、数据段、未初始化数据段和32位代码页表。

从链接脚本可以看出：32位代码的入口地址是startup_32。代码首先清中断，加载新GDT表，同时重置各段寄存器，建立堆栈。

需要注意代码定义了一个宏rva,它的主要作用是为了计算段内相对地址，这样可以避免内核加载到不同位置时，同样的代码皆可执行。

#arch/x86/boot/compressed/head_64.S
#define rva(X) ((X) - startup_32)

.code32
SYM_FUNC_START(startup_32)
cld
cli

leal(BP_scratch+4)(%esi), %esp
call1f
1:popl%ebp
subl$ rva(1b), %ebp

lealrva(gdt)(%ebp), %eax
movl%eax, 2(%eax)
lgdt(%eax)

/* Load segment registers with our descriptors */
movl$__BOOT_DS, %eax
movl%eax, %ds
movl%eax, %es
movl%eax, %fs
movl%eax, %gs
movl%eax, %ss

lealrva(boot_stack_end)(%ebp), %esp

pushl$__KERNEL32_CS
lealrva(1f)(%ebp), %eax
pushl%eax
lretl
1:
callstartup32_load_idt
callverify_cpu
testl%eax, %eax
jnz.Lno_longmode

#ifdef CONFIG_RELOCATABLE
movl%ebp, %ebx
......
movlBP_kernel_alignment(%esi), %eax
decl%eax
addl%eax, %ebx
notl%eax
andl%eax, %ebx
cmpl$LOAD_PHYSICAL_ADDR, %ebx
jae1f
#endif
movl$LOAD_PHYSICAL_ADDR, %ebx
1:

addlBP_init_size(%esi), %ebx
subl$ rva(_end), %ebx

/* Enable PAE mode */
movl%cr4, %eax
orl$X86_CR4_PAE, %eax
movl%eax, %cr4

加载IDT后，打开PAE模式。然后会计算出将压缩内核摆放的位置放到ebx，用于原地(in-place)解压。上面代码中BP_kernel_alignment(%esi) 主要作用是从boot_param对应区域取出对应的值。我们再次打开Linux/x86 Boot Protocol和Boot Protocol附属栏位查看这些栏位的说明:

偏移/所占字节数	参数	描述
0230/4	kernel_alignment	Physical addr alignment required for kernel
0260/4	init_size	Linear memory required during initialization
01E4/4	scratch	Scratch field for the kernel setup code

其中init_size存放的是内核初始化、解压所需要的空间，这是根据内核压缩In-place解压预留足够的空间。这部分大小的计算可以参考内核源码arch/x86/boot/header.S的说明（本人也还没吃透,待补充）。
紧接着内核为4GB大小的内存建立每页大小为2MB的内核页表（见Figure 2图右）并加载页表目录地址（pgtable）到CR3寄存器，并开启64位长模式。参考Wiki:

当处于长模式（Long mode）时，64位应用程序（或者是操作系统）可以使用64位指令和寄存器，而32位程序将以一种兼容子模式运行。

4GB大小足以执行内核解压等动作。接着内核将64位地址startup_64压入栈，开启分页，并执行lret指令跳转到startup_64处执行。

此处我们省略了SEV功能的检查，这是AMD CPU的特性。此处不做分析。

startup_64

startup_64 的开始同样会清中断，清理各段寄存器。同时计算压缩内核要移动到的地址，即LOAD_PHYSICAL_ADDR + INIT_SIZE - 压缩内核的长度(rva（_end）)。此处处理与startup_32相同

可能大家会疑惑，为什么这段代码在startup_32做了，此处还要做一遍。主要原因代码内有描述，内核可能会被64位Loader直接加载并从startup_64处执行。

接着内核加载空的IDT表，检查是否需要开启五级页表，并做对应处理。紧接着清除EFLAGS寄存器后，将压缩内核移动到In-place解压的位置(LOAD_PHYSICAL_ADDR + INIT_SIZE - 压缩内核的长度)，紧接着重新加载移动过位置的GDT表。之后跳转到移动后的 .Lrelocated 地址处开始执行。

.Lrelocated

.Lrelocated 代码最主要的作用有三个：

加载IDT：此时IDT的内容只开启了Page Fault Trap，对应的处理函数是boot_page_fault，其实现在arch/x86/boot/compressed/ident_map_64.c, 主要作用就是做一些基础检查后，为对应缺页的地址建立一致性映射。
创建一致性映射：主要为[_head, _end], bootparam 和 boot cmdline三个区域建立一致性映射。
解压内核：解压内核本文不做分析。提及一点就是如果开启了KASLR，解压内核前，会计算一个随机偏移生成内核真正的解压地址。

解压完内核后跳转到加压后内核的入口地址,即arch/x86/kernel/head_64.S的startup_64标号处

内核解压后

startup_64 代码如下：

SYM_CODE_START_NOALIGN(startup_64)
UNWIND_HINT_EMPTY
leaq(__end_init_task - SIZEOF_PTREGS)(%rip), %rsp

leaq_text(%rip), %rdi
pushq%rsi
callstartup_64_setup_env
popq%rsi

pushq$__KERNEL_CS
leaq.Lon_kernel_cs(%rip), %rax
pushq%rax
lretq

.Lon_kernel_cs:
UNWIND_HINT_EMPTY

/* Sanitize CPU configuration */
call verify_cpu

leaq_text(%rip), %rdi
pushq%rsi
call__startup_64
popq%rsi

addq$(early_top_pgt - __START_KERNEL_map), %rax
jmp 1f
SYM_CODE_END(startup_64)

以上代码会配置栈之后，调用startup_64_setup_env配置Startup GDT和IDT。GDT表的内容如下：

static struct desc_struct startup_gdt[GDT_ENTRIES] = {
[GDT_ENTRY_KERNEL32_CS]         = GDT_ENTRY_INIT(0xc09b, 0, 0xfffff),
[GDT_ENTRY_KERNEL_CS]           = GDT_ENTRY_INIT(0xa09b, 0, 0xfffff),
[GDT_ENTRY_KERNEL_DS]           = GDT_ENTRY_INIT(0xc093, 0, 0xfffff),
};

Startup GDT中的段描述符,都是0地址开始的4GB大小。Startup IDT（也叫binrgup IDT）主要处理AMD 架构下VMM Communication异常，该异常与虚拟机有关。
之后内核继续执行到verify_cpu这个汇编函数，其定义在verify_cpu.S,其主要是使用cpuid指令得到CPU对长模式和SSE指令集的支持状况。
检查完后，内核跳转执行 __startup_64,其主要作用是重新建立内核早期4级或者5级页表，此时需要考虑KASLR产生的随机偏移，因此我们可以看到此函数调用了多次fixup_pointer函数进行页表项纠正。
页表定义在head_64.s，如下：

SYM_DATA_START_PTI_ALIGNED(early_top_pgt)
.fill512,8,0
.fillPTI_USER_PGD_FILL,8,0
SYM_DATA_END(early_top_pgt)

SYM_DATA_START_PAGE_ALIGNED(early_dynamic_pgts)
.fill512*EARLY_DYNAMIC_PAGE_TABLES,8,0
SYM_DATA_END(early_dynamic_pgts)

SYM_DATA(early_recursion_flag, .long 0)

.data

#if defined(CONFIG_XEN_PV) || defined(CONFIG_PVH)
SYM_DATA_START_PTI_ALIGNED(init_top_pgt)
.quad   level3_ident_pgt - __START_KERNEL_map + _KERNPG_TABLE_NOENC
.org    init_top_pgt + L4_PAGE_OFFSET*8, 0
.quad   level3_ident_pgt - __START_KERNEL_map + _KERNPG_TABLE_NOENC
.org    init_top_pgt + L4_START_KERNEL*8, 0
/* (2^48-(2*1024*1024*1024))/(2^39) = 511 */
.quad   level3_kernel_pgt - __START_KERNEL_map + _PAGE_TABLE_NOENC
.fillPTI_USER_PGD_FILL,8,0
SYM_DATA_END(init_top_pgt)

SYM_DATA_START_PAGE_ALIGNED(level3_ident_pgt)
.quadlevel2_ident_pgt - __START_KERNEL_map + _KERNPG_TABLE_NOENC
.fill511, 8, 0
SYM_DATA_END(level3_ident_pgt)
SYM_DATA_START_PAGE_ALIGNED(level2_ident_pgt)
PMDS(0, __PAGE_KERNEL_IDENT_LARGE_EXEC, PTRS_PER_PMD)
SYM_DATA_END(level2_ident_pgt)
#else
SYM_DATA_START_PTI_ALIGNED(init_top_pgt)
.fill512,8,0
.fillPTI_USER_PGD_FILL,8,0
SYM_DATA_END(init_top_pgt)
#endif

#ifdef CONFIG_X86_5LEVEL
SYM_DATA_START_PAGE_ALIGNED(level4_kernel_pgt)
.fill511,8,0
.quadlevel3_kernel_pgt - __START_KERNEL_map + _PAGE_TABLE_NOENC
SYM_DATA_END(level4_kernel_pgt)
#endif

SYM_DATA_START_PAGE_ALIGNED(level3_kernel_pgt)
.fillL3_START_KERNEL,8,0
/* (2^48-(2*1024*1024*1024)-((2^39)*511))/(2^30) = 510 */
.quadlevel2_kernel_pgt - __START_KERNEL_map + _KERNPG_TABLE_NOENC
.quadlevel2_fixmap_pgt - __START_KERNEL_map + _PAGE_TABLE_NOENC
SYM_DATA_END(level3_kernel_pgt)

SYM_DATA_START_PAGE_ALIGNED(level2_kernel_pgt)
PMDS(0, __PAGE_KERNEL_LARGE_EXEC, KERNEL_IMAGE_SIZE/PMD_SIZE)
SYM_DATA_END(level2_kernel_pgt)

SYM_DATA_START_PAGE_ALIGNED(level2_fixmap_pgt)
.fill(512 - 4 - FIXMAP_PMD_NUM),8,0
pgtno = 0
.rept (FIXMAP_PMD_NUM)
.quad level1_fixmap_pgt + (pgtno << PAGE_SHIFT) - __START_KERNEL_map \
+ _PAGE_TABLE_NOENC;
pgtno = pgtno + 1
.endr
/* 6 MB reserved space + a 2MB hole */
.fill4,8,0
SYM_DATA_END(level2_fixmap_pgt)

SYM_DATA_START_PAGE_ALIGNED(level1_fixmap_pgt)
.rept (FIXMAP_PMD_NUM)
.fill512,8,0
.endr
SYM_DATA_END(level1_fixmap_pgt)

比较难理解，我们用图翻译一下：

图中为内核代码建立了早期映射，这样，就可以愉快地执行内核代码了。（当然，也并不一定是愉快执行内核代码，后面我们也会看到，内核需要注册IDT表项来处理Page Fault Trap）。

/* Switch to new page-table */
movq%rax, %cr3

/* Ensure I am executing from virtual addresses */
movq$1f, %rax
ANNOTATE_RETPOLINE_SAFE
jmp*%rax

__startup_64执行过后我们跳过一些SEV的处理，便开始使用新的内核页表。此后我们就跳转到__START_KERNEL_map开始的虚拟地址执行了。紧接着重新初始化GDT、设置段寄存器、建立初始化运营时的栈、建立IDT。这中间有一段代码：

/* Set up %gs.
 *
 * The base of %gs always points to fixed_percpu_data. If the
 * stack protector canary is enabled, it is located at %gs:40.
 * Note that, on SMP, the boot cpu uses init data section until
 * the per cpu areas are set up.
 */
movl$MSR_GS_BASE,%ecx
movlinitial_gs(%rip),%eax
movlinitial_gs+4(%rip),%edx
wrmsr
..................
pushq$.Lafter_lret# put return address on stack for unwinder
xorl%ebp, %ebp# clear frame pointer
movqinitial_code(%rip), %rax
pushq$__KERNEL_CS# set correct cs
pushq%rax# target address in negative space
lretq

......
SYM_DATA(initial_code,.quad x86_64_start_kernel)

它的作用是为多处理器系统保存per CPU变量的地址，保存到64-bit model specific register (MSR)。接着跳转到初始化c代码, 即x86_64_start_kernel。

总结

本文重点分析了从内核被Loader加载一直执行到C代码入口的内存管理。一些主要的步骤：

开启保护模式
开启长模式
内核解压同时添加随机偏移
建立内核页表并跳转到虚拟地址执行

系列后续我们将分析执行到C代码入口之后的处理

Linux内核内存管理 - 内核职责

2021-09-04T01:21:04.000Z

本系列是本人对Linux内核内存管理的学习持续总结。

序

内存系统是操作系统最复杂的子系统之一，内存管理穿插着内核的方方面面。做驱动开发有2年多了，之前写过Linux内核内存管理的博客。现在回头看，之前的理解并不到位，也不完整。希望用本系列对Linux内核内存管理的知识做重新梳理，增强自己的理解，也能给对这个复杂功能一头雾水的朋友提供一些思路。

平台

为了阐述方便，本文（系列）会基于Intel 64位平台做讨论。所涉及内核代码主要位于如下目录：

mm
arch/x86

内核职责

内存是系统得以运行的最基本保证。为了将内存进行有效管理，内核需要做如下考虑：

物理内存管理

非一致性内存访问（NUMA）：多处理器系统中有多个内存节点。每个处理器和每个内存节点距离并不相同，因此访问不同内存节点的距离和开销并不相同。OS需要考虑如何有效管理处理器对内存的访问，使该处理器更多地距其更近的处理器（一般称为Local）节点。当然实际内核NUMA内存管理策略并非所述这么简单，Linux有一系列配置NUMA访问策略的方法，详见NUMA Policy Guide。
内存热拔插: 顾名思义,系统运行时内存热拔插的处理。

内核物理地址的规划

在Boot Loader加载内核后，如何分别摆放16 Bit, 32 Bit代码区域。压缩内核，以及如何解压内核，解压还要考虑KASLR（内核地址随机化）等因素。同时，每个启动阶段使用的堆和栈如何划分。

虚拟内存管理

内核初始化前：可大致分为32 Bit页表映射，64 Bit内存页表映射（解压内核前），64 Bit内存页表映射（解压内核后）
内核初始化后: 各个进程独立页表的控制，同时需要保证内核空间态地址对所有进程是一致的。同时需要考虑用户态和内核态对不同内存区域访问权限的控制。

外设访问

通过虚拟地址访问外设IO端口或者MMIO端口，这需要内核为其建立对应的页表项，同时为了保证特定IO区域只能有一个主体来管理，内核需要以树状结构来管理IO区域。
同时，外设要访问的内存空间，需要考虑CPU和外设访问内存一致性问题（DMA一致性）。

内存分配

内存分配和释放是操作系统内最为频繁的操作。保证内存分配和释放的同时，也需要考虑避免系统内存的碎片化，避免系统运行到一段时间后，程序需要一块大内存的的时候无法分配到。其中：

伙伴系统(Buddy System): 按页管理内存分配和释放
SLAB系列: 页内小内存分配的管理和释放

内存回收和换页

当系统物理内存紧张时，系统会将一些内存换出到硬盘上。而当系统访问该内存页产生Page Fault时，操作系统需要负责将该内存页的内容换回到内存上。

内存使用检测和Debug

除了上述职责，内核也需要提供方法对内存使用进行检测和调试。例：

程序可能会对内存做不当使用，当这种不当使用发生在内核态，往往会产生严重的后果。因此Linux提供了KASAN、Kmemleak等工具方便开发人员进行检查。
同时内核内存管理子系统也提供了一系列接口和方法供系统运维管理人员对内存使用进行调试和检测。

结语

以上为本人对内核内存管理功能的梳理。因为内核内存管理功能复杂，以上理解并不一定准确，因此本文也需要持续更新。系列文章后续也将会对本文提及的内容进行具体的分析和介绍。

哎，Notepad++

2020-10-06T23:26:21.000Z

一直以为技术是无国界的，也是不带政治观点的。没想到被NotePad++ 疯狂打脸。
来看看其作者如何表达政治观点的。

至于为什么这么多对华内容，后来了解到这是一个台湾人。
在台湾公司呆了这么多年，从来不会也不可能表达政治观点。同事也都是客客气气的。
但是相信无论是我们或者台湾同事，也都能感受到对方的想法。例如，

台湾同事有意无意将中国、台湾放在并列的层面讨论。Nice一点的台湾同事发现自己讲错了以后也会改成“大陆”这种讲法
而我又习惯用大陆、台湾这样的逻辑和方式

相信看到作者这些政治宣言后，个人不会再去下载该软件，也会跟同事朋友提醒，远离这个软件!

无前

2020-08-23T05:45:18.000Z

距离上次写博客已经有约5个月了。一直没有时间和动力来更新博客。

最近半年，工作异常忙碌，不止一次跟XH表示，这是我工作以来最为忙碌的时光。所幸所做之工作，又是个人认为比较前言且具有挑战的项目。虽然充实，但也持续迷茫着。

外面的世界，贸易战、洪水、新冠肆虐。家里却也非绝对宁静。

去年八月一年来，搬了三次家。上次博客更新时，还在20公里之外的出租房里。现在，也幸得终于可以回到自己的寒舍。房子虽小，也有雨季漏水的问题。却也增添了几分方便，更多了归属感。

预见还会有的动迁和变化，希望一切顺利。也希望一直以来的愿望还是可以达成。

努力！

在家办公记

2020-02-02T08:34:10.000Z

今天是20200202，难得的日期对称日，有必要记上一篇。

四川省最后还是刚起，仅仅发了一个不痛不痒的通知说企业可自行安排复工时间，成为遵守国务院命令2月3日准时上班的唯一一个省份。

看着最新的疫情地图，加上查到的1600多万的成都人口，心理慌得不要不要的。料医学博士的省长也没办法抑制得了新病毒的传播，希望成都不要学武汉的各种神操作。幸好公司人性化，允许在家办公。

仔细想想，如果可以解决公司信息泄露问题，IT行业在家办公其实挺好的。最起码有以下几点优势：

节省时间（各种通勤时间）
对企业来讲节省各种水电物业等开销。
居家环境，压力更小，做事效率应也会更高。

明天先这样工作第一天试试看，如果可行，强烈建议公司在疫情结束后也继续推广！

新SARS

2020-01-23T06:16:33.000Z

人类自以为是世界的主宰，实则不然。2020新年伊始，新冠状病毒从武汉开始蔓延。

强大的传染力，加上春节的人口流动速率，病毒感染的人口可能远非官方所报道那么多。

想起2013年的SARS，我高三，生活在小县城也能深切感受到这传染病的威力。
每天早读几个温度计班里传递量体温，诊所里板蓝根早早卖断货。
晚上自习新闻时间打开电视随时关心病情进展，看到又是几个全身防护的医务人员感染甚至病逝的消息。

目前能做的，就是相信国家，好好待在家里，不出去添乱。希望大家一切都好。

小米手表使用ADB安装应用

2019-12-01T02:48:35.000Z

一直想入手一个智能手表，可惜Apple Watch需要连接苹果手机，遂未能如愿。最近小米终于发布一款智能手表，支持ESIM，使用Wear OS，果断入手。

实际使用发现Bug不少，软件不多。Bug可以等系统更新来解决。不过软件不多是生态链的问题，等生态链慢慢建起来实在太慢。Wear OS是Android的一个分支，理论上应该支持安装安卓应用才对。翻了下小米手表的设置，也是有看到可以做ADB调试，因此理应可以用ADB安装Android应用。

步骤：

电脑上安装ADB（可根据您自己的电脑系统自行百度安装方法）
手表上“设置–开发者选项”，打开ADB调试。如图：
将手表连上充电底座，并将USB连接电源插头端直接连上电脑。如图：
连上电脑后，手表弹出“是否允许调试”选择框。直接选择允许或者始终允许。
电脑端执行ADB Install安装应用,待显示成功，便安装完成。例如：

1	adb install qqmail_android_5.7.1.10141908.2480_0.apk

注意：

手表内存小，APK程序越大，其所需的内存越大。因此尽量选择程序本身小于10MB的程序
大部分APP并未针对小屏幕做优化，目前提供方法和思路供试用。如上例子QQMAIL安装后就因其无法支持手表屏幕大小，因此无法做有效操作。

最后，收集可支持手表的应用如下：

应用	版本	APK下载链接

Zephyr线程管理 - 数据结构与API

2019-11-16T14:16:35.000Z

本文介绍和Zephyr线程的数据结构，及相应的API。

数据结构

Zephyr数据结构使用k_thread定义，如下所示：

struct k_thread {
struct _thread_base base;
struct _callee_saved callee_saved;
void *init_data;
void (*fn_abort)(void);

#if defined(CONFIG_THREAD_MONITOR)
struct __thread_entry entry;
struct k_thread *next_thread;
#endif
#if defined(CONFIG_THREAD_NAME)
char name[CONFIG_THREAD_MAX_NAME_LEN];
#endif
#ifdef CONFIG_THREAD_CUSTOM_DATA
void *custom_data;
#endif
#ifdef CONFIG_THREAD_USERSPACE_LOCAL_DATA
struct _thread_userspace_local_data *userspace_local_data;
#endif
#ifdef CONFIG_ERRNO
#ifndef CONFIG_USERSPACE
int errno_var;
#endif
#endif

#if defined(CONFIG_THREAD_STACK_INFO)
struct _thread_stack_info stack_info;
#endif /* CONFIG_THREAD_STACK_INFO */
#if defined(CONFIG_USERSPACE)
struct _mem_domain_info mem_domain_info;
k_thread_stack_t *stack_obj;
#endif /* CONFIG_USERSPACE */
#if defined(CONFIG_USE_SWITCH)
int swap_retval;
void *switch_handle;
#endif
struct k_mem_pool *resource_pool;
struct _thread_arch arch;
};

参数说明：

base：存储Thread的基础调度信息结构体。具体如下：
- qnode_dlist/qnode_rb: 指向线程在等待/就绪队列的位置
- pended_on:指向线程所在的等待队列（仅对红黑树等待队列有效）
- user_options:线程参数
- thread_state:线程状态
- union(prio/sched_locked/preemt): 线程的抢占优先级相关参数
- order_key:被调度器使用来比对优先级
- SMP相关参数先忽略
- timeout:指向超时队列中该线程的位置

struct _thread_base {
union {
sys_dnode_t qnode_dlist;
struct rbnode qnode_rb;
};
_wait_q_t *pended_on;
u8_t user_options;
u8_t thread_state;
union {
struct {
#if __BYTE_ORDER__ == __ORDER_BIG_ENDIAN__
u8_t sched_locked;
s8_t prio;
#else /* LITTLE and PDP */
s8_t prio;
u8_t sched_locked;
#endif
};
u16_t preempt;
};
#ifdef CONFIG_SCHED_DEADLINE
int prio_deadline;
#endif
u32_t order_key;
/*SMP 相关*/
void *swap_data;
#ifdef CONFIG_SYS_CLOCK_EXISTS
struct _timeout timeout;
#endif
};

_callee_saved: 与平台相关的一些参数，主要保存一些线程相关寄存器信息。
init_data: 线程静态初始化数据
fn_abort: 线程取消回调函数
entry:Thread入口函数
next_thread: Thread链表中下一个线程指针
name: Thread名称
custom_data: Thread自定义数据
userspace_local_data:用户空间态数据
errno_var: 错误编号（类似Linux的Errno）
stack_info: 栈信息，主要记录栈的开始地址与大小
mem_domain_info: 线程内存域信息（用户空间态线程使用）
stack_obj: 线程栈地址
swap_retval: TBD
switch_handle: TBD
resource_pool:线程所占用的资源池
arch: 体系结构相关的线程数据。因为体系结构不同，所占大小也不相同，为保证其他参数的位置相同，Zephyr将此参数置于线程末尾

API

Zephyr定义了一系列的API来使用线程：

线程创建

线程创建的函数定义如下：

1
2

K_THREAD_DEFINE(my_tid, MY_STACK_SIZE, my_entry_point, NULL, NULL, NULL, MY_PRIORITY, 0, K_NO_WAIT);
k_tid_t k_thread_create(structk_thread *new_thread, k_thread_stack_t *stack, size_t stack_size, k_thread_entry_t entry, void *p1, void *p2, void *p3, int prio, u32_t options, s32_t delay)

前者主要用于静态定义线程，而后者主要用于运行时创建线程。线程的静态定义主要就是定义如下结构体（参数明确，不做一一解释）：

struct _static_thread_data {
struct k_thread *init_thread;
k_thread_stack_t *init_stack;
unsigned int init_stack_size;
k_thread_entry_t init_entry;
void *init_p1;
void *init_p2;
void *init_p3;
int init_prio;
u32_t init_options;
s32_t init_delay;
void (*init_abort)(void);
const char *init_name;
};

k_thread_create的源码如下：

k_tid_t z_impl_k_thread_create(struct k_thread *new_thread,      //代码注解1
      k_thread_stack_t *stack,
      size_t stack_size, k_thread_entry_t entry,
      void *p1, void *p2, void *p3,
      int prio, u32_t options, s32_t delay)
{
__ASSERT(!z_arch_is_in_isr(), "Threads may not be created in ISRs"); //代码注解2

z_setup_new_thread(new_thread, stack, stack_size, entry, p1, p2, p3, prio, options, NULL); //代码注解3

if (delay != K_FOREVER) {
schedule_new_thread(new_thread, delay);  //代码注解4
}

return new_thread;
}

其中：

代码注解1：这里函数名为何是z_impl_k_thread_create而不是k_thread_create。因为Zephyr在编译时使用了脚本来生成系统中API调用。所以在搜索源码时大部分时间只能搜索到z_impl_xxx形式的系统函数定义。不过编译连接前，是可以看得到不带z_impl_形式的API，最终调用的即是z_impl_k_thread_create
代码注解2：中断上下文不能创建线程，因为创建线程会需要申请系统资源，也会引起重新调度，带来不可预料的后果
代码注解3：创建新线程
代码注解4：将线程加入调度

z_setup_new_thread定义如下(为方便分析，代码做一定简化)：

void z_setup_new_thread(struct k_thread *new_thread, k_thread_stack_t *stack, size_t stack_size, k_thread_entry_t entry, void *p1, void *p2, void *p3, int prio, u32_t options, const char *name)
{
stack_size = adjust_stack_size(stack_size); //代码注解1

z_arch_new_thread(new_thread, stack, stack_size, entry, p1, p2, p3, prio, options); //代码注解2

#ifdef CONFIG_THREAD_MONITOR
new_thread->entry.pEntry = entry;
new_thread->entry.parameter1 = p1;
new_thread->entry.parameter2 = p2;
new_thread->entry.parameter3 = p3;

k_spinlock_key_t key = k_spin_lock(&lock);

new_thread->next_thread = _kernel.threads;
_kernel.threads = new_thread;
k_spin_unlock(&lock, key); //代码注解3
#endif
#ifdef CONFIG_THREAD_NAME
if (name != NULL) {
strncpy(new_thread->name, name,
CONFIG_THREAD_MAX_NAME_LEN - 1);
new_thread->name[CONFIG_THREAD_MAX_NAME_LEN - 1] = '\0'; //代码注解4
}
#endif

#ifdef CONFIG_ARCH_HAS_CUSTOM_SWAP_TO_MAIN
if (!_current) {
new_thread->resource_pool = NULL;
return;
}
#endif
new_thread->resource_pool = _current->resource_pool; //代码注解5
sys_trace_thread_create(new_thread);
}

代码注解1: 修正栈大小，主要为线程栈地址随机化功能使用（算是简单的地址随机化方案，感兴趣大家可以搜索一下ASLR相关资料），目的为的是防止破解攻击
代码注解2: 执行体系结构相关的线程创建过程（本文接下来以ARM Cortex-M为例介绍）
代码注解3/代码注解4: 线程一些公共参数的初始化，用于系统监视器监视线程状态。
代码注解5: 继承父线程的资源池。

其中z_arch_new_thread代码如下(省去部分代码)：

void z_arch_new_thread(struct k_thread *thread, k_thread_stack_t *stack,  size_t stackSize, k_thread_entry_t pEntry,  void *parameter1, void *parameter2, void *parameter3, int priority, unsigned int options)
{
char *pStackMem = Z_THREAD_STACK_BUFFER(stack);
char *stackEnd;

u32_t top_of_stack_offset = 0U;

Z_ASSERT_VALID_PRIO(priority, pEntry);


#if defined(CONFIG_MPU_REQUIRES_POWER_OF_TWO_ALIGNMENT) \
&& defined(CONFIG_USERSPACE)
stackSize -= MPU_GUARD_ALIGN_AND_SIZE;
#endif

#if defined(CONFIG_FLOAT) && defined(CONFIG_FP_SHARING) \
&& defined(CONFIG_MPU_STACK_GUARD)
if ((options & K_FP_REGS) != 0) {
pStackMem += MPU_GUARD_ALIGN_AND_SIZE_FLOAT
- MPU_GUARD_ALIGN_AND_SIZE;
stackSize -= MPU_GUARD_ALIGN_AND_SIZE_FLOAT
- MPU_GUARD_ALIGN_AND_SIZE;
}
#endif
stackEnd = pStackMem + stackSize;

struct __esf *pInitCtx;

z_new_thread_init(thread, pStackMem, stackSize, priority,  options);

pInitCtx = (struct __esf *)(STACK_ROUND_DOWN(stackEnd -
(char *)top_of_stack_offset - sizeof(struct __basic_sf)));
        
pInitCtx->basic.pc = (u32_t)z_thread_entry;

#if defined(CONFIG_CPU_CORTEX_M)
pInitCtx->basic.pc &= 0xfffffffe;
#endif
pInitCtx->basic.a1 = (u32_t)pEntry;
pInitCtx->basic.a2 = (u32_t)parameter1;
pInitCtx->basic.a3 = (u32_t)parameter2;
pInitCtx->basic.a4 = (u32_t)parameter3;
pInitCtx->basic.xpsr = 0x01000000UL; 

thread->callee_saved.psp = (u32_t)pInitCtx;
thread->arch.basepri = 0;

#if defined(CONFIG_USERSPACE) || defined(CONFIG_FP_SHARING)
thread->arch.mode = 0;
#endif
}

static ALWAYS_INLINE void z_new_thread_init(struct k_thread *thread, char *pStack, size_t stackSize, int prio, unsigned int options)
{
#ifdef CONFIG_INIT_STACKS
memset(pStack, 0xaa, stackSize);
#endif
#ifdef CONFIG_STACK_SENTINEL
*((u32_t *)pStack) = STACK_SENTINEL;
#endif /* CONFIG_STACK_SENTINEL */
z_init_thread_base(&thread->base, prio, _THREAD_PRESTART, options);
thread->init_data = NULL;
thread->fn_abort = NULL;
#ifdef CONFIG_THREAD_CUSTOM_DATA
thread->custom_data = NULL;
#endif
#ifdef CONFIG_THREAD_NAME
thread->name[0] = '\0';
#endif
#if defined(CONFIG_THREAD_STACK_INFO)
thread->stack_info.start = (uintptr_t)pStack;
thread->stack_info.size = (u32_t)stackSize;
#endif /* CONFIG_THREAD_STACK_INFO */
}

以上初始化过程执行后，线程的栈空间如图所示：

以上为线程的初始化过程

线程执行

线程开始执行调用z_impl_k_thread_start函数。该函数也会被k_thread_create–>schedule_new_thread间接调用，其源码如下：

void z_impl_k_thread_start(struct k_thread *thread)
{
k_spinlock_key_t key = k_spin_lock(&lock); 

if (z_has_thread_started(thread)) {
k_spin_unlock(&lock, key);
return;
}

z_mark_thread_as_started(thread); //代码注解1
z_ready_thread(thread);  //代码注解2
z_reschedule(&lock, key); //代码注解3
}

代码注解1：仅仅将thread_state标记上_THREAD_PRESTART
代码注解2：将Thread加入调度的ready Q，关于线程调度之后文章进行介绍
代码注解3：调用系统的reschedule函数触发系统调度。对Cortex-M3来讲，将会调用系统的PENDSV系统指令，悬起系统切换异常。下图为引用自《Cortex-M3权威指南》的一张PendSV使用的示例：

线程挂起

线程挂起使用z_impl_k_thread_suspend，代码如下：

void z_impl_k_thread_suspend(struct k_thread *thread)
{
k_spinlock_key_t key = k_spin_lock(&lock);
z_thread_single_suspend(thread);
sys_trace_thread_suspend(thread);

if (thread == _current) {
z_reschedule(&lock, key); //代码注解3
} else {
k_spin_unlock(&lock, key);
}
}
void z_thread_single_suspend(struct k_thread *thread)
{
if (z_is_thread_ready(thread)) {
z_remove_thread_from_ready_q(thread); //代码注解1
}
z_mark_thread_as_suspended(thread); //代码注解2
}

代码注解3：若该线程正在运行，调用reschedule重新调度
代码注解1：将Thread从调度的ready Q移除
代码注解2：对线程状态做挂起标记

线程继续（resume）

线程Resume仅做线程的标记，不再进行分析

线程取消（Abort）

线程取消使用API z_impl_k_thread_abort,代码如下：

void z_impl_k_thread_abort(k_tid_t thread)
{
unsigned int key;

key = irq_lock();
__ASSERT(!(thread->base.user_options & K_ESSENTIAL),
 "essential thread aborted");

z_thread_single_abort(thread);
z_thread_monitor_exit(thread);

if (_current == thread) {
if ((SCB->ICSR & SCB_ICSR_VECTACTIVE_Msk) == 0) {
(void)z_swap_irqlock(key);
CODE_UNREACHABLE;   //代码注解7
} else {
SCB->ICSR |= SCB_ICSR_PENDSVSET_Msk; //代码注解7
}
}

z_reschedule_irqlock(key);
}
void z_thread_single_abort(struct k_thread *thread)
{
if (thread->fn_abort != NULL) {
thread->fn_abort();     //代码注解1
}
if (IS_ENABLED(CONFIG_SMP)) {
z_sched_abort(thread);  //代码注解2
}
if (z_is_thread_ready(thread)) {
z_remove_thread_from_ready_q(thread); //代码注解3
} else {
if (z_is_thread_pending(thread)) {
z_unpend_thread_no_timeout(thread); //代码注解4
}
if (z_is_thread_timeout_active(thread)) {
(void)z_abort_thread_timeout(thread); //代码注解5
}
}
thread->base.thread_state |= _THREAD_DEAD; //代码注解6
sys_trace_thread_abort(thread);
}

代码注解1：先执行该线程的退出回调函数（供应用程序做特殊处理）
代码注解2：SMP相关通知，此处不做深入分析
代码注解3：将Thread从调度的ready Q移除
代码注解4：将Thread从Pending Q也移除
代码注解5：若Thread正在等待一定超时后调度，也将其从超时列表中移除
代码注解6：对线程状态做死亡（Dead）标记
代码注解7：待添加
代码注解8：置起PendSV，进行重新调度

结语

以上为线程使用相关结构体、API及对应的分析。可以看出，线程相关函数的实现足够简洁明了，这也正应了Zephyr的设计思想。有任何问题，欢迎留言讨论。

Zephyr线程管理 - 概念

2019-11-16T12:56:38.000Z

前言

一直想写一些RTOS的技术资料，算作对自己之前一些相关技术调研的总结。无奈懒癌发作，一拖再拖。然今日灌上鸡血，笃定主意，从最基本的调度相关内容开始。

简单讲，Zephyr是一个开源实时操作系统。相较Linux，其对系统资源的使用量更小，当然也牺牲了许多复杂且完善的功能（如，系统Debug易用性，线程的堆栈保护）。与此同时，因其是开源社区开发，也多少继承和保留了许多Linux系统的优秀思想和功能（例如，Workqueue、设备树等）。其定位为万物互联时代各种各样的嵌入式设备，目光长远。

Zephyr里没有管程、进程、线程之分。除了中断响应例程，其余所有可执行调度单位皆是线程。系统中应用程序可以定义一个或者多个线程，这种情况下，每个线程也都有自己独立的调度信息和线程ID。

虽然也有区分用户空间和内核空间态，Zephyr线程却没有自己独立的地址转换表，皆使用相同的地址空间，这是由Zephyr的内存管理方式决定的。

线程状态

线程状态即转换关系如下图所示：

可以看出，线程分为如下状态：

New：表示线程新创建
Ready: 线程就绪状态
Waiting: 线程等待某种IO资源
Running: 线程执行中
Suspended: 线程挂起状态，非等待资源原因被停止执行
Terminated: 线程退出

以上线程状态转换关系见图，后续进行代码分析将进一步介绍。

线程优先级

线程的优先级使用数字表示，数字越小，线程的优先级越高。Zephyr系统的线程可以分为两类:

Cooperative线程：一旦开始执行，除非中断或者线程自行让出CPU，将会一直执行
可抢占线程: 普通线程，可被更高优先级的线程抢占执行

Zephyr默认给Cooperative线程分配小于0的优先级数值，而可抢占线程分配为正值。用户可修改编译选项来更改这两种线程的优先级区间，当然要保证Cooperative线程的优先级数值区间小于可抢占线程。线程运行过程中，其优先级可以被更改。一张图表示线程优先级关系：

线程属性

线程有一列属性，根据这些不同的属性，线程的执行方式也会有相应的差异。一些主要的属性如下:

属性	说明
K_ESSENTIAL	表示线程是核心线程，该类线程若有退出或者取消是系统不允许的，系统会断言严重错误
K_SSE_REGS	X86独有属性，表示是否使用CPU的SSE功能
K_FP_REGS	表示是否使用CPU的浮点计算寄存器
K_USER	表示用户空间态线程，只有当系统编译选项CONFIG_USERSPACE打开时才有效
K_INHERIT_PERMS	对USERSPACE线程有效，表示是否继承父进程的权限属性

线程自定义数据

线程可以自定义数据，使得应用可以对线程功能做一定程度的扩展。

特殊线程

系统线程

Zephyr内核初始化会创建的一些初始线程。主要分为主线程和空闲线程。

Workqueue

与Linux系统的Workqueue相似，主要用于中断下半部使用。

总结

本文为Zephyr系统，线程的基本概念。主要介绍了线程的状态、分类、优先级等基础思想。