50.3. 数据库分页文件

本章提供一个 PostgreSQL 的表和索引所使用的页面格式的概述。 [1] 序列和TOAST的格式与普通表一样。

在下面解释中,假定一个字节包含 8 个位。 另外,项(item)指的是存储在一个页面里的独立数据值。 在一个表里,一个项是一个行;在一个索引里,一个项是一条索引记录。

每个表和索引都以一个固定尺寸(通常是 8K,当然我们可以在编译的时候选择其他的尺寸)的 pages 数组存储。 在表里,所有页面逻辑上都相同,所以一个特定的项(行)可以存储在任何页面里。 在索引里,第一个页面通常保留为元页面,保存着控制信息, 并且依索引访问方法的不同,在索引里可能有不同类型的页面。

Table 50-2显示一个页面的总体布局。每个页面有五个部分。

Table 50-2. 总体页面布局

描述
PageHeaderData20 字节长。包含关于页面的一般信息,包括自由空间指针。
ItemPointerData一个记录(偏移量,长度)配对对的数组,指向实际项。每个项 4 字节。
Free space(自由空间)未分配的空间。新项指针从这个区域的开头开始分配,新项从结尾开始分配。
Items(项)实际的项本身。
Special Space(特殊空间)索引访问模式相关的数据。不同的索引访问方式存放不同的数据。在普通表中为空。

每个页面的头20个字节组成页头(PageHeaderData)。它的格式在 Table 50-3 里详细介绍。 头两个字节跟踪与此页面相关的最近的 WAL 项。 然后跟着三个 2 字节的整数字段 (pd_lowerpd_upper, 和 pd_special)。 这些字段分别包含页面开始位置与未分配空间开头的字节偏移,与未分配空间结尾的字节偏移, 以及与特殊空间开头的字节偏移。 页面头的最后 2 字节,pd_pagesize_version, 存储页面尺寸和版本指示器。从 PostgreSQL 8.1 开始, 版本号是 3;PostgreSQL 8.0 使用版本号 2; PostgreSQL 7.3 和 7.4 使用版本号 1; 以前的版本使用版本号 0。 (基本页面布局和头格式在这些版本里都没有改变,但是堆的行头部布局有所变化。) 页面大小主要用于交叉检查;目前在一次安装里,还没有支持多于一种页面大小的东西。

Table 50-3. PageHeaderData 布局

字段类型长度描述
pd_lsnXLogRecPtr8 字节LSN: 最后修改这个页面的 xlog 记录最后一个字节后面第一个字节
pd_tliTimeLineID4 字节最后修改的 TLI
pd_lowerLocationIndex2 字节到自由空间开头的偏移量
pd_upperLocationIndex2 字节到自由空间结尾的偏移量
pd_specialLocationIndex2 字节到特殊空间开头的偏移量
pd_pagesize_versionuint162 字节页面大小和布局版本号信息

所有细节都可以在 src/include/storage/bufpage.h 里找到。

在页头后面是项标识符(ItemIdData),每个需要四个字节。 一个项标识符包含一个到项开头的字节偏移量,它自己以字节计的长度, 以及一套属性位,这些属性位影响它的解释。 新的项标识符根据需要从未分配空间的开头分配。 项标识符的数目可以通过查看 pd_lower 来判断,在分配新标识符的时候会递增。 因为一个项标识符在其释放前绝对不会移动,所以它的索引可以用于长时间地引用一个项, 即使该项本身因为压缩自由空间在页面内部进行了移动也如此。实际上,PostgreSQL 创建的每个指向项的指针(ItemPointer,也叫做 CTID)都由一个页号和一个项标识符的索引组成。

项本身存储在从未分配空间末尾开始从后向前分配的空间里。 它们的实际结构因表包含的内容不同而不同。表和序列都使用一种叫做 HeapTupleHeaderData 的结构,在下面描述。

最后一段是"特殊段",它可以包含任何访问方法想存放的东西。 比如,b-tree 索引存储指向页面的左右同宗的链接,以及其他一些和索引结构相关的数据。 普通表并不使用这个段(通过设置 pd_special 等于页面大小来表示)。

所有表行都用同样方法构造。它们有一个定长的头(在大多数机器上占据 27 个字节), 后面跟着一个可选的 null 位图,一个可选的对象 ID 字段,以及用户数据。 头在 Table 50-4 里详细描述。 实际用户数据(行的字段)从 t_hoff 标识的偏移量开始, 它必须是该平台的 MAXALIGN 距离的倍数。null 位图只有在 t_infomask 里面的 HEAP_HASNULL 位设置了的时候才出现。 如果它出现了,那么它紧跟在定长头后面, 占据足够容纳每个数据字段对应一个位的字节数(也就是说,总共 t_natts 位)。 在这个位列里面,为 1 的位表示非空,而为 0 的位表示空。 如果没有出现这个位图,那么所有数据字段都假设为非空的。 对象 ID 只有在设置了 t_infomask 里面的 HEAP_HASOID 位的时候才出现。 如果出现,它正好出现在 t_hoff 范围之前。 如果需要补齐 t_hoff,使之成为 MAXALIGN 的倍数,那么这些填充将出现在 null 位图和对象 ID 之间。 (这样也保证了对象 ID 得到恰当的对齐。)

Table 50-4. HeapTupleHeaderData 布局

字段类型长度描述
t_xminTransactionId4 字节插入 XID 戳记
t_cminCommandId4 字节插入 CID 戳记
t_xmaxTransactionId4 字节删除 XID 戳记
t_cmaxCommandId4 字节删除 CID 戳记(与 t_xvac 重叠)
t_xvacTransactionId4 字节用于移动行版本操作的 VACUUM 的 XID
t_ctidItemPointerData6 字节这个或者新行的当前 ID
t_nattsint162 字节字段数目
t_infomaskuint162 字节各种标志位
t_hoffuint81 字节到用户数据的偏移量

所有细节都可以在 src/include/access/htup.h 中找到。

对具体数据的解释只能在从其它表中获取的信息的情况下进行, 这些信息大多数在 pg_attribute 里。 标识字段位置的关键数值是 attlenattalign。 我们没有办法直接获取某个字段,除非它们是定宽并且没有空值的。 所有这些复杂的操作都封装在函数 heap_getattrfastgetattrheap_getsysattr 里。

要读取数据的话,你需要轮流检查每个字段。首先根据 null 位图检查该字段是否为 NULL。 如果是,那么跳到下一个字段。然后保证你的对齐是正确的。 如果字段是一个定宽字段,那么所有字节都简单地放在那里。 如果它是一个变长字段(attlen = -1),那么它就会更加复杂一些。 所有变长数据类型都使用一个通用的头结构 varattrib, 它包含所存储的数据的全长以及一些标志位。 根据标志的不同,数据可能是内联的或者是在其它表中(TOAST),还可能是压缩的(参阅Section 50.2)。

Notes

[1]

实际上,索引访问模式并不需要使用这些页面格式。目前, 所有索引方法的确都使用这个基本格式, 但保留在索引元数据页里的数据通常并不准确地遵循项布局规则。)