8.7. 部分索引

部分索引(partial index) 是建立在一个表的子集上的索引;该子集是由一个条件表达式定义的 (叫做部分索引的谓词). 该索引只包含表中那些满足这个谓词的行.

部分索引的主要动机是为了避免对普通数值建立索引� 因为如果一个在一个普通数值(那种只占表中所有行几个百分点的数值) 上的查询不会使用索引, 那么就没有在索引中保存这些(普通)行的必要. 这样就可以减小索引的尺寸,这样就可以提高那些真正使用索引的查询的速度. 同时它也能提高许多表更新操作的速度,因为不是所有情况都需要更新索引. Example 8-1 显示了一个潜在的这方面应用的例子.

Example 8-1. 设置一个部分索引以排除普通数值

假设你在一个数据库中存储 web 服务器的访问日志. 大多数访问是从你的组织内部的 IP 范围发起的,但也有一小部分 来自其它地方(比如那些通过拨号进行联接的雇员). 如果你搜索的主要是来自外部访问的 IP,那么你可能就不需要对那些 对应你的组织的子网的 IP 范围进行索引.

假设表象下面这样∶

CREATE TABLE access_log (
    url varchar,
    client_ip inet,
    ...
);

要创建符合我们的例子的索引,使用象下面这样的命令∶

CREATE INDEX access_log_client_ip_ix ON access_log (client_ip)
    WHERE NOT (client_ip > inet '192.168.100.0' AND client_ip < inet '192.168.100.255');

一个可以使用这个索引的典型的查询象这样∶

SELECT * FROM access_log WHERE url = '/index.html' AND client_ip = inet '212.78.10.32';

一个不能使用这个索引的查询可以是∶

SELECT * FROM access_log WHERE client_ip = inet '192.168.100.23';

我们通过观察可以看出,这种类型的部分索引要求普通数值是可以 预计的.如果数值的分布是固有的(来自应用自身的性质)并且 是静态的(不随时间而改变),那做到这一点(跟踪普通数值)并不困难,但是 如果普通数值只是因为一致的数据装载,那么它可能就要花很多维护性工作.

另外一个可能是把那些典型的查询工作不感兴趣的数值排除在 索引之外;这个可能在 Example 8-2 里显示. 这个结果有与上面列出的同样的优点,但是它完全拒绝了通过索引 访问"不感兴趣"的数值,即使索引扫描可能对那些数据 也有利.显然,为这种情况设置部分索引需要非常仔细以及需要大量试验.

Example 8-2. 设置一个部分索引以排除不感兴趣的数值

如果你有一个表,包含已付款和未付款的定单,而未付款的定单 只站总表的一小部分并且它是经常使用的部分,那么你可以通过 只在未付款定单上创建一个索引来改善性能.创建索引的命令看起来会象这样∶

CREATE INDEX orders_unbilled_index ON orders (order_nr)
    WHERE billed is not true;

可能用到这个索引的查询看起来象

SELECT * FROM orders WHERE billed is not true AND order_nr < 10000;

不过,该索引也可以用于那些完全不涉及 order_nr 的查询,比如,

SELECT * FROM orders WHERE billed is not true AND amount > 5000.00;

这个查询不象在 amount 字段上的部分索引那么有效, 因为系统必须扫描整个索引.但是,如果未付款的定单相对较少, 那么用这个部分索引找出未付款的定单将会更快些.

请注意下面这个查询无法使用这个索引∶

SELECT * FROM orders WHERE order_nr = 3501;

定单 3501 可能是已付款也可能是未付款.

Example 8-2 还说明了建了索引的字段 和在谓词中使用的字段不必相配.PostgreSQL 支持带任意谓词的部分索引,只要是只涉及被索引表的字段就行. 不过,我们要记住的是谓词必须和那些希望 从该索引中获益的查询中的条件相匹配.准确说,只有在系统 能够识别出该查询的 WHERE 条件在数学上蕴涵 了该索引的谓词时,这个部分索引才能用于该查询. PostgreSQL 还没有复杂的理论校定用于 识别那些形式不同但数学上相等的谓词.(做这样的理论校定不仅非常困难, 而且在实际使用中也可能非常慢.) 系统可以识别简单的不相等蕴涵,比如 "x < 1" 蕴涵 "x < 2";否则,谓词条件必须准确匹配 查询的 WHERE 条件,要不然系统将无法识别该索引是可用的.

部分索引的第三种可能用途完全不要求索引在查询中得到使用. 这里的概念是在一个表的一个子集里创建一个唯一索引, 如 Example 8-3 里描述. 这样就强制在满足谓词的行中的唯一性,而不用约束那些不需要 唯一的行.

Example 8-3. 设置一个部分唯一索引

假设我们有一个描述测试输出的表.我们希望确保在一定的 目标和课题的组合中只有一个"成功"记录, 但是可以有任意数量的"不成功"记录.下面是实现方法∶

CREATE TABLE tests (subject text,
                    target text,
                    success bool,
                    ...);
CREATE UNIQUE INDEX tests_success_constraint ON tests (subject, target)
    WHERE success;

如果只有少数成功记录而有很多不成功记录,那么 这是一种非常有效的实现方法.

最后,部分索引也可以用于覆盖系统选择的查询规划. 可能会出现这样的情况∶如果数据集的分布是比较特定的形状, 那么会导致系统在不该使用索引的时候使用它.在这种情况下, 我们可以把索引设置为在违反(规律)的查询中不可用. 通常 PostgreSQL 对索引的使用是会做合理的选择的 (比如,它在检索普通数值的时候避免使用它,因此前面的例子实际上 只是节约了索引的尺寸,它并不要求避免索引的使用),而如果出现了 错误的规划选择那么请提交一个臭虫报告.

请记住一件事∶设置一个部分索引表示你至少和查询规划器知道的一样多, 特别是你知道什么场合里索引是有效的.要形成这些只是要求富有经验 和理解 PostgreSQL 里的索引是如何运做的. 在大多数情况下,部分索引对普通索引的优势并不太明显.

更多有关部分索引的信息可以在 部分索引的实例Partial indexing in POSTGRES: research project,和 Generalized Partial Indexes 获得.