Chapter 4. SQL 语法

Table of Contents
4.1. 词法结构
4.1.1. 标识符和关键字
4.1.2. 常量
4.1.3. 操作符
4.1.4. 特殊字符
4.1.5. 注释
4.1.6. 词法优先级
4.2. 值表达式
4.2.1. 字段引用
4.2.2. 位置参数
4.2.3. 下标
4.2.4. 字段选择
4.2.5. 操作符调用
4.2.6. 函数调用
4.2.7. 聚集表达式
4.2.8. 类型转换
4.2.9. 标量子查询
4.2.10. 数组构造器
4.2.11. 表达式计算规则

本章描述 SQL 的语法。 这些内容是理解随后各章的基础,那些章里面将详细介绍 SQL 命令如何用于定义和修改数据。

我们也建议那些已经很熟悉 SQL 的用户仔细阅读本章,因为有一些规则和概念在 SQL 数据库之间实现得并不一致,或者是有些东西是 PostgreSQL 特有的。

4.1. 词法结构

SQL 输入由一系列命令组成。 一条命令是由一系列记号构成, 用一个分号(";")结尾。 输入流的终止也结束一条命令。那些记号是合法的取决于特定命令的语法。

记号可以是一个关键字, 一个标识符,一个 引号包围的标识符, 一个文本(或常量),或者是特殊的字符符号。 记号通常由空白分隔(空格,tab,换行符),但如果不存在混淆的时候也可以不用 (通常只是一个特殊字符与一些其它记号类型相联的时候)。

另外,在 SQL 输入里可以有注释。 它们不是记号,它们实际上等效于空白。

比如,下列命令是(语法上)合法的 SQL 输入:

SELECT * FROM MY_TABLE;
UPDATE MY_TABLE SET A = 5;
INSERT INTO MY_TABLE VALUES (3, 'hi there');

这里是三条命令的序列,每条一行(尽管并不要求这么做; 多条命令可以在一行里,并且命令可以合理地分裂成多个行)。

如果从哪些记号标识命令,哪些是操作数或参数的角度考虑, SQL 语法并不是非常一致。通常头几个记号是命令名字, 因此上面的例子我们通常可以说是一个"SELECT", 一个"UPDATE",和一个"INSERT"命令。 不过, UPDATE 命令总是要求一个 SET 在某个位置出现,并且这个变体的 INSERT 还要求有一个 VALUES 才完整。每条命令的准确语法规则都在 Part VI 里描写。

4.1.1. 标识符和关键字

象上面的例子里的 SELECTUPDATE, 或 VALUES 这样的记号都是关键字的例子, 也就是那些在 SQL 语言里有固定含义的单词。 记号 MY_TABLEA标识符的例子。 根据使用它们的命令的不同,它们标识表,字段,或者其它数据库对象的名字。 因此,有时候只是简单地叫它们"名字"。 关键字和标识符有着同样的词法结构,意思是我们在没有认识这种语言之前是无法区分一个记号是标识符还是名字。 你可以在 Appendix C 里找到一个关键字的完整列表。

SQL 标识符和关键字必须以一个字母开头 (a-z 以及带可区别标记的字母以及非拉丁字母 )或下划线开头 (_)开头。标识符和关键字里随后的字符可以是字母,数字(0-9), 或者下划线,但 SQL 标准不会定义包含数字或者以下划线开头或结尾的关键字。

系统使用不超过 NAMEDATALEN-1 个字符作为标识符; 你可以在命令中写更长的名字,但它们会被截断。缺省时, NAMEDATALEN 是 64,因此标识符最大长度是 63 如果觉得这个限制有问题,那么你可以在 src/include/postgres_ext.h 里修改 NAMEDATALEN 来改变它。

标识符和关键字名字都是大小写无关的。因此

UPDATE MY_TABLE SET A = 5;

也可以等效地写成

uPDaTE my_TabLE SeT a = 5;

一种好习惯是把关键字写成大写,而名字等用小写。

UPDATE my_table SET a = 5;

还有第二种标识符:分隔标识符引号包围的标识符。 它是通过在双引号(" ) 里包围任意字符序列形成的。 分隔标识符总是一个标识符,而不是关键字。因此,你可以用 "SELECT" 表示一个字段名字或者名字叫 "SELECT" 的表,而一个没有引号的 SELECT 将被当做一条命令的一部分,因此如果把它当做一个表的名字或者字段名字用的话就会产生一个分析错误。 上面的例子可以用引起的标识符这么写:

UPDATE "my_table" SET "a" = 5;

引号包围的标识符可以包含除引号本身以外的任何其它字符。 要包含一个双引号,我们可以写两个双引号。 这样我们就可以构造那些原本是不允许的表或者字段名字, 比如那些包含空白或与号的名字。但长度限制依旧。

把一个标识符用引号包围的起来同时也令它大小写相关,而没有引号包围的来的名字总是转成小写。 比如,我们认为标识符 FOOfoo"foo" 是一样的 PostgreSQL名字, 但 "Foo""FOO" 与上面三个以及它们之间都是不同的。 (PostgreSQL 里对未加引号的名子总是转换成小写, 这和 SQL 是不兼容的,SQL 里要求未引号包围的来的名字总是转成大写。 因此 foo 等于 "FOO"。 如果你想写可移植的程序,那么我们建议你要么就总是引号包围的某个名字,要么就坚决不引。)

4.1.2. 常量

PostgreSQL 里有三种隐含类型的常量: 字符串,位串,和数值。 常量也可以声明为明确的类型,这样就可以使用更准确的表现形式以及可以通过系统更有效地处理。隐含常量在下面描述; 明确常量稍后描述。

4.1.2.1. 字符串常量

SQL 里的字符串常量是一个由单引号("'")圈定范围的任意字符的序列,比如, 'This is a string'。 SQL 允许你在字符串里嵌入单引号,方法是敲入两个连续的单引号(比如,'Dianne''s horse')。 在 PostgreSQL 里,单引号还可以用一个反斜杠("\")来逃逸,比如, 'Dianne\'s horse'

还可以使用 C-风格的反斜杠逃逸: \b 是一个退格,\f 是一个进纸,\n 是一个换行符, \r 是一个回车,\t 是一个水平制表符,而\xxx, 这里 xxx 是一个八进制数,是对应 ASCII 码的字符。任何其它跟在反斜杠后面的字符都当做文本看待。 因此,要在字符串常量里包含反斜杠,你可以敲两个反斜杠。

编码为零的字符不能出现在字符串常量中。

两个只是通过至少有一个换行符的空白分隔的字符串常量会被连接在一起,并当做它们是写成一个常量处理。 比如:

SELECT 'foo'
'bar';

等效于

SELECT 'foobar';

SELECT 'foo'      'bar';

是非法的语法,(这个略微有些怪异的行为是 SQL 声明的; PostgreSQL 遵循标准。)

4.1.2.2. 位串常量

位串常量看起来很象在开引号前面有一个 B (大写或小写)的字符串(它们之间没有空白), 比如 B'1001'。位串常量里可以用的字符只有 01

另外,位串常量可以用十六进制表示法声明,方法是使用前缀的 X (大写或者小写),比如,X'1FF'。 这种表示法等效于一个每个十六进制位四个二进制位的位串常量。

两种形式的位串常量都可以象普通字串常量那样跨行连续。

4.1.2.3. 数值常量

数值常量接受下列通用的形式:

digits
digits.[digits][e[+-]digits]
[digits].digits[e[+-]digits]
digitse[+-]digits

这里的 digits 是一个或多个十进制位(0 到 9)。 如果有小数点,那么至少有一位在小数点前面或后面。如果出现了指数分隔符(e),那么至少有一个位跟在它后面。 在常量里不能有空格或者其他字符嵌入在内。 请注意任何前导地正号或者负号实际上都不认为是常量的一部分; 它是施加于常量的一个操作符。

这里是一些合法的数值常量的例子:

42
3.5
4.
.001
5e2
1.925e-3

如果一个数值常量既不包含小数点,也不包含指数操作符, 那么如果它的数值可以放在integer类型中(32位), 则认为它是integer类型;如果它的数值可以放在 bigint中(64位),则认为它是 bigint; 否则认为它是 numeric类型。包含小数点和/或指数操作符的常量总是被认为是numeric类型。

给一个数值常量赋予初始数据类型只是类型解析算法的开端。 在大多数情况下该常量会根据环境被自动强制转换成最合适的类型。 必要时,你可以通过强制类型转换把一个数值解析成特定的数据类型。 比如,你可以强制要求把一个数值当作类型realfloat4)来看,方法时这么写:

REAL '1.23'  -- 字串风格
'1.23'::REAL -- PostgreSQL (历史原因)风格
     

4.1.2.4. 其它类型的常量

任意类似的常量可以用下列表示法中的任何一种来输入:

type 'string'
'string'::type
CAST ( 'string' AS type )

在字符串的文本将传递给那种叫 type 的类型的输入转换过程。结果是这种类型的一个常量。 如果不存在该常量所属类型的歧义,那么明确的类型映射可以省略(比如,当你把它当做一个没有重载的函数的参数传递时), 这种情况下它会自动转换。

我们还可以用函数样的语法来声明类型转换:

typename ( 'string' )

不过并非所有类型名可以这样使用;参阅 Section 4.2.8 获取细节。

::CAST(),和函数调用语法也可以用于声明任意表达式的运行时类型转换, 如 Section 4.2.8 中讨论的那样。 但是 type 'string' 的形式只能用于声明一个文本常量的类型。 type 'string' 的另外一个限制是它不能用于数组类型;要用 :: 或者 CAST() 声明一个数组常量的类型。

4.1.3. 操作符

一个操作符是最多 NAMEDATALEN-1 (缺省 63 个字符)个下列字符的序列:

+ - * / < > = ~ ! @ # % ^ & | ` ?

不过,对操作符名字有几个限制:

  • --/* 不能出现在操作符名字中的任何地方,因为它们会被当做注释开始对待。

  • 多字符操作符不能以 +- 结束, 除非其名字至少还包含下列操作符之一:

    ~ ! @ # % ^ & | ` ?

    比如,@- 是允许的操作符名字, 但 *- 不是。这个限制允许 PostgreSQL 在不要求记号之间有空白的情况下分析 SQL 兼容的查询。

当你使用非 SQL 标准的操作符名字的时候,你通常需要用空白分隔相邻的操作符以避免歧义。 比如,如果你定义了一个叫 "@" 的左单目操作符,那么你就不能写 X*@Y;而是要写成 X* @Y 以确保 PostgreSQL 把它读成两个操作符,而不是一个。

4.1.4. 特殊字符

有些非字母数字字符有一些特殊含义,因此不能用做操作符。 它们的用法的细节可以在相应的描述语法元素的地方找到。 本节只是描述它们的存在和概括一下这些字符的目的。

  • 美元符号($)后面跟着数字用于在一个函数体定义或者准备好的语句中 表示参数的位置。在其他环境里美元符号可能是一个标识符名字的一部分。

  • 圆括弧(())用于分组和强制优先级的时候含义与平常一样。 有些场合里圆括弧是作为一个特定 SQL 命令的固定语法的一部分要求的。

  • 方括弧([])用于选取数组元素。 参阅 Section 8.10 获取更多信息。

  • 逗号(,在一些语法构造里用于分隔一个列表的元素。

  • 分号(;)结束一条 SQL 命令。 它不能出现在一条命令里的任何地方,除非引号包围的来当做字符串常量或者标识符用。

  • 冒号 (:)用于从数组中选取"片段"。(参阅 Section 8.10。)在一些 SQL 方言里(比如嵌入 SQL ), 冒号用于前缀变量名。

  • 星号 (* 在和 SELECT 命令或 COUNT 聚集函数一起使用时有特殊含义。

  • 句点 (.用在数字常量里,并用于分隔模式,表和字段名字。

4.1.5. 注释

注释是任意以双划线开头并延伸到行尾的任意字符序列,比如:

-- 这是标准的 SQL92 注释

另外,还可以使用 C-风格的块注释:

/* 多行注释
 * 可以嵌套∶/* 嵌套的块注释 */
 */

这里注释以 /* 开头并扩展到对应的 */。这些块注释可以嵌套,就象 SQL99 里说的那样, 但和 C 不一样,因此我们可以注释掉一大块已经包含块注释的代码。

注释在进一步的语法分析之前被从输入流删除并有效地用空白代替。

4.1.6. 词法优先级

Table 4-1 显示了 PostgreSQL 里面的操作符的优先级和关联性。 大多数操作符都有相同的优先级并且都是左关联的。 这种情况可能会有不那么直观的行为;比如,布尔操作符 <> 和布尔操作符 <=>= 之间有着不同的优先级。同样,当你把双目和单目操作符组合使用的时候, 有时候也需要加圆括弧。比如

SELECT 5 ! - 6;

会被分析成

SELECT 5 ! (- 6);

因为分析器不知道 ! 定义成了后缀操作符, 而不是中缀操作符。(-- 知道的时候只能是太晚了 --) 要在本例中获得你需要的特性,你要写成

SELECT (5 !) - 6;

这是我们为扩展性付出的代价。

Table 4-1. 操作符优先级(递减)

操作符/元素关联性描述
.表/字段名分隔符
::PostgreSQL-特有的类型转换操作符
[ ]数组元素选则
-单目负号
^幂操作
* / %乘,除,模
+ -加,减
IS IS TRUE, IS FALSE, IS UNKNOWN, IS NULL
ISNULL 测试是否为空值
NOTNULL 测试是否为非空值
(任何其它的)所有其它的本地和用户定义操作符
IN 集合成员
BETWEEN 包含
OVERLAPS 时间间隔重叠
LIKE ILIKE SIMILAR 字符串模式匹配
< > 小于,大于
=等于,赋值
NOT逻辑反
AND逻辑与
OR逻辑或

请注意操作符优先级也适用于和上面提到的同名的内置操作符用户定义操作符。 比如,如果你为一些客户数据类型定义一个 "+" 操作符, 那么它和内置的 "+" 操作符有同样的优先级,不管你干了什么。

如果在 OPERATOR 语法里使用了模式修饰的操作符名, 比如

SELECT 3 OPERATOR(pg_catalog.+) 4;

那么 OPERATOR 构造就会有 Table 4-1 表里面为"任何其它"操作符显示的缺省优先级。 不管什么特定的操作符出现在 OPERATOR()里,都是这样。