本章描述 SQL 的语法。 这些内容是理解随后各章的基础,那些章里面将详细介绍 SQL 命令如何用于定义和修改数据。
我们也建议那些已经很熟悉 SQL 的用户仔细阅读本章,因为有一些规则和概念在 SQL 数据库之间实现得并不一致,或者是有些东西是 PostgreSQL 特有的。
SQL 输入由一系列命令组成。 一条命令是由一系列记号构成, 用一个分号(";")结尾。 输入流的终止也结束一条命令。那些记号是合法的取决于特定命令的语法。
记号可以是一个关键字, 一个标识符,一个 引号包围的标识符, 一个文本(或常量),或者是特殊的字符符号。 记号通常由空白分隔(空格,tab,换行符),但如果不存在混淆的时候也可以不用 (通常只是一个特殊字符与一些其它记号类型相联的时候)。
另外,在 SQL 输入里可以有注释。 它们不是记号,它们实际上等效于空白。
比如,下列命令是(语法上)合法的 SQL 输入:
SELECT * FROM MY_TABLE; UPDATE MY_TABLE SET A = 5; INSERT INTO MY_TABLE VALUES (3, 'hi there');
这里是三条命令的序列,每条一行(尽管并不要求这么做; 多条命令可以在一行里,并且命令可以合理地分裂成多个行)。
如果从哪些记号标识命令,哪些是操作数或参数的角度考虑, SQL 语法并不是非常一致。通常头几个记号是命令名字, 因此上面的例子我们通常可以说是一个"SELECT", 一个"UPDATE",和一个"INSERT"命令。 不过, UPDATE 命令总是要求一个 SET 在某个位置出现,并且这个变体的 INSERT 还要求有一个 VALUES 才完整。每条命令的准确语法规则都在 Part VI 里描写。
象上面的例子里的 SELECT,UPDATE, 或 VALUES 这样的记号都是关键字的例子, 也就是那些在 SQL 语言里有固定含义的单词。 记号 MY_TABLE 和 A 是标识符的例子。 根据使用它们的命令的不同,它们标识表,字段,或者其它数据库对象的名字。 因此,有时候只是简单地叫它们"名字"。 关键字和标识符有着同样的词法结构,意思是我们在没有认识这种语言之前是无法区分一个记号是标识符还是名字。 你可以在 Appendix C 里找到一个关键字的完整列表。
SQL 标识符和关键字必须以一个字母开头 (a-z 以及带可区别标记的字母以及非拉丁字母 )或下划线开头 (_)开头。标识符和关键字里随后的字符可以是字母,数字(0-9), 或者下划线,但 SQL 标准不会定义包含数字或者以下划线开头或结尾的关键字。
系统使用不超过 NAMEDATALEN-1 个字符作为标识符; 你可以在命令中写更长的名字,但它们会被截断。缺省时, NAMEDATALEN 是 64,因此标识符最大长度是 63 如果觉得这个限制有问题,那么你可以在 src/include/postgres_ext.h 里修改 NAMEDATALEN 来改变它。
UPDATE MY_TABLE SET A = 5;
也可以等效地写成
uPDaTE my_TabLE SeT a = 5;
一种好习惯是把关键字写成大写,而名字等用小写。
UPDATE my_table SET a = 5;
还有第二种标识符:分隔标识符 或引号包围的标识符。 它是通过在双引号(" ) 里包围任意字符序列形成的。 分隔标识符总是一个标识符,而不是关键字。因此,你可以用 "SELECT" 表示一个字段名字或者名字叫 "SELECT" 的表,而一个没有引号的 SELECT 将被当做一条命令的一部分,因此如果把它当做一个表的名字或者字段名字用的话就会产生一个分析错误。 上面的例子可以用引起的标识符这么写:
UPDATE "my_table" SET "a" = 5;
引号包围的标识符可以包含除引号本身以外的任何其它字符。 要包含一个双引号,我们可以写两个双引号。 这样我们就可以构造那些原本是不允许的表或者字段名字, 比如那些包含空白或与号的名字。但长度限制依旧。
把一个标识符用引号包围的起来同时也令它大小写相关,而没有引号包围起来的名字总是转成小写。 比如,我们认为标识符 FOO,foo 和 "foo" 是一样的 PostgreSQL名字, 但 "Foo" 和 "FOO" 与上面三个以及它们之间都是不同的。 (PostgreSQL 里对未加引号的名子总是转换成小写, 这和 SQL 是不兼容的,SQL 里要求未用引号包围起来的名字总是转成大写。 因此 foo 等于 "FOO"。 如果你想写可移植的程序,那么我们建议你要么就总是引号包围的某个名字,要么就坚决不引。)
在 PostgreSQL 里有三种隐含类型的常量: 字符串,位串,和数值。 常量也可以声明为明确的类型,这样就可以使用更准确的表现形式以及可以通过系统更有效地处理。 这些候选的在后面的小节描述。
SQL 里的一个字串文本是用单引号(')包围的任意字符序列, 比如,'This is a string'。 这种声明字串常量的方法是 SQL 标准定义的。 在这种类型的字串常量里嵌入单引号的标准兼容的做法是敲入两个连续的单引号比如,'Dianne''s horse'。 另外,PostgreSQL 允许用用一个反斜杠("\")来逃逸单引号, 因此同一个字串可以写成'Dianne\'s horse'。
另外一个 PostgreSQL 扩展是还可以使用 C-风格的反斜杠逃逸: \b 是一个退格,\f 是一个进纸,\n 是一个换行符, \r 是一个回车,\t 是一个水平制表符,而\xxx, 这里 xxx 是一个八进制数,是对应 ASCII 码的字符。任何其它跟在反斜杠后面的字符都当做文本看待。 因此,要在字符串常量里包含反斜杠,你可以写两个反斜杠。
编码为零的字符不能出现在字符串常量中。
两个只是通过至少有一个换行符的空白分隔的字符串常量会被连接在一起,并当做它们是写成一个常量处理。 比如:
SELECT 'foo' 'bar';
等效于
SELECT 'foobar';
而
SELECT 'foo' 'bar';
是非法的语法,(这个略微有些怪异的行为是 SQL 声明的; PostgreSQL 遵循标准。)
尽管声明字串常量的标准方法通常都很方便,但是如果字串包含很多单引号或者反斜杠, 那么理解字串的内容可能就会变得很苦涩,因为每个单引号都要加倍。 为了让这种场合下的查询更具可读性,PostgreSQL 允许另外一种称作"美元符包围"的字串常量声明办法。 一个通过美元符包围声明的字串常量由一个美元符号($),一个可选的零个或多个字符"记号", 另外一个美元符号,一个组成字串常量的任意字符的序列,一个美元符号,以及一个和开始这个美元符包围的记号相同的记号,和一个美元符号组成。 比如,下面是两个不同的方法,用美元符包围声明了前面的例子:
$$Dianne's horse$$ $SomeTag$Dianne's horse$SomeTag$
请注意,在美元符包围的字串里,单引号可以不用逃逸使用。 实际上,在一个美元符包围的字串里,没有什么字符需要逃逸: 字串内容总是按照字面内容写。反斜杠不是特殊的, 美元符自己也不是特殊的,除非它们和开标签的一部分匹配。
我们可以通过在不同嵌套级别使用不同的美元符引号字串常量来实现嵌套。 最常见的是写函数定义的时候。比如:
$function$ BEGIN RETURN ($1 ~ $q$[\t\r\n\v\\]$q$); END; $function$
这里,序列 $q$[\t\r\n\v\\]$q$ 表示一个美元符包围的字串文本 [\t\r\n\v\\], 在函数体被 PostgreSQL 执行的时候,它讲被识别出来。 但是因为这个序列不匹配外层的美元符分隔符$function$, 那么只要考虑外层字串,那么它只是常量里面的一些额外的字符而已。
如果有标签的话,一个美元符包围的字串遵循和无引号包围的标识符相同的规则, 只是它不能包含美元符。标签是大小写相关的,因此 $tag$String content$tag$ 是正确的,而 $TAG$String content$tag$ 不对。
一个后面跟着关键字或者标识符的美元包围的字串必须用空白隔开; 否则美元符包围分隔符将会被认为前面标识符的一部分。
美元符包围不是 SQL 标准,但是在写复杂的字串文本的时候,它通常比标准的单引号语法更方便。 尤其是在其它常量里表现字串常量的时候更有用,比如经常在过程函数定义里面的。 如果用单引号语法,每个上面例子里的反斜杠都必须写四个,它们在作为字串文本分析的时候会减少为两个, 然后在函数执行的时候在内层字串常量里会再次被解析为一个。
位串常量看起来很象在开引号前面有一个 B (大写或小写)的普通字符串(它们之间没有空白), 比如 B'1001'。位串常量里可以用的字符只有 0 和 1。
另外,位串常量可以用十六进制表示法声明,方法是使用前缀的 X (大写或者小写),比如,X'1FF'。 这种表示法等效于一个每个十六进制位四个二进制位的位串常量。
两种形式的位串常量都可以象普通字串常量那样跨行连续。 美元符包围不能用于位串常量。
数值常量接受下列通用的形式:
digits digits.[digits][e[+-]digits] [digits].digits[e[+-]digits] digitse[+-]digits
这里的 digits 是一个或多个十进制位(0 到 9)。 如果有小数点,那么至少有一位在小数点前面或后面。如果出现了指数分隔符(e),那么至少有一个位跟在它后面。 在常量里不能有空格或者其他字符嵌入在内。 请注意任何前导地正号或者负号实际上都不认为是常量的一部分; 它是施加于常量的一个操作符。
这里是一些合法的数值常量的例子:
42
3.5
4.
.001
5e2
1.925e-3
如果一个数值常量既不包含小数点,也不包含指数操作符, 那么如果它的数值可以放在integer类型中(32位), 则认为它是integer类型;如果它的数值可以放在 bigint中(64位),则认为它是 bigint; 否则认为它是 numeric类型。包含小数点和/或指数操作符的常量总是被认为是numeric类型。
给一个数值常量赋予初始数据类型只是类型解析算法的开端。 在大多数情况下该常量会根据环境被自动强制转换成最合适的类型。 必要时,你可以通过强制类型转换把一个数值解析成特定的数据类型。 比如,你可以强制要求把一个数值当作类型real(float4)来看,方法时这么写:
REAL '1.23' -- 字串风格 '1.23'::REAL -- PostgreSQL (历史原因)风格
这些实际上只是下面讨论的通用转换的特例。
任意类似的常量可以用下列表示法中的任何一种来输入:
type 'string' 'string'::type CAST ( 'string' AS type )
在字串常量的文本将传递给那种叫 type 的类型的输入转换过程。 结果是这种类型的一个常量。如果不存在该常量所属类型的歧义, 那么明确的类型映射可以省略(比如,当你把它直接赋予一个表字段的时候), 这种情况下它会自动转换。
字串常量可以用普通 SQL 表示法或者美元符包围来书写。
我们还可以用函数样的语法来声明类型转换:
typename ( 'string' )
不过并非所有类型名可以这样使用;参阅 Section 4.2.8 获取细节。
::,CAST(),和函数调用语法也可以用于声明任意表达式的运行时类型转换, 如 Section 4.2.8 中讨论的那样。 但是 type 'string' 的形式只能用于声明一个文本常量的类型。 type 'string' 的另外一个限制是它不能用于数组类型;要用 :: 或者 CAST() 声明一个数组常量的类型。
一个操作符是最多 NAMEDATALEN-1 (缺省 63 个字符)个下列字符的序列:
+ - * / < > = ~ ! @ # % ^ & | ` ?
不过,对操作符名字有几个限制:-- 和 /* 不能出现在操作符名字中的任何地方,因为它们会被当做注释开始对待。
多字符操作符不能以 + 或 - 结束, 除非其名字至少还包含下列操作符之一:
~ ! @ # % ^ & | ` ?
比如,@- 是允许的操作符名字, 但 *- 不是。这个限制允许 PostgreSQL 在不要求记号之间有空白的情况下分析 SQL 兼容的查询。
当你使用非 SQL 标准的操作符名字的时候,你通常需要用空白分隔相邻的操作符以避免歧义。 比如,如果你定义了一个叫 "@" 的左单目操作符,那么你就不能写 X*@Y;而是要写成 X* @Y 以确保 PostgreSQL 把它读成两个操作符,而不是一个。
有些非字母数字字符有一些特殊含义,因此不能用做操作符。 它们的用法的细节可以在相应的描述语法元素的地方找到。 本节只是描述它们的存在和概括一下这些字符的目的。
美元符号($)后面跟着数字用于在一个函数体定义或者准备好的语句中 表示参数的位置。在其他环境里美元符号可能是一个标识符名字或者是一个美元符包围的字串常量的一部分。
圆括弧(())用于分组和强制优先级的时候含义与平常一样。 有些场合里圆括弧是作为一个特定 SQL 命令的固定语法的一部分要求的。
方括弧([])用于选取数组元素。 参阅 Section 8.10 获取更多信息。
逗号(,在一些语法构造里用于分隔一个列表的元素。
分号(;)结束一条 SQL 命令。 它不能出现在一条命令里的任何地方,除非引号包围的来当做字符串常量或者标识符用。
冒号 (:)用于从数组中选取"片段"。(参阅 Section 8.10。)在一些 SQL 方言里(比如嵌入 SQL ), 冒号用于前缀变量名。
星号 (* 在某些环境里表示一个表行或者一个符合类型值的全部字段。 在用作聚集函数 COUNT 的参数时还有特殊含义。
句点 (.用在数字常量里,并用于分隔模式,表和字段名字。
注释是任意以双划线开头并延伸到行尾的任意字符序列,比如:
-- 这是标准的 SQL92 注释
另外,还可以使用 C-风格的块注释:
/* 多行注释 * 可以嵌套∶/* 嵌套的块注释 */ */
这里注释以 /* 开头并扩展到对应的 */。这些块注释可以嵌套,就象 SQL99 里说的那样, 但和 C 不一样,因此我们可以注释掉一大块已经包含块注释的代码。
注释在进一步的语法分析之前被从输入流删除并用空白代替。
Table 4-1 显示了 PostgreSQL 里面的操作符的优先级和关联性。 大多数操作符都有相同的优先级并且都是左关联的。 这种情况可能会有不那么直观的行为;比如,布尔操作符 < 和 > 和布尔操作符 <= 和 >= 之间有着不同的优先级。同样,当你把双目和单目操作符组合使用的时候, 有时候也需要加圆括弧。比如
SELECT 5 ! - 6;
会被分析成
SELECT 5 ! (- 6);
因为分析器不知道 ! 定义成了后缀操作符, 而不是中缀操作符。— 知道的时候只能是太晚了 — 要在本例中获得你需要的特性,你要写成
SELECT (5 !) - 6;
这是我们为扩展性付出的代价。
Table 4-1. 操作符优先级(递减)
操作符/元素 | 关联性 | 描述 |
---|---|---|
. | 左 | 表/字段名分隔符 |
:: | 左 | PostgreSQL-特有的类型转换操作符 |
[ ] | 左 | 数组元素选则 |
- | 右 | 单目负号 |
^ | 左 | 幂操作 |
* / % | 左 | 乘,除,模 |
+ - | 左 | 加,减 |
IS | IS TRUE, IS FALSE, IS UNKNOWN, IS NULL | |
ISNULL | 测试是否为空值 | |
NOTNULL | 测试是否为非空值 | |
(任何其它的) | 左 | 所有其它的本地和用户定义操作符 |
IN | 集合成员 | |
BETWEEN | 范围包含 | |
OVERLAPS | 时间间隔重叠 | |
LIKE ILIKE SIMILAR | 字符串模式匹配 | |
< > | 小于,大于 | |
= | 右 | 等于,赋值 |
NOT | 右 | 逻辑反 |
AND | 左 | 逻辑与 |
OR | 左 | 逻辑或 |
请注意操作符优先级也适用于和上面提到的同名的内置操作符用户定义操作符。 比如,如果你为一些客户数据类型定义一个 "+" 操作符, 那么它和内置的 "+" 操作符有同样的优先级,不管你干了什么。
如果在 OPERATOR 语法里使用了模式修饰的操作符名, 比如
SELECT 3 OPERATOR(pg_catalog.+) 4;
那么 OPERATOR 构造就会有 Table 4-1 表里面为"任何其它"操作符显示的缺省优先级。 不管什么特定的操作符出现在 OPERATOR()里,都是这样。