`shlex` — 简单的词法分析¶

shlex 类使得编写类似于 Unix shell 语法的简单词法分析器变得容易。这通常对编写微型语言（例如，在 Python 应用程序的运行控制文件中）或解析带引号的字符串很有用。

shlex 模块定义了以下函数

shlex.split(s, comments=False, posix=True)¶: 使用类 shell 语法拆分字符串 s。如果 comments 为 False (默认值)，则将禁用给定字符串中注释的解析（将 shlex 实例的 commenters 属性设置为空字符串）。此函数默认以 POSIX 模式运行，但如果 posix 参数为 false，则使用非 POSIX 模式。

3.12 版本中的变化：现在，为 s 参数传入 None 会引发异常，而不是读取 sys.stdin。

shlex.join(split_command)¶

连接列表 split_command 中的令牌并返回一个字符串。此函数是 split() 的逆操作。

>>> from shlex import join
>>> print(join(['echo', '-n', 'Multiple words']))
echo -n 'Multiple words'

返回的值经过 shell 转义以防止注入漏洞（请参阅 quote()）。

在 3.8 版本加入。

shlex.quote(s)¶

返回字符串 s 的 shell 转义版本。返回的值是一个字符串，可以安全地用作 shell 命令行中的单个令牌，适用于无法使用列表的情况。

警告

shlex 模块仅适用于 Unix shell。

quote() 函数不能保证在非 POSIX 兼容 shell 或其他操作系统（如 Windows）的 shell 上是正确的。在此类 shell 上执行由此模块引用的命令可能会导致命令注入漏洞。

请考虑使用带有列表的函数来传递命令参数，例如 subprocess.run() 并设置 shell=False。

这个惯用语是不安全的

>>> filename = 'somefile; rm -rf ~'
>>> command = 'ls -l {}'.format(filename)
>>> print(command)  # executed by a shell: boom!
ls -l somefile; rm -rf ~

quote() 让你填补安全漏洞

>>> from shlex import quote
>>> command = 'ls -l {}'.format(quote(filename))
>>> print(command)
ls -l 'somefile; rm -rf ~'
>>> remote_command = 'ssh home {}'.format(quote(command))
>>> print(remote_command)
ssh home 'ls -l '"'"'somefile; rm -rf ~'"'"''

引用与 UNIX shell 和 split() 兼容

>>> from shlex import split
>>> remote_command = split(remote_command)
>>> remote_command
['ssh', 'home', "ls -l 'somefile; rm -rf ~'"]
>>> command = split(remote_command[-1])
>>> command
['ls', '-l', 'somefile; rm -rf ~']

在 3.3 版本加入。

shlex 模块定义了以下类

class shlex.shlex(instream=None, infile=None, posix=False, punctuation_chars=False)¶: shlex 实例或子类实例是一个词法分析器对象。如果存在，初始化参数指定从何处读取字符。它必须是一个具有 read() 和 readline() 方法的文件/流式对象，或者是一个字符串。如果没有给出参数，则从 sys.stdin 读取输入。第二个可选参数是一个文件名字符串，它设置 infile 属性的初始值。如果 instream 参数省略或等于 sys.stdin，则此第二个参数默认为“stdin”。posix 参数定义操作模式：当 posix 不为真（默认）时，shlex 实例将以兼容模式运行。在 POSIX 模式下运行时，shlex 将尽量接近 POSIX shell 解析规则。punctuation_chars 参数提供了一种使行为更接近实际 shell 解析方式的方法。它可以采用多个值：默认值 False 保留了 Python 3.5 及更早版本中的行为。如果设置为 True，则字符 ();<>|& 的解析会改变：这些字符（被视为标点字符）的任何连续运行都将作为单个令牌返回。如果设置为非空字符字符串，则这些字符将用作标点字符。wordchars 属性中出现在 punctuation_chars 中的任何字符都将从 wordchars 中移除。有关更多信息，请参阅改进与 Shell 的兼容性。punctuation_chars 只能在 shlex 实例创建时设置，之后不能修改。

3.6 版本中的变化：添加了 punctuation_chars 参数。

参见

模块 configparser: 用于解析类似于 Windows .ini 文件的配置文件。

shlex 对象¶

一个 shlex 实例具有以下方法

shlex.get_token()¶: 返回一个令牌。如果令牌已使用 push_token() 堆叠，则从堆栈中弹出一个令牌。否则，从输入流中读取一个。如果读取遇到立即文件结束，则返回 eof（在非 POSIX 模式下为空字符串 ('')，在 POSIX 模式下为 None）。

shlex.push_token(str)¶: 将参数压入令牌堆栈。

shlex.read_token()¶: 读取一个原始令牌。忽略回压堆栈，不解释源请求。（这通常不是一个有用的入口点，在此处仅为完整性而文档化。）

shlex.sourcehook(filename)¶

当 shlex 检测到源请求（参见下面的 source）时，此方法将以下令牌作为参数，并期望返回一个由文件名和打开的文件类对象组成的元组。

通常，此方法首先去除参数中的所有引号。如果结果是绝对路径名，或者之前没有生效的源请求，或者之前的源是流（例如 sys.stdin），则结果保持不变。否则，如果结果是相对路径名，则会在源包含堆栈上位于其正上方的文件名的目录部分作为前缀（此行为类似于 C 预处理器处理 #include "file.h" 的方式）。

处理后的结果被视为文件名，并作为元组的第一个组件返回，并对其调用 open() 以产生第二个组件。（注意：这与实例初始化中参数的顺序相反！）

公开此钩子是为了让您可以使用它来实现目录搜索路径、添加文件扩展名和其他命名空间技巧。没有相应的“关闭”钩子，但是当它返回 EOF 时，shlex 实例将调用源输入流的 close() 方法。

要更明确地控制源堆叠，请使用 push_source() 和 pop_source() 方法。

shlex.push_source(newstream, newfile=None)¶: 将输入源流推入输入堆栈。如果指定了文件名参数，它稍后将可用于错误消息。这与 sourcehook() 方法内部使用的方法相同。

shlex.pop_source()¶: 从输入堆栈中弹出最后推入的输入源。这与词法分析器在堆叠输入流上达到 EOF 时内部使用的方法相同。

shlex.error_leader(infile=None, lineno=None)¶

此方法生成 Unix C 编译器错误标签格式的错误消息开头；格式为 '"%s", line %d: '，其中 %s 被当前源文件名替换，%d 被当前输入行号替换（可选参数可用于覆盖这些）。

提供此便利是为了鼓励 shlex 用户以 Emacs 和其他 Unix 工具理解的标准、可解析的格式生成错误消息。

shlex 子类的实例有一些公共实例变量，它们要么控制词法分析，要么可用于调试

shlex.commenters¶: 被识别为注释开始符的字符串。从注释开始符到行尾的所有字符都将被忽略。默认情况下只包含 '#'。

shlex.wordchars¶: 将累积成多字符令牌的字符字符串。默认情况下，包含所有 ASCII 字母数字和下划线。在 POSIX 模式下，还包括 Latin-1 字符集中的重音字符。如果 punctuation_chars 不为空，则字符 ~-./*?=，它们可能出现在文件名规范和命令行参数中，也将包含在此属性中，并且 punctuation_chars 中出现的任何字符如果存在于 wordchars 中，都将从 wordchars 中移除。如果 whitespace_split 设置为 True，这将没有效果。

shlex.whitespace¶: 将被视为空白并跳过的字符。空白分隔令牌。默认情况下，包括空格、制表符、换行符和回车符。

shlex.escape¶: 将被视为转义字符的字符。这只在 POSIX 模式下使用，默认只包含 '\'。

shlex.quotes¶: 将被视为字符串引号的字符。令牌会累积，直到再次遇到相同的引号（因此，不同的引号类型会像 shell 中一样相互保护）。默认情况下，包括 ASCII 单引号和双引号。

shlex.escapedquotes¶: quotes 中将解释 escape 中定义的转义字符的字符。这仅在 POSIX 模式下使用，默认只包含 '"'。

shlex.whitespace_split¶: 如果为 True，则令牌将仅在空白处拆分。这对于例如使用 shlex 解析命令行，以类似于 shell 参数的方式获取令牌很有用。当与 punctuation_chars 结合使用时，令牌将在空白处以及这些字符处拆分。

3.8 版本中的变化：punctuation_chars 属性与 whitespace_split 属性兼容了。

shlex.infile¶: 当前输入文件的名称，最初在类实例化时设置或稍后通过源请求堆叠。在构建错误消息时检查此项可能很有用。

shlex.instream¶: 此 shlex 实例从中读取字符的输入流。

shlex.source¶: 此属性默认为 None。如果您为其分配一个字符串，则该字符串将被识别为类似于各种 shell 中 source 关键字的词法级别包含请求。也就是说，紧随其后的令牌将作为文件名打开，并从该流中获取输入直到 EOF，此时将调用该流的 close() 方法，输入源将再次成为原始输入流。源请求可以堆叠任意深度。

shlex.debug¶: 如果此属性为数字且为 1 或更大，则 shlex 实例将打印其行为的详细进度输出。如果您需要使用此功能，可以阅读模块源代码以了解详细信息。

shlex.lineno¶: 源行号（到目前为止看到的换行符数加一）。

shlex.token¶: 令牌缓冲区。在捕获异常时检查此项可能很有用。

shlex.eof¶: 用于确定文件结束的令牌。在非 POSIX 模式下，它将设置为空字符串 ('')，在 POSIX 模式下，它将设置为 None。

shlex.punctuation_chars¶: 一个只读属性。将被视为标点的字符。连续的标点字符将作为单个令牌返回。但是，请注意，不会执行语义有效性检查：例如，“>>>”可以作为令牌返回，即使它可能不被 shell 识别。

在 3.6 版本加入。

解析规则¶

在非 POSIX 模式下运行时，shlex 将尝试遵守以下规则。

引号字符在单词内不被识别（Do"Not"Separate 被解析为单个单词 Do"Not"Separate）；
不识别转义字符；
将字符括在引号中会保留引号内所有字符的字面值；
结束引号分隔单词（"Do"Separate 被解析为 "Do" 和 Separate）；
如果 whitespace_split 为 False，则任何未声明为单词字符、空白或引号的字符都将作为单字符令牌返回。如果为 True，则 shlex 将只在空白处分隔单词；
EOF 用空字符串 ('') 表示；
即使带引号的空字符串也无法解析。

在 POSIX 模式下运行时，shlex 将尝试遵守以下解析规则。

引号被去除，不分隔单词（"Do"Not"Separate" 被解析为单个单词 DoNotSeparate）；
非引号转义字符（例如 '\'）保留其后下一个字符的字面值；
将不在 escapedquotes 中的引号（例如 "'"）中的字符括起来会保留引号内所有字符的字面值；
将 escapedquotes 中的引号（例如 '"'）中的字符括起来会保留引号内所有字符的字面值，但 escape 中提到的字符除外。转义字符仅在其后跟着使用的引号或转义字符本身时才保留其特殊含义。否则，转义字符将被视为普通字符。
EOF 用 None 值表示；
允许带引号的空字符串 ('')。

改进与 Shell 的兼容性¶

在 3.6 版本加入。

shlex 类提供了与常见 Unix shell（如 bash、dash 和 sh）执行的解析的兼容性。要利用此兼容性，请在构造函数中指定 punctuation_chars 参数。此参数默认为 False，这保留了 3.6 之前的行为。但是，如果将其设置为 True，则字符 ();<>|& 的解析会改变：这些字符的任何连续运行都将作为单个令牌返回。虽然这还不是一个完整的 shell 解析器（考虑到存在多种 shell，这超出了标准库的范围），但它确实允许您比以前更容易地执行命令行处理。为了说明，您可以在以下代码片段中看到差异

>>> import shlex
>>> text = "a && b; c && d || e; f >'abc'; (def \"ghi\")"
>>> s = shlex.shlex(text, posix=True)
>>> s.whitespace_split = True
>>> list(s)
['a', '&&', 'b;', 'c', '&&', 'd', '||', 'e;', 'f', '>abc;', '(def', 'ghi)']
>>> s = shlex.shlex(text, posix=True, punctuation_chars=True)
>>> s.whitespace_split = True
>>> list(s)
['a', '&&', 'b', ';', 'c', '&&', 'd', '||', 'e', ';', 'f', '>', 'abc', ';',
'(', 'def', 'ghi', ')']

当然，将返回对 shell 无效的令牌，您需要对返回的令牌实现自己的错误检查。

除了将 True 作为 punctuation_chars 参数的值传递之外，您还可以传递一个包含特定字符的字符串，这些字符将用于确定哪些字符构成标点符号。例如

>>> import shlex
>>> s = shlex.shlex("a && b || c", punctuation_chars="|")
>>> list(s)
['a', '&', '&', 'b', '||', 'c']

备注

当指定 punctuation_chars 时，wordchars 属性会增加字符 ~-./*?=。这是因为这些字符可以出现在文件名（包括通配符）和命令行参数（例如 --color=auto）中。因此

>>> import shlex
>>> s = shlex.shlex('~/a && b-c --color=auto || d *.py?',
...                 punctuation_chars=True)
>>> list(s)
['~/a', '&&', 'b-c', '--color=auto', '||', 'd', '*.py?']

然而，为了尽可能地匹配 shell，建议在使用 punctuation_chars 时始终使用 posix 和 whitespace_split，这将完全抵消 wordchars 的作用。

为了达到最佳效果，punctuation_chars 应与 posix=True 结合设置。（请注意，posix=False 是 shlex 的默认值。）

`shlex` — 简单的词法分析¶

shlex 对象¶

解析规则¶

改进与 Shell 的兼容性¶

目录

上一主题

下一主题

本页

shlex — 简单的词法分析¶

shlex 对象¶

解析规则¶

改进与 Shell 的兼容性¶

`shlex` — 简单的词法分析¶