Unicode HOWTO

发布:

1.12

本 HOWTO 讨论了 Python 对表示文本数据的 Unicode 规范的支持,并解释了人们在使用 Unicode 时常遇到的各种问题。

Unicode 简介

定义

今天的程序需要能够处理各种字符。应用程序通常被国际化以显示各种用户可选择语言的消息和输出;同一个程序可能需要用英语、法语、日语、希伯来语或俄语输出错误消息。网页内容可以用这些语言中的任何一种编写,也可以包含各种 emoji 符号。Python 的字符串类型使用 Unicode 标准来表示字符,这使得 Python 程序能够处理所有这些不同的可能字符。

Unicode (https://www.unicode.org/) 是一个旨在列出人类语言使用的所有字符并为每个字符赋予其唯一代码的规范。Unicode 规范不断修订和更新,以添加新的语言和符号。

一个**字符**是文本中可能最小的组成部分。'A'、'B'、'C' 等都是不同的字符。'È' 和 'Í' 也是。字符因你所说的语言或上下文而异。例如,有一个表示“罗马数字一”的字符 'Ⅰ',它与大写字母 'I' 是分开的。它们通常看起来相同,但它们是具有不同含义的两个不同字符。

Unicode 标准描述了字符如何由**码点**表示。码点值是一个介于 0 到 0x10FFFF(大约 110 万个值,实际分配的数量小于此)之间的整数。在标准和本文档中,码点用 U+265E 符号表示,表示值为 0x265e(十进制 9,822)的字符。

Unicode 标准包含许多列出字符及其对应码点的表格

0061    'a'; LATIN SMALL LETTER A
0062    'b'; LATIN SMALL LETTER B
0063    'c'; LATIN SMALL LETTER C
...
007B    '{'; LEFT CURLY BRACKET
...
2167    'Ⅷ'; ROMAN NUMERAL EIGHT
2168    'Ⅸ'; ROMAN NUMERAL NINE
...
265E    '♞'; BLACK CHESS KNIGHT
265F    '♟'; BLACK CHESS PAWN
...
1F600   '😀'; GRINNING FACE
1F609   '😉'; WINKING FACE
...

严格来说,这些定义意味着说“这是字符 U+265E”是没有意义的。U+265E 是一个码点,它代表某个特定字符;在这种情况下,它代表字符“黑色国际象棋骑士”,'♞'。在非正式语境中,码点和字符之间的这种区别有时会被忽略。

字符在屏幕或纸张上由一组图形元素表示,这组图形元素称为**字形**。例如,大写字母 A 的字形是两个斜线和一个水平线,尽管具体细节取决于所使用的字体。大多数 Python 代码不需要担心字形;确定要显示的正确字形通常是 GUI 工具包或终端字体渲染器的任务。

编码

总结上一节:Unicode 字符串是一个码点序列,码点是 0 到 0x10FFFF(十进制 1,114,111)之间的数字。这个码点序列需要以一组**代码单元**的形式存储在内存中,然后**代码单元**映射到 8 位字节。将 Unicode 字符串转换为字节序列的规则称为**字符编码**,或简称为**编码**。

您可能想到的第一个编码是使用 32 位整数作为代码单元,然后使用 CPU 对 32 位整数的表示。在这种表示中,字符串“Python”可能看起来像这样

   P           y           t           h           o           n
0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
   0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

这种表示方法很简单,但使用它会带来一些问题。

  1. 它不可移植;不同的处理器以不同的方式排列字节。

  2. 它非常浪费空间。在大多数文本中,大部分码点小于 127 或小于 255,因此大量空间被 0x00 字节占用。上面的字符串占用 24 字节,而 ASCII 表示只需要 6 字节。增加的内存使用量无关紧要(台式电脑有千兆字节的内存,字符串通常不会那么大),但将磁盘和网络带宽使用量增加 4 倍是不可接受的。

  3. 它与现有的 C 函数(例如 strlen())不兼容,因此需要使用一组新的宽字符串函数。

因此,这种编码很少使用,人们转而选择更高效和方便的其他编码,例如 UTF-8。

UTF-8 是最常用的编码之一,Python 常常默认使用它。UTF 代表“Unicode 转换格式”,'8' 表示编码中使用 8 位值。(还有 UTF-16 和 UTF-32 编码,但它们的使用频率低于 UTF-8。)UTF-8 使用以下规则

  1. 如果码点小于 128,则由相应的字节值表示。

  2. 如果码点大于等于 128,则转换为两个、三个或四个字节的序列,其中序列中的每个字节都介于 128 和 255 之间。

UTF-8 具有以下几个方便的特性

  1. 它可以处理任何 Unicode 码点。

  2. Unicode 字符串被转换为字节序列,该序列仅在表示空字符 (U+0000) 时包含嵌入的零字节。这意味着 UTF-8 字符串可以由 C 函数(例如 strcpy())处理,并通过不能处理除字符串结束标记以外的零字节的协议发送。

  3. ASCII 文本字符串也是有效的 UTF-8 文本。

  4. UTF-8 相当紧凑;大多数常用字符可以用一到两个字节表示。

  5. 如果字节损坏或丢失,可以确定下一个 UTF-8 编码码点的开始并重新同步。随机的 8 位数据也不太可能看起来像有效的 UTF-8。

  6. UTF-8 是一种面向字节的编码。该编码指定每个字符由一个或多个字节的特定序列表示。这避免了在使用面向整数和字长的编码(如 UTF-16 和 UTF-32)时可能出现的字节序问题,在这些编码中,字节序列因字符串编码的硬件而异。

参考资料

Unicode 联盟网站 提供字符表、词汇表和 Unicode 规范的 PDF 版本。请准备好一些艰难的阅读。Unicode 的起源和发展年表 也可在该网站上找到。

在 Computerphile Youtube 频道上,Tom Scott 简要讨论了 Unicode 和 UTF-8 的历史(9 分 36 秒)。

为了帮助理解标准,Jukka Korpela 撰写了一本阅读 Unicode 字符表的入门指南

Joel Spolsky 撰写了另一篇优秀的入门文章。如果本介绍未能让您清楚,您应该在继续之前尝试阅读这篇替代文章。

维基百科条目通常很有帮助;例如,请参阅“字符编码”和UTF-8的条目。

Python 的 Unicode 支持

既然您已经了解了 Unicode 的基本知识,我们可以看看 Python 的 Unicode 特性。

字符串类型

自 Python 3.0 以来,该语言的 str 类型包含 Unicode 字符,这意味着使用 "unicode rocks!"'unicode rocks!' 或三引号字符串语法创建的任何字符串都存储为 Unicode。

Python 源代码的默认编码是 UTF-8,因此您可以简单地在字符串字面量中包含 Unicode 字符

try:
    with open('/tmp/input.txt', 'r') as f:
        ...
except OSError:
    # 'File not found' error message.
    print("Fichier non trouvé")

旁注:Python 3 还支持在标识符中使用 Unicode 字符

répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")

如果您无法在编辑器中输入特定字符,或者出于某种原因希望源代码仅包含 ASCII 字符,您也可以在字符串字面量中使用转义序列。(根据您的系统,您可能会看到实际的大写 delta 字形而不是 u 转义。)

>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'

此外,可以使用 bytesdecode() 方法创建字符串。此方法接受一个 encoding 参数,例如 UTF-8,并可选地接受一个 errors 参数。

errors 参数指定当输入字符串无法根据编码规则转换时的响应。此参数的合法值包括 'strict'(引发 UnicodeDecodeError 异常)、'replace'(使用 U+FFFDREPLACEMENT CHARACTER)、'ignore'(只从 Unicode 结果中删除字符)或 'backslashreplace'(插入 \xNN 转义序列)。以下示例显示了差异

>>> b'\x80abc'.decode("utf-8", "strict")
Traceback (most recent call last):
    ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0:
  invalid start byte
>>> b'\x80abc'.decode("utf-8", "replace")
'\ufffdabc'
>>> b'\x80abc'.decode("utf-8", "backslashreplace")
'\\x80abc'
>>> b'\x80abc'.decode("utf-8", "ignore")
'abc'

编码被指定为包含编码名称的字符串。Python 提供了大约 100 种不同的编码;有关列表,请参阅 Python 库参考中的 标准编码。某些编码具有多个名称;例如,'latin-1''iso_8859_1''8859 都是相同编码的同义词。

单字符 Unicode 字符串也可以使用内置函数 chr() 创建,该函数接受整数并返回长度为 1 的 Unicode 字符串,其中包含相应的码点。反向操作是内置函数 ord(),它接受一个单字符 Unicode 字符串并返回码点值

>>> chr(57344)
'\ue000'
>>> ord('\ue000')
57344

转换为字节

bytes.decode() 的相反方法是 str.encode(),它返回以请求的 encoding 编码的 Unicode 字符串的 bytes 表示。

errors 参数与 decode() 方法的参数相同,但支持更多可能的处理程序。除了 'strict''ignore''replace'(在这种情况下插入问号而不是不可编码的字符)之外,还有 'xmlcharrefreplace'(插入 XML 字符引用)、backslashreplace(插入 \uNNNN 转义序列)和 namereplace(插入 \N{...} 转义序列)。

以下示例显示了不同的结果

>>> u = chr(40960) + 'abcd' + chr(1972)
>>> u.encode('utf-8')
b'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')
Traceback (most recent call last):
    ...
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in
  position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
b'abcd'
>>> u.encode('ascii', 'replace')
b'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
b'ꀀabcd޴'
>>> u.encode('ascii', 'backslashreplace')
b'\\ua000abcd\\u07b4'
>>> u.encode('ascii', 'namereplace')
b'\\N{YI SYLLABLE IT}abcd\\u07b4'

用于注册和访问可用编码的低级例程在 codecs 模块中找到。实现新编码也需要理解 codecs 模块。然而,该模块返回的编码和解码函数通常比使用起来更底层,并且编写新编码是一项专门任务,因此本 HOWTO 不会涵盖该模块。

Python 源代码中的 Unicode 字面量

在 Python 源代码中,特定的 Unicode 码点可以使用 \u 转义序列编写,后跟四个十六进制数字,给出码点。\U 转义序列类似,但预期是八个十六进制数字,而不是四个

>>> s = "a\xac\u1234\u20ac\U00008000"
... #     ^^^^ two-digit hex escape
... #         ^^^^^^ four-digit Unicode escape
... #                     ^^^^^^^^^^ eight-digit Unicode escape
>>> [ord(c) for c in s]
[97, 172, 4660, 8364, 32768]

少量使用大于 127 的码点的转义序列是没问题的,但如果您使用许多重音字符,例如在用法语或其他使用重音的语言编写的程序中,这就会变得很麻烦。您还可以使用内置函数 chr() 组装字符串,但这更加繁琐。

理想情况下,您希望能够用您语言的自然编码编写字面量。这样您就可以用您最喜欢的编辑器编辑 Python 源代码,它会自然地显示重音字符,并在运行时使用正确的字符。

Python 默认支持使用 UTF-8 编写源代码,但如果您声明正在使用的编码,则可以使用几乎任何编码。这可以通过在源文件的第一行或第二行包含特殊注释来完成

#!/usr/bin/env python
# -*- coding: latin-1 -*-

u = 'abcdé'
print(ord(u[-1]))

此语法受到 Emacs 用于指定文件本地变量的记法启发。Emacs 支持许多不同的变量,但 Python 只支持“编码”。-*- 符号表示 Emacs 认为此注释是特殊的;它们对 Python 没有意义,但只是一种约定。Python 在注释中查找 coding: namecoding=name

如果您不包含此类注释,则默认使用的编码将是 UTF-8,如前所述。另请参阅 PEP 263 以获取更多信息。

Unicode 属性

Unicode 规范包含一个关于码点信息的数据库。对于每个已定义的码点,信息包括字符的名称、类别、适用的数值(例如表示罗马数字、三分之一和五分之四等数字概念的字符)。还有与显示相关的属性,例如如何在双向文本中使用码点。

以下程序显示了几个字符的一些信息,并打印了某个特定字符的数值

import unicodedata

u = chr(233) + chr(0x0bf2) + chr(3972) + chr(6000) + chr(13231)

for i, c in enumerate(u):
    print(i, '%04x' % ord(c), unicodedata.category(c), end=" ")
    print(unicodedata.name(c))

# Get numeric value of second character
print(unicodedata.numeric(u[1]))

运行时,它会打印

0 00e9 Ll LATIN SMALL LETTER E WITH ACUTE
1 0bf2 No TAMIL NUMBER ONE THOUSAND
2 0f84 Mn TIBETAN MARK HALANTA
3 1770 Lo TAGBANWA LETTER SA
4 33af So SQUARE RAD OVER S SQUARED
1000.0

类别代码是描述字符性质的缩写。它们被分为“字母”、“数字”、“标点符号”或“符号”等类别,这些类别又被细分为子类别。从上面的输出中获取代码,'Ll' 表示“字母,小写”,'No' 表示“数字,其他”,'Mn' 表示“标记,非间距”,'So' 表示“符号,其他”。有关类别代码列表,请参阅 Unicode 字符数据库文档的通用类别值部分

字符串比较

Unicode 为字符串比较增加了一些复杂性,因为相同的字符集可以由不同的码点序列表示。例如,像“ê”这样的字母可以表示为单个码点 U+00EA,或者表示为 U+0065 U+0302,即“e”的码点后跟“组合抑扬符”的码点。这些在打印时会产生相同的输出,但一个是长度为 1 的字符串,另一个是长度为 2 的字符串。

用于不区分大小写比较的工具之一是 casefold() 字符串方法,它根据 Unicode 标准描述的算法将字符串转换为不区分大小写形式。此算法对某些字符(例如德语字母“ß”(码点 U+00DF))有特殊处理,它会变成小写字母对“ss”。

>>> street = 'Gürzenichstraße'
>>> street.casefold()
'gürzenichstrasse'

第二个工具是 unicodedata 模块的 normalize() 函数,该函数将字符串转换为几种规范形式之一,其中后面带有组合字符的字母会被单个字符替换。normalize() 可用于执行字符串比较,如果两个字符串以不同方式使用组合字符,则不会错误地报告不相等

import unicodedata

def compare_strs(s1, s2):
    def NFD(s):
        return unicodedata.normalize('NFD', s)

    return NFD(s1) == NFD(s2)

single_char = 'ê'
multiple_chars = '\N{LATIN SMALL LETTER E}\N{COMBINING CIRCUMFLEX ACCENT}'
print('length of first string=', len(single_char))
print('length of second string=', len(multiple_chars))
print(compare_strs(single_char, multiple_chars))

运行时,这会输出

$ python compare-strs.py
length of first string= 1
length of second string= 2
True

normalize() 函数的第一个参数是一个字符串,给出所需的规范化形式,可以是 'NFC'、'NFKC'、'NFD' 和 'NFKD' 之一。

Unicode 标准还规定了如何进行不区分大小写的比较

import unicodedata

def compare_caseless(s1, s2):
    def NFD(s):
        return unicodedata.normalize('NFD', s)

    return NFD(NFD(s1).casefold()) == NFD(NFD(s2).casefold())

# Example usage
single_char = 'ê'
multiple_chars = '\N{LATIN CAPITAL LETTER E}\N{COMBINING CIRCUMFLEX ACCENT}'

print(compare_caseless(single_char, multiple_chars))

这将打印 True。(为什么 NFD() 被调用两次?因为有一些字符会导致 casefold() 返回非规范化字符串,因此结果需要再次规范化。有关讨论和示例,请参阅 Unicode 标准第 3.13 节。)

Unicode 正则表达式

re 模块支持的正则表达式可以作为字节或字符串提供。一些特殊字符序列,例如 \d\w,根据模式是作为字节还是字符串提供而具有不同的含义。例如,\d 将匹配字节中的字符 [0-9],但在字符串中将匹配 'Nd' 类别中的任何字符。

此示例中的字符串用泰语和阿拉伯数字写着数字 57

import re
p = re.compile(r'\d+')

s = "Over \u0e55\u0e57 57 flavours"
m = p.search(s)
print(repr(m.group()))

执行时,\d+ 将匹配泰语数字并将其打印出来。如果您向 compile() 提供 re.ASCII 标志,\d+ 将匹配子字符串“57”。

同样,\w 匹配各种 Unicode 字符,但在字节中或提供了 re.ASCII 时只匹配 [a-zA-Z0-9_],而 \s 将匹配 Unicode 空白字符或 [ \t\n\r\f\v]

参考资料

一些关于 Python Unicode 支持的优秀替代讨论包括

str 类型在 Python 库参考中的 文本序列类型 — str 中描述。

unicodedata 模块的文档。

codecs 模块的文档。

Marc-André Lemburg 在 EuroPython 2002 上发表了题为“Python 和 Unicode”(PDF 幻灯片)的演讲。幻灯片提供了 Python 2 Unicode 功能设计的优秀概述(其中 Unicode 字符串类型称为 unicode,字面量以 u 开头)。

读取和写入 Unicode 数据

一旦您编写了一些处理 Unicode 数据的代码,下一个问题就是输入/输出。您如何将 Unicode 字符串输入到您的程序中,以及如何将 Unicode 转换为适合存储或传输的形式?

根据您的输入源和输出目标,您可能不需要做任何事情;您应该检查您的应用程序中使用的库是否原生支持 Unicode。例如,XML 解析器通常返回 Unicode 数据。许多关系数据库也支持 Unicode 值列,并且可以从 SQL 查询返回 Unicode 值。

Unicode 数据通常在写入磁盘或通过套接字发送之前转换为特定的编码。您可以自己完成所有工作:打开文件,从中读取 8 位字节对象,然后使用 bytes.decode(encoding) 转换字节。但是,不建议采用手动方法。

一个问题是编码的多字节性质;一个 Unicode 字符可以由几个字节表示。如果您想以任意大小的块(例如,1024 或 4096 字节)读取文件,则需要编写错误处理代码来捕获在块末尾只读取了单个 Unicode 字符编码的字节的一部分的情况。一个解决方案是将整个文件读入内存,然后执行解码,但这会阻止您处理非常大的文件;如果您需要读取 2 GiB 文件,则需要 2 GiB 内存。(实际上更多,因为至少有一会儿您需要同时在内存中保存编码字符串及其 Unicode 版本。)

解决方案是使用低级解码接口来捕获部分编码序列的情况。实现此功能的工作已经为您完成:内置函数 open() 可以返回一个文件状对象,该对象假定文件内容采用指定的编码,并接受 Unicode 参数用于 read()write() 等方法。这通过 open()encodingerrors 参数实现,它们的解释与 str.encode()bytes.decode() 中的参数相同。

因此,从文件中读取 Unicode 很简单

with open('unicode.txt', encoding='utf-8') as f:
    for line in f:
        print(repr(line))

还可以以更新模式打开文件,允许读写

with open('test', encoding='utf-8', mode='w+') as f:
    f.write('\u4500 blah blah blah\n')
    f.seek(0)
    print(repr(f.readline()[:1]))

Unicode 字符 U+FEFF 用作字节序标记(BOM),通常作为文件的第一个字符写入,以帮助自动检测文件的字节序。某些编码(如 UTF-16)期望文件开头存在 BOM;当使用此类编码时,BOM 将自动写入为第一个字符,并在读取文件时静默删除。这些编码有变体,例如用于小端和大端编码的“utf-16-le”和“utf-16-be”,它们指定特定的字节序并且不跳过 BOM。

在某些区域,也习惯在 UTF-8 编码文件的开头使用“BOM”;这个名称具有误导性,因为 UTF-8 不依赖于字节顺序。该标记只是声明文件采用 UTF-8 编码。为了读取此类文件,请使用“utf-8-sig”编解码器,以便在存在时自动跳过该标记。

Unicode 文件名

目前常用的绝大多数操作系统都支持包含任意 Unicode 字符的文件名。通常这是通过将 Unicode 字符串转换为根据系统而异的某种编码来实现的。如今 Python 正趋向于使用 UTF-8:macOS 上的 Python 已经使用了几个版本的 UTF-8,Python 3.6 也开始在 Windows 上使用 UTF-8。在 Unix 系统上,只有在您设置了 LANGLC_CTYPE 环境变量时才会有文件系统编码;如果您没有设置,默认编码仍然是 UTF-8。

sys.getfilesystemencoding() 函数返回当前系统上要使用的编码,以防您想手动编码,但没有太多理由这样做。打开文件进行读写时,通常只需提供 Unicode 字符串作为文件名,它将自动转换为正确的编码

filename = 'filename\u4500abc'
with open(filename, 'w') as f:
    f.write('blah\n')

os 模块中的函数,例如 os.stat(),也将接受 Unicode 文件名。

os.listdir() 函数返回文件名,这引出了一个问题:它应该返回文件名的 Unicode 版本,还是应该返回包含编码版本的字节?os.listdir() 可以同时做到这两点,这取决于您提供的目录路径是字节还是 Unicode 字符串。如果您传递 Unicode 字符串作为路径,文件名将使用文件系统的编码进行解码,并返回 Unicode 字符串列表;而传递字节路径将返回字节形式的文件名。例如,假设默认的文件系统编码是 UTF-8,运行以下程序

fn = 'filename\u4500abc'
f = open(fn, 'w')
f.close()

import os
print(os.listdir(b'.'))
print(os.listdir('.'))

将生成以下输出

$ python listdir-test.py
[b'filename\xe4\x94\x80abc', ...]
['filename\u4500abc', ...]

第一个列表包含 UTF-8 编码的文件名,第二个列表包含 Unicode 版本。

请注意,在大多数情况下,您只需坚持使用这些 API 的 Unicode 版本。字节 API 仅应在可能存在无法解码的文件名的系统上使用;目前这基本上仅限于 Unix 系统。

编写支持 Unicode 程序的技巧

本节提供了一些关于编写处理 Unicode 软件的建议。

最重要的提示是

软件内部应仅使用 Unicode 字符串,尽快解码输入数据,并且只在最后才编码输出。

如果您尝试编写既接受 Unicode 字符串又接受字节字符串的处理函数,您会发现您的程序在组合这两种不同类型的字符串的任何地方都容易受到错误的影响。没有自动编码或解码:如果您执行例如 str + bytes,将引发 TypeError

当使用来自 Web 浏览器或其他不受信任源的数据时,一种常见技术是在字符串用于生成的命令行或存储在数据库中之前检查字符串中的非法字符。如果您正在这样做,请务必检查已解码的字符串,而不是编码的字节数据;某些编码可能具有有趣的属性,例如不是双射或不完全与 ASCII 兼容。如果输入数据还指定了编码,则尤其如此,因为攻击者可以选择巧妙的方法在编码的字节流中隐藏恶意文本。

文件编码之间的转换

StreamRecoder 类可以透明地在编码之间进行转换,它接受一个以编码 #1 返回数据的流,并表现得像一个以编码 #2 返回数据的流。

例如,如果您有一个以 Latin-1 编码的输入文件 f,您可以用 StreamRecoder 将其包装,以返回 UTF-8 编码的字节

new_f = codecs.StreamRecoder(f,
    # en/decoder: used by read() to encode its results and
    # by write() to decode its input.
    codecs.getencoder('utf-8'), codecs.getdecoder('utf-8'),

    # reader/writer: used to read and write to the stream.
    codecs.getreader('latin-1'), codecs.getwriter('latin-1') )

未知编码的文件

如果您需要修改一个文件,但不知道文件的编码怎么办?如果您知道编码与 ASCII 兼容,并且只想检查或修改 ASCII 部分,您可以使用 surrogateescape 错误处理程序打开文件

with open(fname, 'r', encoding="ascii", errors="surrogateescape") as f:
    data = f.read()

# make changes to the string 'data'

with open(fname + '.new', 'w',
          encoding="ascii", errors="surrogateescape") as f:
    f.write(data)

surrogateescape 错误处理程序会将任何非 ASCII 字节解码为特殊范围 U+DC80 到 U+DCFF 中的码点。当使用 surrogateescape 错误处理程序编码数据并将其写回时,这些码点将再次变回相同的字节。

参考资料

David Beazley 在 PyCon 2010 上的演讲 掌握 Python 3 输入/输出 的一个部分讨论了文本处理和二进制数据处理。

Marc-André Lemburg 演讲 “在 Python 中编写支持 Unicode 的应用程序”的 PDF 幻灯片 讨论了字符编码问题以及如何国际化和本地化应用程序。这些幻灯片仅涵盖 Python 2.x。

Python 中 Unicode 的内部机制 是 Benjamin Peterson 在 PyCon 2013 上的演讲,讨论了 Python 3.3 中 Unicode 的内部表示。

致谢

本文档的初稿由 Andrew Kuchling 撰写。此后,Alexander Belopolsky、Georg Brandl、Andrew Kuchling 和 Ezio Melotti 对其进行了进一步修订。

感谢以下人员指出错误或为此文章提供了建议:Éric Araujo、Nicholas Bastin、Nick Coghlan、Marius Gedminas、Kent Johnson、Ken Krugler、Marc-André Lemburg、Martin von Löwis、Terry J. Reedy、Serhiy Storchaka、Eryk Sun、Chad Whitacre、Graham Wideman。