Unicode HOWTO

版本:

1.12

本 HOWTO 讨论了 Python 对用于表示文本数据的 Unicode 规范的支持,并解释了人们在尝试使用 Unicode 时经常遇到的各种问题。

Unicode 简介

定义

如今的程序需要能够处理各种字符。应用程序通常被国际化以显示各种用户可选择语言的消息和输出;同一个程序可能需要以英语、法语、日语、希伯来语或俄语输出错误消息。Web 内容可以用任何这些语言编写,也可以包含各种表情符号。Python 的字符串类型使用 Unicode 标准来表示字符,这使得 Python 程序能够处理所有这些不同的可能字符。

Unicode (https://www.unicode.org/) 是一种规范,旨在列出人类语言使用的所有字符,并为每个字符分配唯一的代码。Unicode 规范不断修订和更新以添加新的语言和符号。

字符是文本中最小的可能组成部分。‘A’,‘B’,‘C’ 等都是不同的字符。‘È’ 和 ‘Í’ 也是如此。字符会因您所谈论的语言或上下文而异。例如,有一个表示“罗马数字一”的字符 ‘Ⅰ’,它与大写字母 ‘I’ 是分开的。它们通常看起来相同,但它们是两个具有不同含义的不同字符。

Unicode 标准描述了字符如何由代码点表示。代码点值是介于 0 到 0x10FFFF 之间的整数(大约 110 万个值,实际分配的数字小于该值)。在标准和本文档中,代码点使用 U+265E 表示法来表示值为 0x265e(十进制为 9,822)的字符。

Unicode 标准包含许多列出字符及其对应代码点的表格

0061    'a'; LATIN SMALL LETTER A
0062    'b'; LATIN SMALL LETTER B
0063    'c'; LATIN SMALL LETTER C
...
007B    '{'; LEFT CURLY BRACKET
...
2167    'Ⅷ'; ROMAN NUMERAL EIGHT
2168    'Ⅸ'; ROMAN NUMERAL NINE
...
265E    '♞'; BLACK CHESS KNIGHT
265F    '♟'; BLACK CHESS PAWN
...
1F600   '😀'; GRINNING FACE
1F609   '😉'; WINKING FACE
...

严格地说,这些定义意味着说“这是字符 U+265E”是没有意义的。 U+265E 是一个代码点,它表示某个特定字符;在这种情况下,它表示字符 ‘BLACK CHESS KNIGHT’,‘♞’。在非正式情况下,这种代码点和字符之间的区别有时会被遗忘。

字符在屏幕或纸上由一组称为字形的图形元素表示。例如,大写 A 的字形是两条斜线和一条水平线,尽管确切的细节将取决于所使用的字体。大多数 Python 代码不需要担心字形;确定要显示的正确字形通常是 GUI 工具包或终端字体渲染器的任务。

编码

总结上一节:Unicode 字符串是一系列代码点,代码点是 0 到 0x10FFFF(十进制为 1,114,111)的数字。这串代码点需要在内存中以一组 **代码单元** 的形式表示,然后 **代码单元** 映射到 8 位字节。将 Unicode 字符串转换为字节序列的规则称为 **字符编码** 或简称为 **编码**。

你可能想到的第一个编码是使用 32 位整数作为代码单元,然后使用 CPU 对 32 位整数的表示。在这种表示中,字符串“Python”可能看起来像这样

   P           y           t           h           o           n
0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
   0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

这种表示方法很简单,但使用它会带来一些问题。

  1. 它不可移植;不同的处理器以不同的顺序排列字节。

  2. 它非常浪费空间。在大多数文本中,大多数代码点小于 127,或小于 255,因此大量空间被 0x00 字节占用。上面的字符串占用 24 个字节,而 ASCII 表示只需要 6 个字节。增加的 RAM 使用量并不重要(台式机有千兆字节的 RAM,字符串通常不会那么大),但将磁盘和网络带宽使用量扩大 4 倍是不可接受的。

  3. 它与现有的 C 函数(如 strlen())不兼容,因此需要使用新的宽字符串函数系列。

因此,这种编码很少使用,人们选择其他更有效、更方便的编码,例如 UTF-8。

UTF-8 是最常用的编码之一,Python 通常默认使用它。UTF 代表“Unicode 转换格式”,而“8”表示编码中使用 8 位值。(还有 UTF-16 和 UTF-32 编码,但它们的使用频率低于 UTF-8。)UTF-8 使用以下规则

  1. 如果代码点 < 128,则用相应的字节值表示。

  2. 如果代码点 >= 128,则将其转换为两个、三个或四个字节的序列,其中序列的每个字节都在 128 到 255 之间。

UTF-8 具有几个方便的属性

  1. 它可以处理任何 Unicode 代码点。

  2. Unicode 字符串被转换为包含嵌入零字节的字节序列,这些零字节仅在表示空字符 (U+0000) 时出现。这意味着 UTF-8 字符串可以由 C 函数(如 strcpy())处理,并通过无法处理除字符串结束标记之外的任何其他零字节的协议发送。

  3. ASCII 文本字符串也是有效的 UTF-8 文本。

  4. UTF-8 相当紧凑;大多数常用字符可以用一个或两个字节表示。

  5. 如果字节损坏或丢失,可以确定下一个 UTF-8 编码代码点的开头并重新同步。随机的 8 位数据也不太可能看起来像有效的 UTF-8。

  6. UTF-8 是一种面向字节的编码。编码指定每个字符由一个或多个字节的特定序列表示。这避免了面向整数和字的编码(如 UTF-16 和 UTF-32)中可能出现的字节顺序问题,在这些编码中,字节序列因字符串编码的硬件而异。

参考资料

The Unicode Consortium site 有字符图表、词汇表和 Unicode 规范的 PDF 版本。准备好阅读一些难度较大的内容。 A chronology of the origin and development of Unicode is also available on the site.

在 Computerphile Youtube 频道上,Tom Scott 简要地 讨论了 Unicode 和 UTF-8 的历史(9 分 36 秒)。

为了帮助理解标准,Jukka Korpela 编写了 一个阅读 Unicode 字符表的入门指南

另一个 好的入门文章 由 Joel Spolsky 撰写。如果本介绍没有让你明白,你应该尝试阅读这篇文章,然后再继续。

维基百科条目通常很有帮助;例如,请参阅“字符编码”和 UTF-8 条目。

Python 的 Unicode 支持

现在你已经了解了 Unicode 的基本知识,我们可以看看 Python 的 Unicode 功能。

字符串类型

从 Python 3.0 开始,该语言的 str 类型包含 Unicode 字符,这意味着使用 "unicode rocks!"'unicode rocks!' 或三引号字符串语法创建的任何字符串都存储为 Unicode。

Python 源代码的默认编码为 UTF-8,因此您只需在字符串文字中包含一个 Unicode 字符即可

try:
    with open('/tmp/input.txt', 'r') as f:
        ...
except OSError:
    # 'File not found' error message.
    print("Fichier non trouvé")

旁注:Python 3 还支持在标识符中使用 Unicode 字符

répertoire = "/tmp/records.log"
with open(répertoire, "w") as f:
    f.write("test\n")

如果您无法在编辑器中输入特定字符,或者出于某种原因希望将源代码保持为纯 ASCII,您也可以在字符串文字中使用转义序列。(根据您的系统,您可能会看到实际的大写三角形符号,而不是 u 转义。)

>>> "\N{GREEK CAPITAL LETTER DELTA}"  # Using the character name
'\u0394'
>>> "\u0394"                          # Using a 16-bit hex value
'\u0394'
>>> "\U00000394"                      # Using a 32-bit hex value
'\u0394'

此外,可以使用 decode() 方法创建字符串 bytes。此方法接受一个 encoding 参数,例如 UTF-8,以及可选的 errors 参数。

errors 参数指定当输入字符串无法根据编码规则进行转换时的响应。此参数的合法值为 'strict'(引发 UnicodeDecodeError 异常)、'replace'(使用 U+FFFDREPLACEMENT CHARACTER)、'ignore'(只将字符从 Unicode 结果中删除)或 'backslashreplace'(插入 \xNN 转义序列)。以下示例显示了差异

>>> b'\x80abc'.decode("utf-8", "strict")  
Traceback (most recent call last):
    ...
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0:
  invalid start byte
>>> b'\x80abc'.decode("utf-8", "replace")
'\ufffdabc'
>>> b'\x80abc'.decode("utf-8", "backslashreplace")
'\\x80abc'
>>> b'\x80abc'.decode("utf-8", "ignore")
'abc'

编码指定为包含编码名称的字符串。Python 附带大约 100 种不同的编码;有关列表,请参阅 Python 库参考中的 标准编码。某些编码有多个名称;例如,'latin-1''iso_8859_1''8859’ 都是同一个编码的同义词。

还可以使用 chr() 内置函数创建单字符 Unicode 字符串,该函数接受整数并返回包含相应代码点的长度为 1 的 Unicode 字符串。反向操作是内置的 ord() 函数,它接受一个单字符 Unicode 字符串并返回代码点值

>>> chr(57344)
'\ue000'
>>> ord('\ue000')
57344

转换为字节

bytes.decode() 的相反方法是 str.encode(),它返回 Unicode 字符串的 bytes 表示形式,以请求的 encoding 编码。

errors 参数与 decode() 方法的参数相同,但支持更多可能的处理程序。除了 'strict''ignore''replace'(在这种情况下,它会插入一个问号而不是不可编码的字符),还有 'xmlcharrefreplace'(插入 XML 字符引用)、backslashreplace(插入 \uNNNN 转义序列)和 namereplace(插入 \N{...} 转义序列)。

以下示例展示了不同的结果

>>> u = chr(40960) + 'abcd' + chr(1972)
>>> u.encode('utf-8')
b'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')  
Traceback (most recent call last):
    ...
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in
  position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
b'abcd'
>>> u.encode('ascii', 'replace')
b'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
b'&#40960;abcd&#1972;'
>>> u.encode('ascii', 'backslashreplace')
b'\\ua000abcd\\u07b4'
>>> u.encode('ascii', 'namereplace')
b'\\N{YI SYLLABLE IT}abcd\\u07b4'

用于注册和访问可用编码的底层例程位于 codecs 模块中。实现新的编码也需要了解 codecs 模块。但是,此模块返回的编码和解码函数通常比舒适的级别更低,编写新的编码是一项专门的任务,因此本 HOWTO 不会介绍该模块。

Python 源代码中的 Unicode 字面量

在 Python 源代码中,可以使用 \u 转义序列来编写特定的 Unicode 代码点,该转义序列后面跟着四个十六进制数字,表示代码点。 \U 转义序列类似,但需要八个十六进制数字,而不是四个

>>> s = "a\xac\u1234\u20ac\U00008000"
... #     ^^^^ two-digit hex escape
... #         ^^^^^^ four-digit Unicode escape
... #                     ^^^^^^^^^^ eight-digit Unicode escape
>>> [ord(c) for c in s]
[97, 172, 4660, 8364, 32768]

对于大于 127 的代码点,使用转义序列在小剂量下是可以的,但如果你使用许多带重音符号的字符,比如在使用法语或其他使用重音符号的语言的程序中,就会变得很烦人。你也可以使用 chr() 内置函数来组装字符串,但这更繁琐。

理想情况下,你希望能够用你语言的自然编码来编写字面量。然后,你可以使用你喜欢的编辑器编辑 Python 源代码,它会自然地显示带重音符号的字符,并在运行时使用正确的字符。

Python 默认支持以 UTF-8 编写源代码,但如果你声明使用的编码,你可以使用几乎任何编码。这可以通过在源文件的第一行或第二行包含一个特殊的注释来完成

#!/usr/bin/env python
# -*- coding: latin-1 -*-

u = 'abcdé'
print(ord(u[-1]))

语法灵感来自 Emacs 用于指定文件本地变量的符号。Emacs 支持许多不同的变量,但 Python 只支持 'coding'。 -*- 符号表示注释是特殊的;它们对 Python 没有意义,但是一种约定。Python 在注释中查找 coding: namecoding=name

如果你不包含这样的注释,将使用默认编码 UTF-8,如前所述。有关更多信息,请参阅 PEP 263

Unicode 属性

Unicode 规范包含一个关于代码点的数据库。对于每个定义的代码点,信息包括字符的名称、类别、适用的数值(对于表示数值概念的字符,例如罗马数字、分数,如三分之一和五分之四等)。还有一些与显示相关的属性,例如如何在双向文本中使用代码点。

以下程序显示了关于几个字符的一些信息,并打印了特定字符的数值

import unicodedata

u = chr(233) + chr(0x0bf2) + chr(3972) + chr(6000) + chr(13231)

for i, c in enumerate(u):
    print(i, '%04x' % ord(c), unicodedata.category(c), end=" ")
    print(unicodedata.name(c))

# Get numeric value of second character
print(unicodedata.numeric(u[1]))

运行时,这将打印

0 00e9 Ll LATIN SMALL LETTER E WITH ACUTE
1 0bf2 No TAMIL NUMBER ONE THOUSAND
2 0f84 Mn TIBETAN MARK HALANTA
3 1770 Lo TAGBANWA LETTER SA
4 33af So SQUARE RAD OVER S SQUARED
1000.0

类别代码是描述字符性质的缩写。这些代码被分组到诸如“字母”、“数字”、“标点符号”或“符号”之类的类别中,这些类别又细分为子类别。以上述输出中的代码为例,'Ll' 表示“字母,小写”,'No' 表示“数字,其他”,'Mn' 表示“标记,非间距”,'So' 表示“符号,其他”。有关类别代码的列表,请参阅 Unicode 字符数据库文档的通用类别值部分

比较字符串

Unicode 在比较字符串时增加了一些复杂性,因为同一组字符可以用不同的代码点序列表示。例如,像“ê”这样的字母可以用单个代码点 U+00EA 表示,也可以用 U+0065 U+0302 表示,即“e”的代码点后跟“COMBINING CIRCUMFLEX ACCENT”的代码点。这些在打印时会产生相同的输出,但一个是长度为 1 的字符串,另一个是长度为 2 的字符串。

用于不区分大小写比较的一个工具是 casefold() 字符串方法,它根据 Unicode 标准中描述的算法将字符串转换为不区分大小写的形式。该算法对诸如德语字母“ß”(代码点 U+00DF)之类的字符有特殊处理,它将变为一对小写字母“ss”。

>>> street = 'Gürzenichstraße'
>>> street.casefold()
'gürzenichstrasse'

第二个工具是 unicodedata 模块的 normalize() 函数,它将字符串转换为几种标准形式之一,其中字母后跟组合字符将被替换为单个字符。 normalize() 可用于执行字符串比较,如果两个字符串使用组合字符的方式不同,则不会错误地报告不等式。

import unicodedata

def compare_strs(s1, s2):
    def NFD(s):
        return unicodedata.normalize('NFD', s)

    return NFD(s1) == NFD(s2)

single_char = 'ê'
multiple_chars = '\N{LATIN SMALL LETTER E}\N{COMBINING CIRCUMFLEX ACCENT}'
print('length of first string=', len(single_char))
print('length of second string=', len(multiple_chars))
print(compare_strs(single_char, multiple_chars))

运行时,这将输出

$ python compare-strs.py
length of first string= 1
length of second string= 2
True

normalize() 函数的第一个参数是一个字符串,它给出所需的规范化形式,可以是“NFC”、“NFKC”、“NFD”和“NFKD”之一。

Unicode 标准还指定了如何进行不区分大小写的比较

import unicodedata

def compare_caseless(s1, s2):
    def NFD(s):
        return unicodedata.normalize('NFD', s)

    return NFD(NFD(s1).casefold()) == NFD(NFD(s2).casefold())

# Example usage
single_char = 'ê'
multiple_chars = '\N{LATIN CAPITAL LETTER E}\N{COMBINING CIRCUMFLEX ACCENT}'

print(compare_caseless(single_char, multiple_chars))

这将打印 True。(为什么 NFD() 被调用两次?因为有一些字符会导致 casefold() 返回一个非规范化字符串,因此结果需要再次规范化。有关讨论和示例,请参阅 Unicode 标准的第 3.13 节。)

Unicode 正则表达式

re 模块支持的正则表达式可以以字节或字符串的形式提供。一些特殊字符序列,例如 \d\w,根据模式是以字节还是字符串形式提供,其含义不同。例如,\d 将匹配字节中的字符 [0-9],但在字符串中将匹配任何属于 'Nd' 类别的字符。

此示例中的字符串用泰语和阿拉伯数字写了数字 57

import re
p = re.compile(r'\d+')

s = "Over \u0e55\u0e57 57 flavours"
m = p.search(s)
print(repr(m.group()))

执行时,\d+ 将匹配泰语数字并打印出来。如果将 re.ASCII 标志提供给 compile()\d+ 将匹配子字符串“57”。

类似地,\w 匹配各种各样的 Unicode 字符,但在字节中或如果提供 re.ASCII,则只匹配 [a-zA-Z0-9_],而 \s 将匹配 Unicode 空白字符或 [ \t\n\r\f\v]

参考资料

以下是一些关于 Python Unicode 支持的优秀替代讨论:

str 类型在 Python 库参考中的 文本序列类型 — str 中有描述。

unicodedata 模块的文档。

codecs 模块的文档。

Marc-André Lemburg 在 EuroPython 2002 上做了 “Python 和 Unicode” (PDF 幻灯片) 的演讲。这些幻灯片很好地概述了 Python 2 的 Unicode 特性的设计(其中 Unicode 字符串类型称为 unicode,字面量以 u 开头)。

读取和写入 Unicode 数据

在编写了一些处理 Unicode 数据的代码之后,下一个问题是输入/输出。如何将 Unicode 字符串输入到程序中,以及如何将 Unicode 转换为适合存储或传输的形式?

根据您的输入源和输出目标,您可能不需要做任何事情;您应该检查应用程序中使用的库是否原生支持 Unicode。例如,XML 解析器通常返回 Unicode 数据。许多关系数据库也支持 Unicode 值列,并且可以从 SQL 查询中返回 Unicode 值。

Unicode 数据通常在写入磁盘或通过套接字发送之前转换为特定的编码。您可以自己完成所有工作:打开一个文件,从中读取一个 8 位字节对象,并使用 bytes.decode(encoding) 转换字节。但是,不建议使用手动方法。

一个问题是编码的多字节性质;一个 Unicode 字符可以用多个字节表示。如果您想以任意大小的块(例如 1024 或 4096 字节)读取文件,则需要编写错误处理代码来捕获在块末尾仅读取了编码单个 Unicode 字符的部分字节的情况。一种解决方案是将整个文件读入内存,然后执行解码,但这会阻止您处理非常大的文件;如果您需要读取一个 2 GiB 的文件,您需要 2 GiB 的 RAM。(实际上更多,因为至少在一段时间内,您需要在内存中同时拥有编码字符串及其 Unicode 版本。)

解决方案是使用低级解码接口来捕获部分编码序列的情况。您已经完成了实现此功能的工作:内置的 open() 函数可以返回一个文件类对象,该对象假定文件的原始内容采用指定的编码,并接受 Unicode 参数用于 read()write() 等方法。这是通过 open()encodingerrors 参数实现的,这些参数的解释与 str.encode()bytes.decode() 中的解释相同。

因此,从文件读取 Unicode 很简单。

with open('unicode.txt', encoding='utf-8') as f:
    for line in f:
        print(repr(line))

也可以以更新模式打开文件,允许同时读取和写入。

with open('test', encoding='utf-8', mode='w+') as f:
    f.write('\u4500 blah blah blah\n')
    f.seek(0)
    print(repr(f.readline()[:1]))

Unicode 字符 U+FEFF 用作字节顺序标记 (BOM),通常作为文件的第一个字符写入,以帮助自动检测文件的字节顺序。某些编码(例如 UTF-16)期望在文件开头存在 BOM;当使用此类编码时,BOM 将自动写入为第一个字符,并在读取文件时静默删除。这些编码的变体,例如“utf-16-le”和“utf-16-be”分别用于小端和大端编码,它们指定了一种特定的字节顺序,并且不会跳过 BOM。

在某些区域,在 UTF-8 编码文件的开头使用“BOM”也是一种惯例;这个名称具有误导性,因为 UTF-8 不依赖于字节顺序。该标记只是宣布该文件以 UTF-8 编码。要读取此类文件,请使用“utf-8-sig”编解码器,如果存在,则自动跳过该标记。

Unicode 文件名

如今,大多数常用的操作系统都支持包含任意 Unicode 字符的文件名。这通常通过将 Unicode 字符串转换为某种编码来实现,该编码因系统而异。如今,Python 正在逐渐采用 UTF-8:MacOS 上的 Python 在几个版本中都使用了 UTF-8,而 Python 3.6 也切换到在 Windows 上使用 UTF-8。在 Unix 系统上,只有 文件系统编码。如果您已设置 LANGLC_CTYPE 环境变量;如果您没有,则默认编码也是 UTF-8。

sys.getfilesystemencoding() 函数返回您当前系统上要使用的编码,以防您想手动进行编码,但没有太多理由这样做。当打开文件进行读取或写入时,您通常只需提供 Unicode 字符串作为文件名,它将自动为您转换为正确的编码。

filename = 'filename\u4500abc'
with open(filename, 'w') as f:
    f.write('blah\n')

中的函数 os 模块,例如 os.stat() 也将接受 Unicode 文件名。

os.listdir() 函数返回文件名,这会引发一个问题:它应该返回文件名的 Unicode 版本,还是应该返回包含编码版本的字节?os.listdir() 可以做到这两点,具体取决于您是将目录路径作为字节还是 Unicode 字符串提供。如果您将 Unicode 字符串作为路径传递,则文件名将使用文件系统的编码进行解码,并将返回 Unicode 字符串列表,而传递字节路径将返回文件名作为字节。例如,假设默认 文件系统编码 是 UTF-8,运行以下程序

fn = 'filename\u4500abc'
f = open(fn, 'w')
f.close()

import os
print(os.listdir(b'.'))
print(os.listdir('.'))

将产生以下输出

$ python listdir-test.py
[b'filename\xe4\x94\x80abc', ...]
['filename\u4500abc', ...]

第一个列表包含 UTF-8 编码的文件名,第二个列表包含 Unicode 版本。

请注意,在大多数情况下,您应该只坚持使用这些 API 的 Unicode。字节 API 应该只在无法解码文件名的系统上使用;现在几乎只有 Unix 系统了。

编写 Unicode 感知程序的技巧

本节提供一些关于编写处理 Unicode 的软件的建议。

最重要的提示是

软件应该只在内部使用 Unicode 字符串,尽快解码输入数据,并在最后才编码输出数据。

如果您尝试编写接受 Unicode 和字节字符串的处理函数,您会发现您的程序在您组合这两种不同类型的字符串时容易受到错误的影响。没有自动编码或解码:如果您执行例如 str + bytes,一个 TypeError 将被引发。

当使用来自网页浏览器或其他不可信来源的数据时,一种常见的技术是在将字符串用于生成的命令行或将其存储在数据库中之前,检查字符串中是否存在非法字符。如果您这样做,请务必检查解码后的字符串,而不是编码的字节数据;某些编码可能具有有趣的属性,例如不具有双射性或不完全与 ASCII 兼容。如果输入数据还指定了编码,则尤其如此,因为攻击者可以利用这种方式在编码的字节流中隐藏恶意文本。

在文件编码之间转换

StreamRecoder 类可以透明地在编码之间进行转换,接收以编码 #1 返回数据的流,并表现得像以编码 #2 返回数据的流。

例如,如果您有一个以 Latin-1 编码的输入文件 f,您可以用 StreamRecoder 包装它,以返回以 UTF-8 编码的字节。

new_f = codecs.StreamRecoder(f,
    # en/decoder: used by read() to encode its results and
    # by write() to decode its input.
    codecs.getencoder('utf-8'), codecs.getdecoder('utf-8'),

    # reader/writer: used to read and write to the stream.
    codecs.getreader('latin-1'), codecs.getwriter('latin-1') )

未知编码的文件

如果您需要更改文件,但不知道文件的编码,该怎么办?如果您知道编码与 ASCII 兼容,并且只想检查或修改 ASCII 部分,则可以使用 surrogateescape 错误处理程序打开文件。

with open(fname, 'r', encoding="ascii", errors="surrogateescape") as f:
    data = f.read()

# make changes to the string 'data'

with open(fname + '.new', 'w',
          encoding="ascii", errors="surrogateescape") as f:
    f.write(data)

surrogateescape 错误处理程序将把任何非 ASCII 字节解码为从 U+DC80 到 U+DCFF 的特殊范围内的代码点。当使用 surrogateescape 错误处理程序对数据进行编码并将其写回时,这些代码点将再次转换为相同的字节。

参考资料

David Beazley 在 PyCon 2010 的演讲 精通 Python 3 输入/输出 中的一节讨论了文本处理和二进制数据处理。

Marc-André Lemburg 的演讲 在 Python 中编写支持 Unicode 的应用程序的 PDF 幻灯片 讨论了字符编码问题以及如何对应用程序进行国际化和本地化。这些幻灯片仅涵盖 Python 2.x。

Python 中 Unicode 的核心 是 Benjamin Peterson 在 PyCon 2013 的演讲,讨论了 Python 3.3 中的内部 Unicode 表示。

致谢

本文档的初稿由 Andrew Kuchling 撰写。此后,它由 Alexander Belopolsky、Georg Brandl、Andrew Kuchling 和 Ezio Melotti 进一步修改。

感谢以下人员指出错误或对本文提出建议:Éric Araujo、Nicholas Bastin、Nick Coghlan、Marius Gedminas、Kent Johnson、Ken Krugler、Marc-André Lemburg、Martin von Löwis、Terry J. Reedy、Serhiy Storchaka、Eryk Sun、Chad Whitacre、Graham Wideman。