zlib — 与 gzip 兼容的压缩


对于需要数据压缩的应用程序,此模块中的函数允许使用 zlib 库进行压缩和解压缩。zlib 库在 https://www.zlib.net 有自己的主页。Python 模块与早于 1.1.3 的 zlib 库版本之间存在已知的不兼容性;1.1.3 有一个 安全漏洞,因此我们建议使用 1.1.4 或更高版本。

zlib 的函数有很多选项,并且通常需要按特定的顺序使用。本文档不尝试涵盖所有排列组合;有关权威信息,请参阅 http://www.zlib.net/manual.html 上的 zlib 手册。

有关读取和写入 .gz 文件,请参阅 gzip 模块。

此模块中可用的异常和函数是

异常 zlib.error

在压缩和解压缩错误时引发的异常。

zlib.adler32(data[, value])

计算 data 的 Adler-32 校验和。(Adler-32 校验和几乎与 CRC32 一样可靠,但可以更快地计算。)结果是一个无符号的 32 位整数。如果存在 value,则将其用作校验和的起始值;否则,使用默认值 1。传入 value 允许计算多个输入连接的运行校验和。该算法在密码学上并不强大,不应用于身份验证或数字签名。由于该算法设计为用作校验和算法,因此不适合用作通用哈希算法。

在 3.0 版本中更改: 结果始终是无符号的。

zlib.compress(data, /, level=-1, wbits=MAX_WBITS)

压缩 data 中的字节,返回包含压缩数据的字节对象。level 是一个从 09-1 的整数,控制压缩级别;1 (Z_BEST_SPEED) 最快并产生最少的压缩,9 (Z_BEST_COMPRESSION) 最慢并产生最多的压缩。0 (Z_NO_COMPRESSION) 是不压缩。默认值为 -1 (Z_DEFAULT_COMPRESSION)。Z_DEFAULT_COMPRESSION 表示速度和压缩之间的默认折衷方案(目前相当于级别 6)。

wbits 参数控制压缩数据时使用的历史缓冲区(或“窗口大小”)的大小,以及输出中是否包含标头和尾部。它可以采用多个值范围,默认为 15 (MAX_WBITS)

  • +9 到 +15:窗口大小的以 2 为底的对数,因此范围在 512 到 32768 之间。较大的值会产生更好的压缩,但代价是内存使用量更大。生成的输出将包含特定于 zlib 的标头和尾部。

  • −9 到 −15:使用 wbits 的绝对值作为窗口大小对数,同时生成不带标头或尾部校验和的原始输出流。

  • +25 到 +31 = 16 + (9 到 15):使用该值的低 4 位作为窗口大小对数,同时在输出中包含基本的 gzip 标头和尾部校验和。

如果发生任何错误,则引发 error 异常。

在 3.6 版本中更改: level 现在可以用作关键字参数。

在 3.11 版本中更改: wbits 参数现在可用于设置窗口位和压缩类型。

zlib.compressobj(level=-1, method=DEFLATED, wbits=MAX_WBITS, memLevel=DEF_MEM_LEVEL, strategy=Z_DEFAULT_STRATEGY[, zdict])

返回一个压缩对象,用于压缩无法一次装入内存的数据流。

level 是压缩级别 – 一个从 09-1 的整数。值为 1 (Z_BEST_SPEED) 最快并产生最少的压缩,而值为 9 (Z_BEST_COMPRESSION) 最慢并产生最多的压缩。0 (Z_NO_COMPRESSION) 是不压缩。默认值为 -1 (Z_DEFAULT_COMPRESSION)。Z_DEFAULT_COMPRESSION 表示速度和压缩之间的默认折衷方案(目前相当于级别 6)。

method 是压缩算法。目前,唯一支持的值是 DEFLATED

wbits 参数控制历史缓冲区(或“窗口大小”)的大小,以及将使用什么标头和尾部格式。它与 为 compress() 描述的含义相同。

memLevel 参数控制用于内部压缩状态的内存量。有效值的范围从 19。较高的值使用更多内存,但速度更快并产生较小的输出。

strategy 用于调整压缩算法。可能的值是 Z_DEFAULT_STRATEGYZ_FILTEREDZ_HUFFMAN_ONLYZ_RLE (zlib 1.2.0.1) 和 Z_FIXED (zlib 1.2.2.2)。

zdict 是一个预定义的压缩字典。这是一个字节序列(例如 bytes 对象),其中包含预期在要压缩的数据中频繁出现的子序列。预期最常见的子序列应位于字典的末尾。

在 3.3 版本中更改: 添加了 zdict 参数和关键字参数支持。

zlib.crc32(data[, value])

计算 data 的 CRC(循环冗余校验)校验和。结果是一个无符号的 32 位整数。如果存在 value,则将其用作校验和的起始值;否则,使用默认值 0。传入 value 允许计算多个输入连接的运行校验和。该算法在密码学上并不强大,不应用于身份验证或数字签名。由于该算法设计为用作校验和算法,因此不适合用作通用哈希算法。

在 3.0 版本中更改: 结果始终是无符号的。

zlib.decompress(data, /, wbits=MAX_WBITS, bufsize=DEF_BUF_SIZE)

解压 data 中的字节,返回包含解压数据的字节对象。wbits 参数取决于 data 的格式,将在下面进一步讨论。如果给定 bufsize,它将用作输出缓冲区的初始大小。如果发生任何错误,则引发 error 异常。

wbits 参数控制历史缓冲区(或“窗口大小”)的大小,以及预期使用哪种标头和尾部格式。它类似于 compressobj() 的参数,但接受更多值的范围。

  • +8 到 +15:窗口大小的以 2 为底的对数。输入必须包含 zlib 标头和尾部。

  • 0:从 zlib 标头自动确定窗口大小。仅从 zlib 1.2.3.5 版本开始支持。

  • −8 到 −15:使用 wbits 的绝对值作为窗口大小的对数。输入必须是原始流,不包含标头或尾部。

  • +24 到 +31 = 16 +(8 到 15):使用值的低 4 位作为窗口大小的对数。输入必须包含 gzip 标头和尾部。

  • +40 到 +47 = 32 +(8 到 15):使用值的低 4 位作为窗口大小的对数,并自动接受 zlib 或 gzip 格式。

解压缩流时,窗口大小不得小于最初用于压缩流的大小;使用过小的值可能会导致 error 异常。默认的 wbits 值对应于最大的窗口大小,并且需要包含 zlib 标头和尾部。

bufsize 是用于保存解压缩数据的缓冲区的初始大小。如果需要更多空间,缓冲区大小将根据需要增加,因此您不必精确地获取此值;调整它只会节省几次对 malloc() 的调用。

3.6 版本更改: wbitsbufsize 可以用作关键字参数。

zlib.decompressobj(wbits=MAX_WBITS[, zdict])

返回一个解压缩对象,用于解压缩无法一次放入内存的数据流。

wbits 参数控制历史缓冲区(或“窗口大小”)的大小,以及预期使用哪种标头和尾部格式。它的含义与 decompress() 的描述相同。

zdict 参数指定预定义的压缩字典。如果提供,则该字典必须与生成要解压缩的数据的压缩器所使用的字典相同。

注意

如果 zdict 是一个可变对象(例如 bytearray),则在调用 decompressobj() 和首次调用解压缩器的 decompress() 方法之间,不能修改其内容。

3.3 版本更改: 添加了 zdict 参数。

压缩对象支持以下方法

Compress.compress(data)

压缩 data,返回一个字节对象,其中包含至少部分 data 中的压缩数据。此数据应与之前对 compress() 方法的任何调用所产生的输出连接起来。某些输入可能保留在内部缓冲区中以供后续处理。

Compress.flush([mode])

处理所有挂起的输入,并返回包含剩余压缩输出的字节对象。mode 可以从常量 Z_NO_FLUSHZ_PARTIAL_FLUSHZ_SYNC_FLUSHZ_FULL_FLUSHZ_BLOCK (zlib 1.2.3.4) 或 Z_FINISH 中选择,默认为 Z_FINISH。除了 Z_FINISH 之外,所有常量都允许压缩更多的数据字节串,而 Z_FINISH 完成压缩流并阻止压缩任何更多数据。在调用 flush()mode 设置为 Z_FINISH 后,不能再次调用 compress() 方法;唯一现实的动作是删除该对象。

Compress.copy()

返回压缩对象的副本。这可以用于有效地压缩共享公共初始前缀的一组数据。

3.8 版本更改: 向压缩对象添加了 copy.copy()copy.deepcopy() 支持。

解压缩对象支持以下方法和属性

Decompress.unused_data

一个字节对象,其中包含压缩数据结尾之后的任何字节。也就是说,在包含压缩数据的最后一个字节可用之前,它仍然是 b""。如果整个字节串最终包含压缩数据,则此值是 b"",一个空字节对象。

Decompress.unconsumed_tail

一个字节对象,其中包含上次 decompress() 调用未使用的任何数据,因为它超出了未压缩数据缓冲区的限制。zlib 机制尚未看到此数据,因此您必须将其(可能与进一步的数据连接)反馈到后续的 decompress() 方法调用中,才能获得正确的输出。

Decompress.eof

一个布尔值,指示是否已到达压缩数据流的末尾。

这使得能够区分正确形成的压缩流和不完整或截断的压缩流。

在 3.3 版本中添加。

Decompress.decompress(data, max_length=0)

解压 data,返回一个字节对象,其中包含至少部分 string 中的数据对应的解压缩数据。此数据应与之前对 decompress() 方法的任何调用所产生的输出连接起来。某些输入数据可能保留在内部缓冲区中以供后续处理。

如果可选参数 max_length 为非零值,则返回值将不会超过 max_length。这可能意味着并非所有压缩输入都可以被处理;未使用的字节将存储在属性 unconsumed_tail 中。如果要继续解压缩,则必须将此字节串传递给对 decompress() 的后续调用。如果 max_length 为零,则将解压缩整个输入,并且 unconsumed_tail 为空。

3.6 版本更改: max_length 可以用作关键字参数。

Decompress.flush([length])

处理所有挂起的输入,并返回包含剩余未压缩输出的字节对象。在调用 flush() 后,不能再次调用 decompress() 方法;唯一现实的动作是删除该对象。

可选参数 length 设置输出缓冲区的初始大小。

Decompress.copy()

返回解压缩对象的副本。这可以用于在数据流中间保存解压缩器的状态,以便在将来加速对数据流的随机查找。

在 3.8 版本中更改: 添加了对解压缩对象的 copy.copy()copy.deepcopy() 的支持。

有关正在使用的 zlib 库版本的信息可通过以下常量获得

zlib.ZLIB_VERSION

用于构建模块的 zlib 库的版本字符串。 这可能与实际在运行时使用的 zlib 库不同,后者可通过 ZLIB_RUNTIME_VERSION 获取。

zlib.ZLIB_RUNTIME_VERSION

解释器实际加载的 zlib 库的版本字符串。

在 3.3 版本中添加。

另请参阅

模块 gzip

读取和写入 gzip 格式的文件。

http://www.zlib.net

zlib 库主页。

http://www.zlib.net/manual.html

zlib 手册解释了库的许多函数的语义和用法。