如何使用 urllib 包获取 Internet 资源¶

作者:: Michael Foord

简介¶

urllib.request 是一个用于获取 URL（统一资源定位符）的 Python 模块。它提供了一个非常简单的接口，形式为 urlopen 函数。该函数能够使用各种不同的协议获取 URL。它还提供了一个稍微复杂一些的接口，用于处理常见情况——如基本身份验证、cookie、代理等。这些由称为处理程序（handler）和 opener 的对象提供。

urllib.request 支持使用其相关的网络协议（例如 FTP、HTTP）获取许多“URL 方案”（由 URL 中 ":" 之前的字符串标识 - 例如 "ftp" 是 "ftp://pythonlang.cn/" 的 URL 方案）。本教程侧重于最常见的 HTTP 情况。

对于简单的情况，urlopen 非常容易使用。但是，一旦在打开 HTTP URL 时遇到错误或非平凡的情况，您将需要一些对超文本传输协议的理解。关于 HTTP 最全面和权威的参考资料是 RFC 2616。这是一份技术文档，并非旨在易于阅读。本 HOWTO 旨在说明如何使用 urllib，并提供足够的关于 HTTP 的详细信息来帮助您。它并非旨在取代 urllib.request 文档，而是对它们的补充。

获取 URL¶

使用 urllib.request 的最简单方法如下

import urllib.request
with urllib.request.urlopen('https://pythonlang.cn/') as response:
   html = response.read()

如果您希望通过 URL 检索资源并将其存储在临时位置，则可以通过 shutil.copyfileobj() 和 tempfile.NamedTemporaryFile() 函数来实现

import shutil
import tempfile
import urllib.request

with urllib.request.urlopen('https://pythonlang.cn/') as response:
    with tempfile.NamedTemporaryFile(delete=False) as tmp_file:
        shutil.copyfileobj(response, tmp_file)

with open(tmp_file.name) as html:
    pass

许多 urllib 的用法都如此简单（请注意，我们可以使用以 ‘ftp:’、‘file:’ 等开头的 URL 来代替 ‘http:’ URL）。但是，本教程的目的是解释更复杂的情况，重点是 HTTP。

HTTP 基于请求和响应 - 客户端发出请求，服务器发送响应。urllib.request 使用 Request 对象来镜像此过程，该对象表示您正在发出的 HTTP 请求。在其最简单的形式中，您可以创建一个 Request 对象，该对象指定要获取的 URL。使用此 Request 对象调用 urlopen 会返回所请求 URL 的响应对象。此响应是一个类似文件的对象，这意味着您可以例如对响应调用 .read()

import urllib.request

req = urllib.request.Request('https://pythonlang.cn/')
with urllib.request.urlopen(req) as response:
   the_page = response.read()

请注意，urllib.request 使用相同的 Request 接口来处理所有 URL 方案。例如，您可以像这样发出 FTP 请求

req = urllib.request.Request('ftp://example.com/')

在 HTTP 的情况下，Request 对象允许您执行另外两件事：首先，您可以传递要发送到服务器的数据。其次，您可以将有关数据或请求本身的额外信息（“元数据”）传递给服务器——此信息作为 HTTP “标头”发送。让我们依次查看这些内容。

数据¶

有时您想将数据发送到 URL（通常 URL 将引用 CGI（公共网关接口）脚本或其他 Web 应用程序）。在 HTTP 中，这通常使用所谓的 POST 请求来完成。这通常是您在 Web 上提交填写的 HTML 表单时浏览器所做的操作。并非所有 POST 都必须来自表单：您可以使用 POST 将任意数据传输到您自己的应用程序。在 HTML 表单的常见情况下，数据需要以标准方式进行编码，然后作为 data 参数传递给 Request 对象。编码是使用 urllib.parse 库中的函数完成的。

import urllib.parse
import urllib.request

url = 'http://www.someserver.com/cgi-bin/register.cgi'
values = {'name' : 'Michael Foord',
          'location' : 'Northampton',
          'language' : 'Python' }

data = urllib.parse.urlencode(values)
data = data.encode('ascii') # data should be bytes
req = urllib.request.Request(url, data)
with urllib.request.urlopen(req) as response:
   the_page = response.read()

请注意，有时需要其他编码（例如，用于从 HTML 表单上传文件 - 有关更多详细信息，请参阅 HTML 规范，表单提交）。

如果您不传递 data 参数，则 urllib 使用 GET 请求。GET 和 POST 请求之间的一个区别是，POST 请求通常具有“副作用”：它们以某种方式更改系统的状态（例如，通过向网站下订单，将一百磅罐装午餐肉送到您家门口）。尽管 HTTP 标准明确指出 POST 旨在始终导致副作用，而 GET 请求永不导致副作用，但没有任何东西可以阻止 GET 请求产生副作用，也没有任何东西可以阻止 POST 请求没有副作用。数据也可以通过将其编码在 URL 本身中来在 HTTP GET 请求中传递。

这按如下方式完成

>>> import urllib.request
>>> import urllib.parse
>>> data = {}
>>> data['name'] = 'Somebody Here'
>>> data['location'] = 'Northampton'
>>> data['language'] = 'Python'
>>> url_values = urllib.parse.urlencode(data)
>>> print(url_values)  # The order may differ from below.  
name=Somebody+Here&language=Python&location=Northampton
>>> url = 'http://www.example.com/example.cgi'
>>> full_url = url + '?' + url_values
>>> data = urllib.request.urlopen(full_url)

请注意，完整的 URL 是通过在 URL 中添加 ?，后跟编码的值来创建的。

标头¶

我们将在此处讨论一个特定的 HTTP 标头，以说明如何将标头添加到 HTTP 请求中。

一些网站 [1] 不喜欢被程序浏览，或者向不同的浏览器发送不同的版本 [2]。默认情况下，urllib 将自己标识为 Python-urllib/x.y （其中 x 和 y 是 Python 版本的主版本号和次版本号，例如 Python-urllib/2.5），这可能会使站点混淆，或者根本不起作用。浏览器标识自己的方式是通过 User-Agent 标头 [3]。当您创建 Request 对象时，您可以传入一个标头字典。以下示例执行与上述相同的请求，但将自己标识为 Internet Explorer 的版本 [4]。

import urllib.parse
import urllib.request

url = 'http://www.someserver.com/cgi-bin/register.cgi'
user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'
values = {'name': 'Michael Foord',
          'location': 'Northampton',
          'language': 'Python' }
headers = {'User-Agent': user_agent}

data = urllib.parse.urlencode(values)
data = data.encode('ascii')
req = urllib.request.Request(url, data, headers)
with urllib.request.urlopen(req) as response:
   the_page = response.read()

响应还有两个有用的方法。请参阅info 和 geturl 部分，该部分在我们查看出现问题时会发生什么之后。

处理异常¶

当 urlopen 无法处理响应时，会引发 URLError （但与 Python API 的常见情况一样，也可能引发诸如 ValueError、 TypeError 等内置异常）。

HTTPError 是在 HTTP URL 的特定情况下引发的 URLError 的子类。

异常类是从 urllib.error 模块导出的。

URLError¶

通常，引发 URLError 是因为没有网络连接（没有到指定服务器的路由），或者指定的服务器不存在。在这种情况下，引发的异常将具有一个 ‘reason’ 属性，该属性是一个包含错误代码和文本错误消息的元组。

例如

>>> req = urllib.request.Request('http://www.pretend_server.org')
>>> try: urllib.request.urlopen(req)
... except urllib.error.URLError as e:
...     print(e.reason)      
...
(4, 'getaddrinfo failed')

HTTPError¶

服务器返回的每个 HTTP 响应都包含一个数字“状态码”。有时，状态码表示服务器无法满足请求。默认的处理程序会为您处理某些此类响应（例如，如果响应是请求客户端从不同的 URL 获取文档的“重定向”，则 urllib 会为您处理）。对于它无法处理的响应，urlopen 将引发一个 HTTPError。常见的错误包括 ‘404’（页面未找到）、‘403’（请求被禁止）和 ‘401’（需要身份验证）。

有关所有 HTTP 错误代码的参考，请参阅 RFC 2616 的第 10 节。

引发的 HTTPError 实例将具有一个整数 ‘code’ 属性，该属性对应于服务器发送的错误。

错误代码¶

由于默认处理程序处理重定向（300 范围内的代码），并且 100-299 范围内的代码表示成功，因此您通常只会看到 400-599 范围内的错误代码。

http.server.BaseHTTPRequestHandler.responses 是一个有用的响应代码字典，其中显示了 RFC 2616 使用的所有响应代码。为了方便起见，这里重现了该字典

# Table mapping response codes to messages; entries have the
# form {code: (shortmessage, longmessage)}.
responses = {
    100: ('Continue', 'Request received, please continue'),
    101: ('Switching Protocols',
          'Switching to new protocol; obey Upgrade header'),

    200: ('OK', 'Request fulfilled, document follows'),
    201: ('Created', 'Document created, URL follows'),
    202: ('Accepted',
          'Request accepted, processing continues off-line'),
    203: ('Non-Authoritative Information', 'Request fulfilled from cache'),
    204: ('No Content', 'Request fulfilled, nothing follows'),
    205: ('Reset Content', 'Clear input form for further input.'),
    206: ('Partial Content', 'Partial content follows.'),

    300: ('Multiple Choices',
          'Object has several resources -- see URI list'),
    301: ('Moved Permanently', 'Object moved permanently -- see URI list'),
    302: ('Found', 'Object moved temporarily -- see URI list'),
    303: ('See Other', 'Object moved -- see Method and URL list'),
    304: ('Not Modified',
          'Document has not changed since given time'),
    305: ('Use Proxy',
          'You must use proxy specified in Location to access this '
          'resource.'),
    307: ('Temporary Redirect',
          'Object moved temporarily -- see URI list'),

    400: ('Bad Request',
          'Bad request syntax or unsupported method'),
    401: ('Unauthorized',
          'No permission -- see authorization schemes'),
    402: ('Payment Required',
          'No payment -- see charging schemes'),
    403: ('Forbidden',
          'Request forbidden -- authorization will not help'),
    404: ('Not Found', 'Nothing matches the given URI'),
    405: ('Method Not Allowed',
          'Specified method is invalid for this server.'),
    406: ('Not Acceptable', 'URI not available in preferred format.'),
    407: ('Proxy Authentication Required', 'You must authenticate with '
          'this proxy before proceeding.'),
    408: ('Request Timeout', 'Request timed out; try again later.'),
    409: ('Conflict', 'Request conflict.'),
    410: ('Gone',
          'URI no longer exists and has been permanently removed.'),
    411: ('Length Required', 'Client must specify Content-Length.'),
    412: ('Precondition Failed', 'Precondition in headers is false.'),
    413: ('Request Entity Too Large', 'Entity is too large.'),
    414: ('Request-URI Too Long', 'URI is too long.'),
    415: ('Unsupported Media Type', 'Entity body in unsupported format.'),
    416: ('Requested Range Not Satisfiable',
          'Cannot satisfy request range.'),
    417: ('Expectation Failed',
          'Expect condition could not be satisfied.'),

    500: ('Internal Server Error', 'Server got itself in trouble'),
    501: ('Not Implemented',
          'Server does not support this operation'),
    502: ('Bad Gateway', 'Invalid responses from another server/proxy.'),
    503: ('Service Unavailable',
          'The server cannot process the request due to a high load'),
    504: ('Gateway Timeout',
          'The gateway server did not receive a timely response'),
    505: ('HTTP Version Not Supported', 'Cannot fulfill request.'),
    }

当引发错误时，服务器通过返回 HTTP 错误代码和错误页面来响应。您可以使用 HTTPError 实例作为返回页面上的响应。这意味着除了 code 属性之外，它还具有 urllib.response 模块返回的 read、geturl 和 info 方法。

>>> req = urllib.request.Request('https://pythonlang.cn/fish.html')
>>> try:
...     urllib.request.urlopen(req)
... except urllib.error.HTTPError as e:
...     print(e.code)
...     print(e.read())  
...
404
b'<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">\n\n\n<html
  ...
  <title>Page Not Found</title>\n
  ...

总结¶

因此，如果您想为 HTTPError 或 URLError 做好准备，有两种基本方法。我更喜欢第二种方法。

方法 1¶

from urllib.request import Request, urlopen
from urllib.error import URLError, HTTPError
req = Request(someurl)
try:
    response = urlopen(req)
except HTTPError as e:
    print('The server couldn\'t fulfill the request.')
    print('Error code: ', e.code)
except URLError as e:
    print('We failed to reach a server.')
    print('Reason: ', e.reason)
else:
    # everything is fine

注意

except HTTPError 必须放在首位，否则 except URLError 也会捕获 HTTPError。

方法 2¶

from urllib.request import Request, urlopen
from urllib.error import URLError
req = Request(someurl)
try:
    response = urlopen(req)
except URLError as e:
    if hasattr(e, 'reason'):
        print('We failed to reach a server.')
        print('Reason: ', e.reason)
    elif hasattr(e, 'code'):
        print('The server couldn\'t fulfill the request.')
        print('Error code: ', e.code)
else:
    # everything is fine

info 和 geturl¶

urlopen 返回的响应（或 HTTPError 实例）有两个有用的方法 info() 和 geturl()，并在 urllib.response 模块中定义。

geturl - 这会返回获取的页面的真实 URL。这很有用，因为 urlopen（或使用的 opener 对象）可能已跟随重定向。获取的页面的 URL 可能与请求的 URL 不同。
info - 这会返回一个类似字典的对象，用于描述获取的页面，特别是服务器发送的标头。它当前是一个 http.client.HTTPMessage 实例。

常见的标头包括 ‘Content-length’、‘Content-type’ 等。有关 HTTP 标头的有用列表及其含义和用法的简要说明，请参阅 HTTP 标头快速参考。

Openers 和 Handlers¶

当您获取 URL 时，您会使用 opener（一个名为 urllib.request.OpenerDirector 的实例，这可能令人困惑）。通常，我们一直在使用默认的 opener - 通过 urlopen - 但您可以创建自定义的 openers。Openers 使用 handlers。所有“繁重的工作”都由 handlers 完成。每个 handler 都知道如何为特定的 URL 方案（http、ftp 等）打开 URL，或者如何处理 URL 打开的某个方面，例如 HTTP 重定向或 HTTP cookie。

如果您想使用安装了特定 handlers 的 openers 获取 URL，例如要获取一个处理 cookie 的 opener，或者要获取一个不处理重定向的 opener，则需要创建 openers。

要创建 opener，请实例化一个 OpenerDirector，然后重复调用 .add_handler(some_handler_instance)。

或者，您可以使用 build_opener，这是一个方便的函数，用于通过单个函数调用创建 opener 对象。build_opener 默认添加多个 handlers，但提供了一种快速添加更多 handlers 和/或覆盖默认 handlers 的方法。

您可能需要的其他类型的 handlers 可以处理代理、身份验证和其他常见但略微特殊的情况。

install_opener 可用于使 opener 对象成为（全局）默认 opener。这意味着对 urlopen 的调用将使用您安装的 opener。

Opener 对象具有一个 open 方法，可以直接调用该方法以与 urlopen 函数相同的方式获取 URL：除非为了方便起见，否则无需调用 install_opener。

基本身份验证¶

为了说明创建和安装 handler，我们将使用 HTTPBasicAuthHandler。有关此主题的更详细讨论（包括对基本身份验证工作原理的解释），请参阅基本身份验证教程。

当需要身份验证时，服务器会发送一个标头（以及 401 错误代码），请求身份验证。这指定了身份验证方案和一个“realm”。标头如下所示：WWW-Authenticate: SCHEME realm="REALM"。

例如

WWW-Authenticate: Basic realm="cPanel Users"

然后，客户端应重试请求，并在请求中的标头中包含该 realm 的相应名称和密码。这就是“基本身份验证”。为了简化此过程，我们可以创建一个 HTTPBasicAuthHandler 的实例和一个 opener 来使用此 handler。

HTTPBasicAuthHandler 使用一个名为密码管理器的对象来处理 URL 和 realm 到密码和用户名的映射。如果您知道 realm 是什么（来自服务器发送的身份验证标头），则可以使用 HTTPPasswordMgr。通常，人们并不关心 realm 是什么。在这种情况下，使用 HTTPPasswordMgrWithDefaultRealm 会很方便。这允许您为 URL 指定默认用户名和密码。如果您没有为特定 realm 提供替代组合，则将提供此用户名和密码。我们通过向 add_password 方法提供 None 作为 realm 参数来表明这一点。

顶级 URL 是第一个需要身份验证的 URL。与您传递给 .add_password() 的 URL 相比，“更深层”的 URL 也将匹配。

# create a password manager
password_mgr = urllib.request.HTTPPasswordMgrWithDefaultRealm()

# Add the username and password.
# If we knew the realm, we could use it instead of None.
top_level_url = "http://example.com/foo/"
password_mgr.add_password(None, top_level_url, username, password)

handler = urllib.request.HTTPBasicAuthHandler(password_mgr)

# create "opener" (OpenerDirector instance)
opener = urllib.request.build_opener(handler)

# use the opener to fetch a URL
opener.open(a_url)

# Install the opener.
# Now all calls to urllib.request.urlopen use our opener.
urllib.request.install_opener(opener)

注意

在上面的示例中，我们仅将 HTTPBasicAuthHandler 提供给 build_opener。默认情况下，openers 具有用于正常情况的 handlers – ProxyHandler（如果设置了代理设置，例如 http_proxy 环境变量）、UnknownHandler、HTTPHandler、HTTPDefaultErrorHandler、HTTPRedirectHandler、FTPHandler、FileHandler、DataHandler、HTTPErrorProcessor。

top_level_url 实际上是要么一个完整的 URL（包括 'http:' 协议部分、主机名以及可选的端口号），例如 "http://example.com/" 要么一个“权威”（即主机名，可选地包括端口号），例如 "example.com" 或 "example.com:8080"（后一个示例包括端口号）。如果存在，权威部分必须不包含“userinfo”组件 - 例如 "joe:password@example.com" 是不正确的。

代理¶

urllib 将自动检测您的代理设置并使用它们。这是通过 ProxyHandler 实现的，它是检测到代理设置时正常处理链的一部分。通常这是一件好事，但在某些情况下可能没有帮助 [5]。一种方法是设置我们自己的 ProxyHandler，不定义任何代理。这与设置基本身份验证处理程序类似。

>>> proxy_support = urllib.request.ProxyHandler({})
>>> opener = urllib.request.build_opener(proxy_support)
>>> urllib.request.install_opener(opener)

注意

目前 urllib.request 不支持通过代理获取 https 位置。但是，可以通过扩展 urllib.request 来启用此功能，如配方 [6] 中所示。

注意

如果设置了变量 REQUEST_METHOD，则会忽略 HTTP_PROXY；请参阅关于 getproxies() 的文档。

套接字和层¶

Python 对从 Web 获取资源的支持是分层的。urllib 使用 http.client 库，该库又使用套接字库。

从 Python 2.3 开始，您可以指定套接字在超时之前应等待响应的时间。这在必须获取网页的应用程序中很有用。默认情况下，套接字模块没有超时，可能会挂起。目前，套接字超时在 http.client 或 urllib.request 级别未公开。但是，您可以使用以下命令为所有套接字全局设置默认超时：

import socket
import urllib.request

# timeout in seconds
timeout = 10
socket.setdefaulttimeout(timeout)

# this call to urllib.request.urlopen now uses the default timeout
# we have set in the socket module
req = urllib.request.Request('http://www.voidspace.org.uk')
response = urllib.request.urlopen(req)

脚注¶

本文档由 John Lee 审阅和修订。