用 Python 获取网页

Manav Narula 2023年1月30日 2022年5月17日
  1. 在 Python 中使用 urllib 包获取网页
  2. 在 Python 中使用 requests 包获取网页
用 Python 获取网页

在 Python 中,我们可以创建连接并从 Web 读取数据。我们可以通过网络下载文件并阅读整个网页。

本教程展示了如何在 Python 中获取网页。

在 Python 中使用 urllib 包获取网页

该包用于在 Python 中获取网页并处理与 URL 相关的操作。我们可以使用 urllib.request.urlopen() 函数通过其 URL 检索网页。

urllib.request 模块打开给定的 URL 并返回一个对象。该对象具有不同的属性,例如 headerstatus 等。我们可以使用带有此对象的 read() 函数来读取网页。它将返回网页的全部内容。

请参阅以下示例。

import urllib.request
page = urllib.request.urlopen('http://www.python.org')
print(page.read())

最近,出现了较新版本的 urllib 软件包。首先,我们有 urllib2 包,它是作为 urllib 的实验版本构建的,具有更新和改进的功能。它还可以接受来自 requests 包的 Requests 对象。urllib2 包中缺少 urlencode()

urllib3 包也被引入,它是一个第三方包,与前两个版本不同。下面讨论的 requests 包在内部使用此包中的功能。

在 Python 中使用 requests 包获取网页

requests 库易于使用,并提供许多与 HTTP 相关的功能。我们可以使用 requests.get() 函数来检索网页并返回一个 Response 对象。

该对象还具有多个属性,例如 status_codecontent 等。我们可以使用 content 属性来返回给定网页的内容。

例如,

import requests
response = requests.get('http://www.python.org')
print (response.status_code)
print (response.content)

requests 库旨在提供简单易用的 API,并提供更方便的错误处理方式。此外,它会自动将检索到的响应解码为 Unicode。

Author: Manav Narula
Manav Narula avatar Manav Narula avatar

Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.

LinkedIn

相关文章 - Python Web