用 Python 获取网页
在 Python 中,我们可以创建连接并从 Web 读取数据。我们可以通过网络下载文件并阅读整个网页。
本教程展示了如何在 Python 中获取网页。
在 Python 中使用 urllib
包获取网页
该包用于在 Python 中获取网页并处理与 URL 相关的操作。我们可以使用 urllib.request.urlopen()
函数通过其 URL 检索网页。
urllib.request
模块打开给定的 URL 并返回一个对象。该对象具有不同的属性,例如 header
、status
等。我们可以使用带有此对象的 read()
函数来读取网页。它将返回网页的全部内容。
请参阅以下示例。
import urllib.request
page = urllib.request.urlopen('http://www.python.org')
print(page.read())
最近,出现了较新版本的 urllib
软件包。首先,我们有 urllib2
包,它是作为 urllib
的实验版本构建的,具有更新和改进的功能。它还可以接受来自 requests
包的 Requests
对象。urllib2
包中缺少 urlencode()
。
urllib3
包也被引入,它是一个第三方包,与前两个版本不同。下面讨论的 requests
包在内部使用此包中的功能。
在 Python 中使用 requests
包获取网页
requests
库易于使用,并提供许多与 HTTP 相关的功能。我们可以使用 requests.get()
函数来检索网页并返回一个 Response
对象。
该对象还具有多个属性,例如 status_code
、content
等。我们可以使用 content
属性来返回给定网页的内容。
例如,
import requests
response = requests.get('http://www.python.org')
print (response.status_code)
print (response.content)
requests
库旨在提供简单易用的 API,并提供更方便的错误处理方式。此外,它会自动将检索到的响应解码为 Unicode。
Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.
LinkedIn