在 Python 中使用 HTTP 请求获取 HTML

Vaibhav Vaibhav 2022年5月18日
在 Python 中使用 HTTP 请求获取 HTML

HTTP 或超文本传输​​协议是 Internet 或万维网 (WWW) 的基础。从本质上讲,它是一种应用层协议,用于将数据从 Web 服务器传输到 Web 浏览器,例如 Chrome、Firefox 和 Brave。HTTP 请求被发送到唯一的 Web 地址或 URL,以获取所需的资源和超媒体文档,例如 HTML(超文本标记语言)。URL 或统一资源定位器是用于在 Internet 上定位内容的唯一网址。目标内容可以是 HTML 文件和文本文件、图像、音频、视频、zip 文件和可执行文件。

在本指南中,我们将学习在使用 Python 的 HTTP 请求的帮助下从 URL 获取 HTML 的方法。

使用 Python 中的 requests 模块发送 HTTP 请求

requests 是一个 Python 包,它允许我们通过互联网发送 HTTP 请求。我们可以使用此模块向 URL 发送 HTTP 请求并获取 HTML 和其他基本细节。requests 模块有一个 get() 方法,该方法将 GET 请求发送到指定的 URL 并返回一个 requests.Response 类型的对象。我们将使用此方法和返回的响应来获取 HTML 内容。Python 程序请参考以下代码。

import requests

r = requests.get('https://www.google.com')
print("Status Code:", r.status_code)
print("URL:", r.url)
print("HTML:\n", r.text)

输出:

Status Code: 200
URL: https://www.google.com/
HTML:
...

在上面的代码中,我们首先向 https://www.google.com 发出 GET 请求,返回的响应存储在变量 r 中。响应中的 text 属性返回 HTML 内容。输出不显示 HTML 内容,而是显示 ...,因为它太大而无法提高文章的可读性。

Vaibhav Vaibhav avatar Vaibhav Vaibhav avatar

Vaibhav is an artificial intelligence and cloud computing stan. He likes to build end-to-end full-stack web and mobile applications. Besides computer science and technology, he loves playing cricket and badminton, going on bike rides, and doodling.

LinkedIn GitHub