用 Python 獲取網頁

Manav Narula 2023年1月30日 2022年5月17日
  1. 在 Python 中使用 urllib 包獲取網頁
  2. 在 Python 中使用 requests 包獲取網頁
用 Python 獲取網頁

在 Python 中,我們可以建立連線並從 Web 讀取資料。我們可以通過網路下載檔案並閱讀整個網頁。

本教程展示瞭如何在 Python 中獲取網頁。

在 Python 中使用 urllib 包獲取網頁

該包用於在 Python 中獲取網頁並處理與 URL 相關的操作。我們可以使用 urllib.request.urlopen() 函式通過其 URL 檢索網頁。

urllib.request 模組開啟給定的 URL 並返回一個物件。該物件具有不同的屬性,例如 headerstatus 等。我們可以使用帶有此物件的 read() 函式來讀取網頁。它將返回網頁的全部內容。

請參閱以下示例。

import urllib.request
page = urllib.request.urlopen('http://www.python.org')
print(page.read())

最近,出現了較新版本的 urllib 軟體包。首先,我們有 urllib2 包,它是作為 urllib 的實驗版本構建的,具有更新和改進的功能。它還可以接受來自 requests 包的 Requests 物件。urllib2 包中缺少 urlencode()

urllib3 包也被引入,它是一個第三方包,與前兩個版本不同。下面討論的 requests 包在內部使用此包中的功能。

在 Python 中使用 requests 包獲取網頁

requests 庫易於使用,並提供許多與 HTTP 相關的功能。我們可以使用 requests.get() 函式來檢索網頁並返回一個 Response 物件。

該物件還具有多個屬性,例如 status_codecontent 等。我們可以使用 content 屬性來返回給定網頁的內容。

例如,

import requests
response = requests.get('http://www.python.org')
print (response.status_code)
print (response.content)

requests 庫旨在提供簡單易用的 API,並提供更方便的錯誤處理方式。此外,它會自動將檢索到的響應解碼為 Unicode。

Author: Manav Narula
Manav Narula avatar Manav Narula avatar

Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.

LinkedIn

相關文章 - Python Web