用 Python 獲取網頁
在 Python 中,我們可以建立連線並從 Web 讀取資料。我們可以通過網路下載檔案並閱讀整個網頁。
本教程展示瞭如何在 Python 中獲取網頁。
在 Python 中使用 urllib
包獲取網頁
該包用於在 Python 中獲取網頁並處理與 URL 相關的操作。我們可以使用 urllib.request.urlopen()
函式通過其 URL 檢索網頁。
urllib.request
模組開啟給定的 URL 並返回一個物件。該物件具有不同的屬性,例如 header
、status
等。我們可以使用帶有此物件的 read()
函式來讀取網頁。它將返回網頁的全部內容。
請參閱以下示例。
import urllib.request
page = urllib.request.urlopen('http://www.python.org')
print(page.read())
最近,出現了較新版本的 urllib
軟體包。首先,我們有 urllib2
包,它是作為 urllib
的實驗版本構建的,具有更新和改進的功能。它還可以接受來自 requests
包的 Requests
物件。urllib2
包中缺少 urlencode()
。
urllib3
包也被引入,它是一個第三方包,與前兩個版本不同。下面討論的 requests
包在內部使用此包中的功能。
在 Python 中使用 requests
包獲取網頁
requests
庫易於使用,並提供許多與 HTTP 相關的功能。我們可以使用 requests.get()
函式來檢索網頁並返回一個 Response
物件。
該物件還具有多個屬性,例如 status_code
、content
等。我們可以使用 content
屬性來返回給定網頁的內容。
例如,
import requests
response = requests.get('http://www.python.org')
print (response.status_code)
print (response.content)
requests
庫旨在提供簡單易用的 API,並提供更方便的錯誤處理方式。此外,它會自動將檢索到的響應解碼為 Unicode。
Manav is a IT Professional who has a lot of experience as a core developer in many live projects. He is an avid learner who enjoys learning new things and sharing his findings whenever possible.
LinkedIn