從 Python 中的字串中刪除 HTML 標記

Fariba Laiq 2023年1月30日 2022年7月18日
  1. 在 Python 中使用正規表示式從字串中刪除 HTML 標籤
  2. 在 Python 中使用 BeautifulSoup 從字串中刪除 HTML 標籤
  3. 在 Python 中使用 xml.etree.ElementTree 從字串中刪除 HTML 標籤
從 Python 中的字串中刪除 HTML 標記

在本指南中,我們將學習並應用一些方法來從字串中刪除 HTML 標記。我們將使用正規表示式 BeautifulSoup 和 XML 元素樹。

在 Python 中使用正規表示式從字串中刪除 HTML 標籤

因為 HTML 標籤總是包含符號 <>。我們將匯入內建的 re 模組(正規表示式)並使用 compile() 方法在輸入字串中搜尋定義的模式。

在這裡,模式 <.*?> 表示標籤 <> 內的零個或多個字元,並且匹配儘可能少。

sub() 方法用於將出現的字串替換為另一個字串。在這裡,它將用空字串替換找到的匹配項。

示例程式碼:

#Python 3.x
import re
string='<h1>Delftstack</h1>'
print('String before cleaning:', string)
to_clean = re.compile('<.*?>')
cleantext = re.sub(to_clean, '', string)
print('String after cleaning:', cleantext)

輸出:

#Python 3.x
String before cleaning: <h1>Delftstack</h1>
String after cleaning: Delftstack

在 Python 中使用 BeautifulSoup 從字串中刪除 HTML 標籤

BeautifulSoup 是一個 Python 庫,用於從 HTML 和 XML 中獲取資料。它使用解析器來解析 HTML 和 XML;推薦一個是 lxml

我們需要在繼續之前安裝兩者,使用以下命令:

#Python 3.x
pip install beautifulsoup4
#Python 3.x
pip install lxml

我們匯入了 BeautifulSoup 模組並在以下程式碼中解析了給定的 HTML 字串。我們使用 text 屬性從 HTML 訪問文字。

示例程式碼:

#Python 3.x
from bs4 import BeautifulSoup
string='<h1>Delftstack</h1>'
print('String after cleaning:', string)
cleantext = BeautifulSoup(string, "lxml").text
print('String after cleaning:', cleantext)

輸出:

#Python 3.x
String after cleaning: <h1>Delftstack</h1>
String after cleaning: Delftstack

在 Python 中使用 xml.etree.ElementTree 從字串中刪除 HTML 標籤

ElementTree 是一個通過 XML 解析和導航的庫。fromstring() 方法將 XML 直接從字串解析為元素,該元素是解析樹的根元素。

itertext() 生成一個文字迭代器,它按文件順序迴圈遍歷該元素及其所有子元素,返回所有內部文字。通過合併由字串分隔符分隔的可迭代(輸入字串)的所有元件(內部文字),join() 方法返回一個沒有 HTML 標記的字串。

示例程式碼:

#Python 3.x
import xml.etree.ElementTree as ET
string = '<h1>Delftstack</h1>'
print('String before cleaning:', string)
tree = ET.fromstring(string)
print('String after cleaning:',''.join(tree.itertext()))

輸出:

#Python 3.x
String before cleaning: <h1>Delftstack</h1>
String after cleaning: Delftstack
Author: Fariba Laiq
Fariba Laiq avatar Fariba Laiq avatar

I am Fariba Laiq from Pakistan. An android app developer, technical content writer, and coding instructor. Writing has always been one of my passions. I love to learn, implement and convey my knowledge to others.

LinkedIn

相關文章 - Python String