用 Python 阅读 PDF

Samyak Jain 2023年1月30日 2021年7月13日
  1. 在 Python 中使用 PyPDF2 模块阅读 PDF
  2. 在 Python 中使用 PDFplumber 模块阅读 PDF
  3. 在 Python 中使用 textract 模块阅读 PDF
  4. 在 Python 中使用 PDFminer.six 模块阅读 PDF
用 Python 阅读 PDF

PDF 文档无法修改,但可以轻松可靠地共享。PDF 文档中可以有不同的元素,如文本、链接、图像、表格、表单等。

在本教程中,我们将使用 Python 读取 PDF 文件。

在 Python 中使用 PyPDF2 模块阅读 PDF

PyPDF2 是一个 Python 模块,我们可以使用它来提取 PDF 文档的信息、合并文档、拆分文档、裁剪页面、加密或解密 PDF 文件等等。

我们使用 open('document_path.PDF', 'rb') 以读取二进制模式打开 PDF 文档。PDFFileReader() 用于创建一个 PDF 阅读器对象来阅读文档。我们可以使用 getPage()extractText() 方法从 PDF 文档的页面中提取文本。要获取给定 PDF 文档中的页数,我们使用 .numPages

例如,

from PyPDF2 import PDFFileReader
temp = open('document_path.PDF', 'rb')
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())

上面的代码将在提供的 PDF 文档的第一页上打印文本。

在 Python 中使用 PDFplumber 模块阅读 PDF

PDFplumber 是一个 Python 模块,我们可以使用它从 PDF 文档和其他内容中读取和提取文本。与 PyPDF2 模块相比,PDFplumber 模块更有效。这里我们还使用了 open() 函数来读取 PDF 文件。

例如,

import PDFplumber
with PDFplumber.open("document_path.PDF") as temp:
  first_page = temp.pages[0]
  print(first_page.extract_text())

上面的代码将从提供的 PDF 文档的第一页打印文本。

在 Python 中使用 textract 模块阅读 PDF

我们可以使用 textract 模块中的函数 textract.process() 来读取 PDF 文档。

例如,

import textract
PDF_read = textract.process('document_path.PDF', method='PDFminer')

在 Python 中使用 PDFminer.six 模块阅读 PDF

PDFminer.six 是一个 Python 模块,我们可以使用它从 PDF 文档中读取和提取文本。我们将使用该模块中的 extract_text() 函数来读取 PDF 中的文本。

例如,

from PDFminer.high_level import extract_text
PDF_read = extract_text('document_path.PDF')

相关文章 - Python PDF