用 Python 阅读 PDF
Samyak Jain
2023年1月30日
2021年7月13日
-
在 Python 中使用
PyPDF2
模块阅读 PDF -
在 Python 中使用
PDFplumber
模块阅读 PDF -
在 Python 中使用
textract
模块阅读 PDF -
在 Python 中使用
PDFminer.six
模块阅读 PDF
PDF 文档无法修改,但可以轻松可靠地共享。PDF 文档中可以有不同的元素,如文本、链接、图像、表格、表单等。
在本教程中,我们将使用 Python 读取 PDF 文件。
在 Python 中使用 PyPDF2
模块阅读 PDF
PyPDF2
是一个 Python 模块,我们可以使用它来提取 PDF 文档的信息、合并文档、拆分文档、裁剪页面、加密或解密 PDF 文件等等。
我们使用 open('document_path.PDF', 'rb')
以读取二进制模式打开 PDF 文档。PDFFileReader()
用于创建一个 PDF 阅读器对象来阅读文档。我们可以使用 getPage()
和 extractText()
方法从 PDF 文档的页面中提取文本。要获取给定 PDF 文档中的页数,我们使用 .numPages
。
例如,
from PyPDF2 import PDFFileReader
temp = open('document_path.PDF', 'rb')
PDF_read = PDFFileReader(temp)
first_page = PDF_read.getPage(0)
print(first_page.extractText())
上面的代码将在提供的 PDF 文档的第一页上打印文本。
在 Python 中使用 PDFplumber
模块阅读 PDF
PDFplumber
是一个 Python 模块,我们可以使用它从 PDF 文档和其他内容中读取和提取文本。与 PyPDF2
模块相比,PDFplumber
模块更有效。这里我们还使用了 open()
函数来读取 PDF 文件。
例如,
import PDFplumber
with PDFplumber.open("document_path.PDF") as temp:
first_page = temp.pages[0]
print(first_page.extract_text())
上面的代码将从提供的 PDF 文档的第一页打印文本。
在 Python 中使用 textract
模块阅读 PDF
我们可以使用 textract
模块中的函数 textract.process()
来读取 PDF 文档。
例如,
import textract
PDF_read = textract.process('document_path.PDF', method='PDFminer')
在 Python 中使用 PDFminer.six
模块阅读 PDF
PDFminer.six
是一个 Python 模块,我们可以使用它从 PDF 文档中读取和提取文本。我们将使用该模块中的 extract_text()
函数来读取 PDF 中的文本。
例如,
from PDFminer.high_level import extract_text
PDF_read = extract_text('document_path.PDF')