python如何把pdf转换成txt

Python可以通过多种方法将PDF转换为TXT格式，这些方法包括使用PyPDF2库、pdfminer.six库、以及其他第三方工具和库。使用PyPDF2库提取文本、使用pdfminer.six库提取文本、结合OCR技术处理扫描的PDF。下面将详细介绍如何使用这些方法将PDF转换为TXT格式。

一、使用PyPDF2库提取文本

PyPDF2是一个纯Python编写的PDF工具包，它能够读取和操作PDF文件。它可以用来提取PDF文件中的文本内容，并将其保存为TXT文件。

安装PyPDF2库

在开始之前，需要先安装PyPDF2库。可以通过pip命令来安装：

pip install PyPDF2

提取文本并保存为TXT

以下是一个示例代码，演示如何使用PyPDF2库提取PDF中的文本并保存为TXT文件：

import PyPDF2
def pdf_to_txt(pdf_path, txt_path):
    with open(pdf_path, 'rb') as pdf_file:
        reader = PyPDF2.PdfFileReader(pdf_file)
        with open(txt_path, 'w', encoding='utf-8') as txt_file:
            for page_num in range(reader.numPages):
                page = reader.getPage(page_num)
                text = page.extract_text()
                txt_file.write(text)
示例用法
pdf_to_txt('example.pdf', 'output.txt')

在这个示例中，pdf_to_txt函数接受两个参数：PDF文件路径和输出的TXT文件路径。它会打开PDF文件，读取每一页的文本内容，并将其写入TXT文件中。

二、使用pdfminer.six库提取文本

pdfminer.six是一个用于从PDF文件中提取文本的库，比PyPDF2更加强大和灵活。它可以处理复杂的PDF文件，提取文本的效果更好。

安装pdfminer.six库

首先，需要安装pdfminer.six库：

pip install pdfminer.six

提取文本并保存为TXT

以下是一个示例代码，演示如何使用pdfminer.six库提取PDF中的文本并保存为TXT文件：

from pdfminer.high_level import extract_text
def pdf_to_txt(pdf_path, txt_path):
    text = extract_text(pdf_path)
    with open(txt_path, 'w', encoding='utf-8') as txt_file:
        txt_file.write(text)
示例用法
pdf_to_txt('example.pdf', 'output.txt')

在这个示例中，pdf_to_txt函数使用extract_text函数从PDF文件中提取文本，并将其写入TXT文件中。

三、结合OCR技术处理扫描的PDF

对于扫描的PDF文件，直接提取文本可能无法获得满意的结果。这种情况下，可以结合OCR（光学字符识别）技术来处理PDF文件。Tesseract是一个开源的OCR引擎，可以与Python库pytesseract结合使用。

安装Tesseract和pytesseract库

首先，需要安装Tesseract和pytesseract库：

pip install pytesseract sudo apt-get install tesseract-ocr

提取文本并保存为TXT

以下是一个示例代码，演示如何使用OCR技术处理扫描的PDF文件：

from pdf2image import convert_from_path
import pytesseract
def pdf_to_txt_with_ocr(pdf_path, txt_path):
    images = convert_from_path(pdf_path)
    with open(txt_path, 'w', encoding='utf-8') as txt_file:
        for image in images:
            text = pytesseract.image_to_string(image)
            txt_file.write(text)
示例用法
pdf_to_txt_with_ocr('example.pdf', 'output.txt')