python 如何处理pdf文件

Python处理PDF文件的方法包括PyPDF2、pdfminer、PyMuPDF等库的使用，以下将详细介绍PyPDF2库的使用。

PyPDF2是一个功能强大且易于使用的库，可用于读取、合并、拆分、加密和解密PDF文件。通过PyPDF2，用户可以轻松地提取文本、图像、表格等内容，并对PDF文件进行各种操作。接下来，我将详细介绍如何使用PyPDF2库处理PDF文件。

一、安装PyPDF2库

在使用PyPDF2库之前，首先需要安装这个库。可以使用以下命令通过pip进行安装：

pip install PyPDF2

二、读取PDF文件

读取PDF文件是处理PDF文件的第一步。使用PyPDF2库，可以轻松地读取PDF文件并提取其内容。以下是一个简单的示例：

import PyPDF2
def read_pdf(file_path):
    with open(file_path, 'rb') as file:
        reader = PyPDF2.PdfFileReader(file)
        num_pages = reader.numPages
        for page_num in range(num_pages):
            page = reader.getPage(page_num)
            text = page.extract_text()
            print(f"Page {page_num + 1}:\n{text}\n")
read_pdf('sample.pdf')

在上面的代码中，我们首先打开PDF文件，然后使用PdfFileReader类读取文件。numPages属性返回PDF文件的总页数，getPage方法返回指定页码的页面对象，extract_text方法用于提取页面文本内容。

三、合并PDF文件

PyPDF2库还提供了合并多个PDF文件的功能。以下是一个简单的示例：

from PyPDF2 import PdfFileMerger
def merge_pdfs(pdf_list, output_path):
    merger = PdfFileMerger()
    for pdf in pdf_list:
        merger.append(pdf)
    merger.write(output_path)
    merger.close()
pdf_files = ['file1.pdf', 'file2.pdf', 'file3.pdf']
merge_pdfs(pdf_files, 'merged.pdf')

在上面的代码中，我们使用PdfFileMerger类来合并多个PDF文件。append方法用于将每个PDF文件添加到合并对象中，write方法用于将合并后的PDF文件写入到指定的输出路径。

四、拆分PDF文件

除了合并PDF文件外，PyPDF2库还提供了拆分PDF文件的功能。以下是一个简单的示例：

from PyPDF2 import PdfFileReader, PdfFileWriter
def split_pdf(input_path, page_ranges, output_prefix):
    reader = PdfFileReader(input_path)
    for i, (start, end) in enumerate(page_ranges):
        writer = PdfFileWriter()
        for page_num in range(start, end + 1):
            writer.add_page(reader.getPage(page_num))
        output_path = f"{output_prefix}_part{i + 1}.pdf"
        with open(output_path, 'wb') as output_file:
            writer.write(output_file)
input_pdf = 'sample.pdf'
page_ranges = [(0, 2), (3, 5)]
split_pdf(input_pdf, page_ranges, 'split')

在上面的代码中，我们使用PdfFileReader类读取输入PDF文件，然后使用PdfFileWriter类创建新的PDF文件。add_page方法用于将指定页面添加到新的PDF文件中，write方法用于将新的PDF文件写入到指定的输出路径。

五、加密和解密PDF文件

PyPDF2库还提供了加密和解密PDF文件的功能。以下是一个简单的示例：

from PyPDF2 import PdfFileReader, PdfFileWriter
def encrypt_pdf(input_path, output_path, password):
    reader = PdfFileReader(input_path)
    writer = PdfFileWriter()
    for page_num in range(reader.numPages):
        writer.add_page(reader.getPage(page_num))
    writer.encrypt(password)
    with open(output_path, 'wb') as output_file:
        writer.write(output_file)
def decrypt_pdf(input_path, output_path, password):
    reader = PdfFileReader(input_path)
    if reader.is_encrypted:
        reader.decrypt(password)
    writer = PdfFileWriter()
    for page_num in range(reader.numPages):
        writer.add_page(reader.getPage(page_num))
    with open(output_path, 'wb') as output_file:
        writer.write(output_file)
input_pdf = 'sample.pdf'
encrypted_pdf = 'encrypted.pdf'
decrypted_pdf = 'decrypted.pdf'
password = 'mypassword'
encrypt_pdf(input_pdf, encrypted_pdf, password)
decrypt_pdf(encrypted_pdf, decrypted_pdf, password)

在上面的代码中，我们使用PdfFileWriter类的encrypt方法对PDF文件进行加密，并使用PdfFileReader类的decrypt方法对PDF文件进行解密。

六、提取PDF文件中的图像

除了提取文本内容外，我们还可以使用PyPDF2库提取PDF文件中的图像。以下是一个简单的示例：

import fitz  # PyMuPDF
def extract_images(pdf_path, output_folder):
    doc = fitz.open(pdf_path)
    for page_num in range(len(doc)):
        page = doc.load_page(page_num)
        image_list = page.get_images(full=True)
        for img_index, img in enumerate(image_list):
            xref = img[0]
            base_image = doc.extract_image(xref)
            image_bytes = base_image["image"]
            image_ext = base_image["ext"]
            image_path = f"{output_folder}/page{page_num + 1}_img{img_index + 1}.{image_ext}"
            with open(image_path, 'wb') as image_file:
                image_file.write(image_bytes)
extract_images('sample.pdf', 'images')

在上面的代码中，我们使用PyMuPDF库中的fitz模块来提取PDF文件中的图像。load_page方法用于加载指定页码的页面，get_images方法用于获取页面中的图像列表，extract_image方法用于提取图像数据。

七、PDF文件的其他操作

除了上述基本操作外，PyPDF2库还提供了其他一些有用的功能，如旋转页面、裁剪页面、添加水印等。以下是一些示例：

1、旋转页面

from PyPDF2 import PdfFileReader, PdfFileWriter
def rotate_pages(input_path, output_path, rotation):
    reader = PdfFileReader(input_path)
    writer = PdfFileWriter()
    for page_num in range(reader.numPages):
        page = reader.getPage(page_num)
        page.rotateClockwise(rotation)
        writer.add_page(page)
    with open(output_path, 'wb') as output_file:
        writer.write(output_file)
rotate_pages('sample.pdf', 'rotated.pdf', 90)

2、裁剪页面

from PyPDF2 import PdfFileReader, PdfFileWriter
def crop_pages(input_path, output_path, crop_box):
    reader = PdfFileReader(input_path)
    writer = PdfFileWriter()
    for page_num in range(reader.numPages):
        page = reader.getPage(page_num)
        page.cropBox.lowerLeft = (crop_box[0], crop_box[1])
        page.cropBox.upperRight = (crop_box[2], crop_box[3])
        writer.add_page(page)
    with open(output_path, 'wb') as output_file:
        writer.write(output_file)
crop_box = (100, 100, 500, 500)
crop_pages('sample.pdf', 'cropped.pdf', crop_box)

3、添加水印

from PyPDF2 import PdfFileReader, PdfFileWriter
def add_watermark(input_path, watermark_path, output_path):
    reader = PdfFileReader(input_path)
    watermark = PdfFileReader(watermark_path)
    watermark_page = watermark.getPage(0)
    writer = PdfFileWriter()
    for page_num in range(reader.numPages):
        page = reader.getPage(page_num)
        page.merge_page(watermark_page)
        writer.add_page(page)
    with open(output_path, 'wb') as output_file:
        writer.write(output_file)
add_watermark('sample.pdf', 'watermark.pdf', 'watermarked.pdf')