python如何压缩pdf

Python如何压缩PDF：使用库如PyMuPDF、Ghostscript、pikepdf、通过调整PDF的图像分辨率。本文将详细介绍如何使用这些方法，特别是如何使用PyMuPDF库来压缩PDF文件。

一、使用PyMuPDF进行PDF压缩

PyMuPDF 是一个功能强大的库，可以用来处理 PDF 文件，包括查看、编辑和压缩。它的优势在于操作简单，性能高效。

1.1 安装和基本使用

首先，我们需要安装 PyMuPDF。可以通过以下命令进行安装：

pip install pymupdf

安装完成后，我们可以开始使用它来压缩 PDF 文件。以下是一个基本的示例代码：

import fitz  # PyMuPDF
def compress_pdf(input_path, output_path):
    # 打开PDF文件
    document = fitz.open(input_path)
    # 遍历每一页
    for page_num in range(len(document)):
        page = document.load_page(page_num)
        pix = page.get_pixmap()
        # 将图像压缩并保存
        pix.save(f"page_{page_num}.png", compress=True)
    # 创建新的PDF
    new_document = fitz.open()
    for page_num in range(len(document)):
        img = fitz.open(f"page_{page_num}.png")
        rect = img[0].rect
        pdfbytes = img.convert_to_pdf()
        img_pdf = fitz.open("pdf", pdfbytes)
        new_document.insert_pdf(img_pdf)
    # 保存压缩后的PDF
    new_document.save(output_path)
compress_pdf("input.pdf", "output.pdf")

1.2 代码详解

在上面的代码中，我们首先使用 fitz.open() 方法打开输入的 PDF 文件。然后，我们通过 document.load_page() 方法遍历每一页，并将每一页转换为图像，保存为 PNG 格式。

接着，我们创建一个新的 PDF 文件，并将每一页的 PNG 图像插入到新的 PDF 中。最后，使用 new_document.save() 方法保存压缩后的 PDF 文件。

二、使用Ghostscript进行PDF压缩

Ghostscript 是一个强大的命令行工具，用于处理 PDF 和其他图像格式。我们可以通过调用 Ghostscript 命令来压缩 PDF 文件。

2.1 安装Ghostscript

首先，我们需要安装 Ghostscript。可以通过以下命令进行安装：

# 对于 Windows 用户 choco install ghostscript 对于 macOS 用户 brew install ghostscript

2.2 使用Python调用Ghostscript

安装完成后，我们可以使用 Python 的 subprocess 模块来调用 Ghostscript 命令。以下是一个示例代码：

import subprocess
def compress_pdf(input_path, output_path):
    gs_command = [
        "gs",
        "-sDEVICE=pdfwrite",
        "-dCompatibilityLevel=1.4",
        "-dPDFSETTINGS=/screen",
        "-dNOPAUSE",
        "-dQUIET",
        "-dBATCH",
        f"-sOutputFile={output_path}",
        input_path
    ]
    subprocess.run(gs_command)
compress_pdf("input.pdf", "output.pdf")

2.3 代码详解

在上面的代码中，我们使用 subprocess.run() 方法调用 Ghostscript 命令。-sDEVICE=pdfwrite 指定了输出设备为 PDF 文件，-dPDFSETTINGS=/screen 设置了压缩级别为屏幕质量。

三、使用pikepdf进行PDF压缩

pikepdf 是一个基于 QPDF 的 Python 库，用于处理和优化 PDF 文件。它的优势在于提供了更加灵活的操作方式。

3.1 安装和基本使用

首先，我们需要安装 pikepdf。可以通过以下命令进行安装：

pip install pikepdf

3.2 压缩PDF文件

以下是一个使用 pikepdf 进行 PDF 压缩的示例代码：

import pikepdf
def compress_pdf(input_path, output_path):
    with pikepdf.open(input_path) as pdf:
        pdf.save(output_path, optimize_version=True)
compress_pdf("input.pdf", "output.pdf")

3.3 代码详解

在上面的代码中，我们使用 pikepdf.open() 方法打开输入的 PDF 文件，并通过 pdf.save() 方法保存压缩后的 PDF 文件。optimize_version=True 参数用于优化 PDF 文件的版本。

四、通过调整PDF的图像分辨率进行压缩

调整 PDF 文件中图像的分辨率是一种有效的压缩方法。我们可以使用 PyMuPDF 库来实现这一点。

4.1 安装和基本使用

首先，我们需要安装 PyMuPDF。可以通过以下命令进行安装：

pip install pymupdf

4.2 调整图像分辨率

以下是一个调整 PDF 文件中图像分辨率的示例代码：

import fitz  # PyMuPDF
def compress_pdf(input_path, output_path, zoom_x=0.5, zoom_y=0.5):
    # 打开PDF文件
    document = fitz.open(input_path)
    # 创建新的PDF
    new_document = fitz.open()
    for page_num in range(len(document)):
        page = document.load_page(page_num)
        mat = fitz.Matrix(zoom_x, zoom_y)  # 调整缩放比例
        pix = page.get_pixmap(matrix=mat)
        img = fitz.open("pdf", pix.tobytes())
        new_document.insert_pdf(img)
    # 保存压缩后的PDF
    new_document.save(output_path)
compress_pdf("input.pdf", "output.pdf")

4.3 代码详解

在上面的代码中，我们通过调整 fitz.Matrix 的缩放比例来降低 PDF 文件中图像的分辨率。然后，我们将每一页的图像插入到新的 PDF 文件中，并保存压缩后的 PDF 文件。

五、总结

通过本文的介绍，我们详细探讨了Python如何压缩PDF文件的多种方法，包括使用PyMuPDF、Ghostscript、pikepdf以及通过调整图像分辨率来进行压缩。这些方法各有优劣，选择哪种方法取决于具体的应用场景和需求。

优点和缺点

PyMuPDF：操作简单，性能高效，但可能需要处理大量的中间图像文件。
Ghostscript：功能强大，适合命令行操作，但需要额外安装并配置环境。
pikepdf：提供了灵活的操作方式，但优化效果可能不如其他方法显著。
调整图像分辨率：直接有效，但可能会影响图像质量。

最佳实践

在实际应用中，建议根据具体需求选择合适的方法。例如，对于简单的压缩需求，可以使用PyMuPDF；对于复杂的PDF处理任务，可以结合使用Ghostscript和pikepdf。无论选择哪种方法，都应注意在压缩过程中保持文件的可读性和图像质量。

通过这些方法，开发者可以有效地压缩PDF文件，提高存储和传输效率，为用户提供更好的体验。无论是个人项目还是企业级应用，这些技术都将是非常有价值的工具。