python如何压缩pdf

Python可以通过多种方式压缩PDF文件，包括使用PyPDF2、pdf2image和reportlab库等。使用PyPDF2库可以轻松合并和拆分PDF文件、调整页面大小、删除不必要的页面或对象。pdf2image库将PDF页面转换为图像，以便在压缩时减少质量损失。reportlab库则可以创建和编辑PDF文件，允许自定义压缩设置。以下将详细介绍如何使用这些库进行PDF压缩。

一、使用PyPDF2进行PDF压缩

PyPDF2是一个非常流行的Python库，可以用来处理PDF文件，包括读取、合并、拆分和压缩PDF文件。虽然PyPDF2本身没有直接的压缩功能，但可以通过调整页面的大小和删除不必要的页面来实现压缩。

安装PyPDF2库

首先，确保安装了PyPDF2库。可以使用以下命令通过pip进行安装：

pip install PyPDF2

使用PyPDF2压缩PDF文件

通过以下代码示例，可以了解如何使用PyPDF2库来压缩PDF文件：

import PyPDF2
def compress_pdf(input_pdf_path, output_pdf_path):
    # 打开原始PDF文件
    with open(input_pdf_path, 'rb') as input_file:
        reader = PyPDF2.PdfReader(input_file)
        writer = PyPDF2.PdfWriter()
        # 遍历每一页，调整页面大小
        for page_number in range(len(reader.pages)):
            page = reader.pages[page_number]
            page.scale_by(0.9)  # 将每一页缩小90%
            writer.add_page(page)
        # 将修改后的内容写入新的PDF文件
        with open(output_pdf_path, 'wb') as output_file:
            writer.write(output_file)
示例调用
compress_pdf('input.pdf', 'output_compressed.pdf')

在这个示例中，scale_by函数用于将PDF文件的每一页缩小到原来的90%。这可以有效减少文件的大小。

二、使用pdf2image和Pillow进行PDF压缩

pdf2image库可以将PDF文件的每一页转换为图像。通过这种方式，可以使用Pillow库调整图像的质量和大小，从而压缩PDF文件。

安装pdf2image和Pillow库

首先，确保安装了pdf2image和Pillow库。可以使用以下命令通过pip进行安装：

pip install pdf2image pillow

使用pdf2image和Pillow压缩PDF文件

通过以下代码示例，可以了解如何使用pdf2image和Pillow库来压缩PDF文件：

from pdf2image import convert_from_path
from PIL import Image
def compress_pdf(input_pdf_path, output_pdf_path, dpi=100):
    # 将PDF文件的每一页转换为图像
    images = convert_from_path(input_pdf_path, dpi=dpi)
    # 保存为新的PDF文件，调整图像的质量
    image_list = []
    for image in images:
        image = image.convert('RGB')
        image_list.append(image)
    image_list[0].save(output_pdf_path, save_all=True, append_images=image_list[1:], quality=85)
示例调用
compress_pdf('input.pdf', 'output_compressed.pdf')

在这个示例中，convert_from_path函数用于将PDF文件的每一页转换为图像。可以通过调整DPI（每英寸点数）和图像质量来控制压缩的程度。

三、使用reportlab创建和压缩PDF文件

reportlab是一个强大的Python库，用于创建和编辑PDF文件。通过自定义压缩选项，可以使用reportlab库来压缩PDF文件。

安装reportlab库

首先，确保安装了reportlab库。可以使用以下命令通过pip进行安装：

pip install reportlab

使用reportlab压缩PDF文件

通过以下代码示例，可以了解如何使用reportlab库来压缩PDF文件：

from reportlab.pdfgen import canvas
from reportlab.lib.pagesizes import letter
def create_compressed_pdf(output_pdf_path):
    # 创建一个新的PDF文件
    c = canvas.Canvas(output_pdf_path, pagesize=letter)
    # 设置压缩选项
    c.setPageCompression(1)
    # 添加内容到PDF文件
    c.drawString(100, 750, "Hello, World!")
    c.drawString(100, 735, "This is a sample PDF file.")
    # 关闭并保存PDF文件
    c.showPage()
    c.save()
示例调用
create_compressed_pdf('compressed_reportlab.pdf')

在这个示例中，setPageCompression函数用于启用页面压缩选项。通过这种方式，可以减少PDF文件的大小。

四、使用Ghostscript进行PDF压缩

Ghostscript是一个强大的工具，可以通过命令行进行PDF文件的压缩。虽然不完全是Python库，但可以通过os模块调用Ghostscript命令来实现PDF压缩。

安装Ghostscript

在使用Ghostscript之前，需要在系统上安装它。可以从Ghostscript官方网站下载并安装适用于您操作系统的版本。

使用Ghostscript压缩PDF文件

通过以下代码示例，可以了解如何使用Ghostscript进行PDF文件的压缩：

import os
def compress_pdf_with_ghostscript(input_pdf_path, output_pdf_path):
    # 构建Ghostscript命令
    gs_command = f"gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dBATCH -sOutputFile={output_pdf_path} {input_pdf_path}"
    # 执行Ghostscript命令
    os.system(gs_command)
示例调用
compress_pdf_with_ghostscript('input.pdf', 'output_compressed.pdf')

在这个示例中，gs命令用于调用Ghostscript进行PDF文件的压缩。通过调整-dPDFSETTINGS选项，可以控制压缩的质量。

五、总结

在Python中，有多种方法可以压缩PDF文件，包括使用PyPDF2、pdf2image、reportlab和Ghostscript等工具。每种方法都有其优缺点，可以根据具体需求选择合适的工具。