python如何读取pdf文件名称

Python读取PDF文件名称的方法有多种，常见的方法包括使用os模块、使用PyPDF2库、结合glob模块等。下面将详细介绍使用这几种方法的步骤和示例代码，其中以使用os模块进行详细描述。

使用os模块读取PDF文件名称

os模块是Python的标准库之一，可以用于处理文件和目录的操作。我们可以使用os模块中的函数来遍历一个目录，并获取该目录下所有PDF文件的名称。

首先，我们需要导入os模块，然后使用os.listdir()函数来列出指定目录下的所有文件。接着，我们可以通过判断文件的扩展名是否为“.pdf”来筛选出PDF文件。具体步骤如下：

导入os模块。
使用os.listdir()函数列出指定目录下的所有文件。
遍历文件列表，并判断文件扩展名是否为“.pdf”。
如果文件扩展名为“.pdf”，则将文件名称添加到结果列表中。

以下是示例代码：

import os
def get_pdf_files(directory):
    pdf_files = []
    for filename in os.listdir(directory):
        if filename.endswith('.pdf'):
            pdf_files.append(filename)
    return pdf_files
指定目录路径
directory_path = '/path/to/your/directory'
获取PDF文件名称列表
pdf_files = get_pdf_files(directory_path)
print(pdf_files)

使用PyPDF2库读取PDF文件信息

PyPDF2是一个常用的Python库，可以用于处理PDF文件，包括读取、合并、拆分和加密PDF文件等。虽然PyPDF2不能直接列出目录下的PDF文件名称，但它可以用于读取和操作PDF文件的内容。

安装PyPDF2库：

pip install PyPDF2

使用PyPDF2库读取PDF文件的基本信息，如标题、作者等。以下是示例代码：

import os
from PyPDF2 import PdfFileReader
def get_pdf_info(file_path):
    with open(file_path, 'rb') as file:
        reader = PdfFileReader(file)
        info = reader.getDocumentInfo()
        return info
指定PDF文件路径
pdf_file_path = '/path/to/your/file.pdf'
获取PDF文件信息
pdf_info = get_pdf_info(pdf_file_path)
print(pdf_info)

结合os模块和glob模块读取PDF文件名称

glob模块提供了一个函数glob()，可以使用通配符模式来匹配文件路径。结合os模块和glob模块，我们可以更加方便地获取指定目录下的PDF文件名称。

导入os模块和glob模块。
使用glob.glob()函数匹配指定目录下的PDF文件路径。
使用os.path.basename()函数获取文件名称。

以下是示例代码：

import os
import glob
def get_pdf_files(directory):
    pdf_files = glob.glob(os.path.join(directory, '*.pdf'))
    pdf_file_names = [os.path.basename(file) for file in pdf_files]
    return pdf_file_names
指定目录路径
directory_path = '/path/to/your/directory'
获取PDF文件名称列表
pdf_files = get_pdf_files(directory_path)
print(pdf_files)

使用Pathlib模块读取PDF文件名称

Pathlib模块是Python 3.4引入的一个新模块，提供了一些更高级的文件和目录操作功能。相比os模块，Pathlib模块的代码更加简洁和易读。

导入Pathlib模块。
使用Pathlib.Path()类创建一个目录对象。
使用目录对象的glob()方法匹配指定目录下的PDF文件路径。
获取文件名称。

以下是示例代码：

from pathlib import Path
def get_pdf_files(directory):
    pdf_files = Path(directory).glob('*.pdf')
    pdf_file_names = [file.name for file in pdf_files]
    return pdf_file_names
指定目录路径
directory_path = '/path/to/your/directory'
获取PDF文件名称列表
pdf_files = get_pdf_files(directory_path)
print(pdf_files)