python 如何批量获取文件名

Python 批量获取文件名的方法包括使用 os 模块、glob 模块、以及 pathlib 模块等。这些方法分别有其优点和适用场景，其中 os 模块适用范围广、glob 模块支持通配符匹配、pathlib 模块则提供了面向对象的文件路径操作。我们将详细介绍如何使用这些方法来批量获取文件名，并分享一些实用的技巧和注意事项。

一、OS 模块

1.1 基本使用方法

os 模块是 Python 标准库中的一个模块，提供了与操作系统进行交互的各种功能。使用 os 模块可以方便地获取目录中的所有文件名。以下是一个简单示例：

import os
def get_file_names(directory):
    try:
        file_names = os.listdir(directory)
        return file_names
    except Exception as e:
        print(f"Error: {e}")
        return []
directory = "/path/to/your/directory"
file_names = get_file_names(directory)
print(file_names)

在这个示例中，os.listdir() 函数返回指定目录下的所有文件和文件夹名称。如果需要过滤掉文件夹，只保留文件，可以进一步处理：

def get_file_names(directory):
    try:
        file_names = [f for f in os.listdir(directory) if os.path.isfile(os.path.join(directory, f))]
        return file_names
    except Exception as e:
        print(f"Error: {e}")
        return []
file_names = get_file_names(directory)
print(file_names)

1.2 递归获取子目录文件名

如果需要递归获取子目录中的所有文件名，可以使用 os.walk() 函数：

def get_all_file_names(directory):
    all_files = []
    for root, dirs, files in os.walk(directory):
        for file in files:
            all_files.append(os.path.join(root, file))
    return all_files
all_files = get_all_file_names(directory)
print(all_files)

os.walk() 函数会遍历指定目录及其子目录，返回一个三元组 (root, dirs, files)，分别表示当前目录路径、当前目录下的子目录列表和当前目录下的文件列表。

二、GLOB 模块

2.1 基本使用方法

glob 模块提供了一个简洁的方式来查找与指定模式匹配的文件。它支持使用通配符（如 *, ?, []）进行文件名匹配。以下是一个简单示例：

import glob
def get_file_names(pattern):
    file_names = glob.glob(pattern)
    return file_names
pattern = "/path/to/your/directory/*.txt"
file_names = get_file_names(pattern)
print(file_names)

在这个示例中，glob.glob() 函数返回与模式匹配的文件列表。

2.2 递归获取子目录文件名

glob 模块在 Python 3.5 及以上版本中，支持递归搜索子目录中的文件。可以使用通配符来实现：

def get_all_file_names(pattern):
    file_names = glob.glob(pattern, recursive=True)
    return file_names
pattern = "/path/to/your/directory//*.txt"
file_names = get_all_file_names(pattern)
print(file_names)

在这个示例中，通配符表示递归匹配所有子目录。

三、PATHLIB 模块

3.1 基本使用方法

pathlib 模块是 Python 3.4 引入的一个模块，提供了面向对象的文件路径操作。使用 pathlib 可以方便地获取文件名。以下是一个简单示例：

from pathlib import Path
def get_file_names(directory):
    p = Path(directory)
    file_names = [f.name for f in p.iterdir() if f.is_file()]
    return file_names
directory = "/path/to/your/directory"
file_names = get_file_names(directory)
print(file_names)

在这个示例中，Path.iterdir() 方法返回目录中所有文件和文件夹的迭代器，通过 f.is_file() 方法可以过滤掉文件夹。

3.2 递归获取子目录文件名

如果需要递归获取子目录中的所有文件名，可以使用 Path.rglob() 方法：

def get_all_file_names(directory):
    p = Path(directory)
    file_names = [str(f) for f in p.rglob('*') if f.is_file()]
    return file_names
all_files = get_all_file_names(directory)
print(all_files)

Path.rglob() 方法支持递归匹配所有子目录中的文件。

四、实用技巧

4.1 文件名过滤

在实际应用中，可能需要根据文件扩展名、文件大小或其他条件来过滤文件名。以下是一个示例，演示如何根据文件扩展名和大小过滤文件：

def get_filtered_file_names(directory, extensions=None, min_size=0, max_size=float('inf')):
    p = Path(directory)
    filtered_files = []
    for f in p.rglob('*'):
        if f.is_file() and (extensions is None or f.suffix in extensions) and min_size <= f.stat().st_size <= max_size:
            filtered_files.append(str(f))
    return filtered_files
directory = "/path/to/your/directory"
extensions = ['.txt', '.py']
min_size = 100  # bytes
max_size = 5000  # bytes
filtered_files = get_filtered_file_names(directory, extensions, min_size, max_size)
print(filtered_files)

4.2 异常处理

在批量获取文件名的过程中，可能会遇到权限不足、文件不存在等异常情况。为了提高代码的健壮性，建议添加适当的异常处理：

def get_file_names_with_error_handling(directory):
    try:
        p = Path(directory)
        file_names = [f.name for f in p.iterdir() if f.is_file()]
        return file_names
    except PermissionError:
        print(f"Permission denied: {directory}")
        return []
    except FileNotFoundError:
        print(f"Directory not found: {directory}")
        return []
    except Exception as e:
        print(f"Unexpected error: {e}")
        return []
directory = "/path/to/your/directory"
file_names = get_file_names_with_error_handling(directory)
print(file_names)

4.3 性能优化

在处理大量文件时，性能可能成为一个问题。以下是一些性能优化建议：

避免重复操作：尽量减少对文件系统的重复访问。
使用生成器：生成器可以在需要时才生成文件名，节省内存。
多线程或多进程：在处理大量文件时，可以考虑使用多线程或多进程来提高性能。

以下是一个使用生成器的示例：

def get_file_names_generator(directory):
    p = Path(directory)
    for f in p.iterdir():
        if f.is_file():
            yield f.name
directory = "/path/to/your/directory"
file_names = list(get_file_names_generator(directory))
print(file_names)

五、总结

通过本文的介绍，我们详细探讨了 Python 批量获取文件名的多种方法，包括使用 os 模块、glob 模块和 pathlib 模块。每种方法都有其优点和适用场景。我们还分享了一些实用技巧，如文件名过滤、异常处理和性能优化。希望这些内容能够帮助你在实际项目中更高效地处理文件名获取的任务。

在项目管理系统方面，如果你需要管理研发项目，可以考虑使用 PingCode；如果你需要一个通用的项目管理工具，可以考虑使用 Worktile。这两个系统都提供了强大的功能和灵活的配置，能够满足不同类型项目的需求。