python 如何递归遍历文件夹

要递归遍历文件夹，可以使用os模块、os.walk()方法、递归函数等方法。os模块提供了访问操作系统功能的接口、os.walk()方法能够生成目录树下的文件名、递归函数可以灵活实现文件夹的遍历。
在这篇文章中，我们将详细介绍如何使用Python递归遍历文件夹，并深入探讨每种方法的使用场景和优缺点。

一、使用os模块递归遍历文件夹

1、os.listdir() 方法

os模块是Python标准库的一部分，提供了与操作系统交互的接口。os.listdir()方法可以获取指定目录下的所有文件和文件夹。

import os
def list_files(dir_path):
    for item in os.listdir(dir_path):
        full_path = os.path.join(dir_path, item)
        if os.path.isdir(full_path):
            list_files(full_path)
        else:
            print(full_path)
使用示例
list_files('/path/to/directory')

上述代码定义了一个递归函数list_files()，它接受一个目录路径作为参数。对于该目录中的每个项目，如果是文件夹，则递归调用list_files()函数；如果是文件，则打印其完整路径。

2、os.scandir() 方法

os.scandir()方法比os.listdir()更高效，并且返回一个包含os.DirEntry对象的迭代器。这些对象提供了更丰富的文件信息。

import os
def scan_files(dir_path):
    with os.scandir(dir_path) as it:
        for entry in it:
            if entry.is_dir():
                scan_files(entry.path)
            else:
                print(entry.path)
使用示例
scan_files('/path/to/directory')

相比于os.listdir()，os.scandir()更快速，因为它不会为每个文件创建新的字符串对象。而且，os.DirEntry对象的is_dir()方法比os.path.isdir()更高效。

二、使用os.walk() 方法递归遍历文件夹

os.walk()方法是一个生成器，用于遍历目录树。它返回一个三元组（dirpath, dirnames, filenames），其中dirpath是当前目录的路径，dirnames是该目录下的子目录列表，filenames是该目录下的文件列表。

import os
def walk_files(dir_path):
    for dirpath, dirnames, filenames in os.walk(dir_path):
        for filename in filenames:
            print(os.path.join(dirpath, filename))
使用示例
walk_files('/path/to/directory')

os.walk()方法简化了递归遍历的实现，不需要显式地编写递归函数，非常适合处理大型目录树。

三、使用Pathlib库递归遍历文件夹

1、Pathlib库介绍

Pathlib库是Python 3.4引入的一个面向对象的文件系统路径操作库。它提供了比os模块更简洁和直观的API。

from pathlib import Path
def pathlib_files(dir_path):
    for path in Path(dir_path).rglob('*'):
        if path.is_file():
            print(path)
使用示例
pathlib_files('/path/to/directory')

Pathlib库的rglob()方法支持递归地匹配指定模式的路径。相比于os模块，Pathlib库的代码更加简洁、易读。

2、Path.iterdir() 方法

Pathlib库中的iterdir()方法用于生成目录中的所有项目。

from pathlib import Path
def iterdir_files(dir_path):
    for path in Path(dir_path).iterdir():
        if path.is_dir():
            iterdir_files(path)
        else:
            print(path)
使用示例
iterdir_files('/path/to/directory')

通过递归调用iterdir_files()函数，可以实现递归遍历文件夹。

四、比较不同方法的优缺点

1、效率对比

os.scandir()方法在性能上优于os.listdir()，因为它直接生成一个迭代器，避免了不必要的字符串操作。os.walk()在处理大型目录树时更高效，因为它生成目录树的三元组，而不是一次性加载所有文件和目录。Pathlib库的性能与os模块相当，但提供了更简洁和直观的API。

2、代码简洁性

Pathlib库的代码更简洁，适合处理复杂的文件系统操作。相比之下，os模块的代码稍显冗长，但在某些场景下更灵活。os.walk()方法简化了递归遍历的实现，不需要显式地编写递归函数，非常适合处理大型目录树。

3、兼容性

os模块是Python标准库的一部分，兼容性最好。Pathlib库是Python 3.4引入的，对于旧版本的Python可能不兼容。在选择方法时，需要根据具体的Python版本和需求来决定。

五、最佳实践与注意事项

1、处理大文件夹

在处理包含大量文件和子目录的大文件夹时，应尽量使用高效的方法，如os.scandir()或os.walk()。这些方法可以减少内存占用和提高遍历速度。

2、异常处理

在遍历文件夹时，可能会遇到权限不足、文件夹不存在等情况。应添加异常处理代码，以确保程序的健壮性。

import os
def safe_list_files(dir_path):
    try:
        for item in os.listdir(dir_path):
            full_path = os.path.join(dir_path, item)
            if os.path.isdir(full_path):
                safe_list_files(full_path)
            else:
                print(full_path)
    except PermissionError as e:
        print(f"Permission denied: {e}")
    except FileNotFoundError as e:
        print(f"File not found: {e}")
使用示例
safe_list_files('/path/to/directory')

3、使用生成器

在处理大型目录树时，可以使用生成器来实现惰性遍历，避免一次性加载所有文件和目录。

import os
def list_files_gen(dir_path):
    try:
        for item in os.listdir(dir_path):
            full_path = os.path.join(dir_path, item)
            if os.path.isdir(full_path):
                yield from list_files_gen(full_path)
            else:
                yield full_path
    except PermissionError as e:
        print(f"Permission denied: {e}")
    except FileNotFoundError as e:
        print(f"File not found: {e}")
使用示例
for file in list_files_gen('/path/to/directory'):
    print(file)

使用生成器可以在需要时逐个生成文件路径，节省内存。

六、实际应用场景

1、文件搜索

递归遍历文件夹可以用于实现文件搜索功能。例如，搜索特定扩展名的文件。

import os
def search_files(dir_path, extension):
    for dirpath, dirnames, filenames in os.walk(dir_path):
        for filename in filenames:
            if filename.endswith(extension):
                print(os.path.join(dirpath, filename))
使用示例
search_files('/path/to/directory', '.txt')

2、文件统计

递归遍历文件夹可以用于统计文件数量、总大小等信息。

import os
def count_files(dir_path):
    file_count = 0
    total_size = 0
    for dirpath, dirnames, filenames in os.walk(dir_path):
        file_count += len(filenames)
        total_size += sum(os.path.getsize(os.path.join(dirpath, filename)) for filename in filenames)
    return file_count, total_size
使用示例
count, size = count_files('/path/to/directory')
print(f"Total files: {count}, Total size: {size} bytes")

3、文件备份

递归遍历文件夹可以用于实现文件备份功能，将文件复制到备份目录。

import os
import shutil
def backup_files(source_dir, backup_dir):
    for dirpath, dirnames, filenames in os.walk(source_dir):
        for filename in filenames:
            source_path = os.path.join(dirpath, filename)
            relative_path = os.path.relpath(source_path, source_dir)
            backup_path = os.path.join(backup_dir, relative_path)
            os.makedirs(os.path.dirname(backup_path), exist_ok=True)
            shutil.copy2(source_path, backup_path)
使用示例
backup_files('/path/to/source', '/path/to/backup')

七、总结

在Python中递归遍历文件夹有多种方法，包括os模块、os.walk()方法、Pathlib库等。每种方法都有其优缺点和适用场景。在选择方法时，应根据具体需求和Python版本进行选择。同时，在实际应用中应注意处理大文件夹、添加异常处理代码、使用生成器等最佳实践，以确保程序的健壮性和高效性。通过本文的介绍，相信读者已经掌握了递归遍历文件夹的多种方法，并能在实际项目中灵活应用。

python 如何递归遍历文件夹

一、使用os模块递归遍历文件夹

1、os.listdir() 方法

使用示例

2、os.scandir() 方法

使用示例

二、使用os.walk() 方法递归遍历文件夹

使用示例

三、使用Pathlib库递归遍历文件夹

1、Pathlib库介绍

使用示例

2、Path.iterdir() 方法

使用示例

四、比较不同方法的优缺点

1、效率对比

2、代码简洁性

3、兼容性

五、最佳实践与注意事项

1、处理大文件夹

2、异常处理

使用示例

3、使用生成器

使用示例

六、实际应用场景

1、文件搜索

使用示例

2、文件统计

使用示例

3、文件备份

使用示例

七、总结

相关问答FAQs：