如何用python遍历文件夹

使用Python遍历文件夹的核心方法有：os模块、os.walk()、glob模块、pathlib模块。本文将详细介绍这些方法，并探讨它们的优缺点和具体应用场景。下面将逐一展开详细描述。

一、OS模块

1、os.listdir()

os模块是Python标准库的一部分，提供了非常多的与操作系统进行交互的功能。os.listdir()函数可以返回指定文件夹中的所有文件和文件夹的名字。

import os
获取指定路径下的所有文件和文件夹
path = '/path/to/directory'
files = os.listdir(path)
for file in files:
    print(file)

优点：

简单易用，适合新手。
适用于需要简单遍历文件夹内容的场景。

缺点：

无法递归遍历子文件夹。
需要手动拼接路径。

2、os.scandir()

os.scandir()函数在Python 3.5中引入，返回一个迭代器，能够在遍历文件夹时获取文件的更多信息。

import os
使用scandir遍历文件夹
path = '/path/to/directory'
with os.scandir(path) as entries:
    for entry in entries:
        print(entry.name)

优点：

性能优于os.listdir()，尤其是在处理大文件夹时。
可以获取文件的更多信息，如是否是文件夹。

缺点：

同样无法递归遍历子文件夹，需要手动处理。

3、os.walk()

os.walk()是一个生成器，可以递归遍历目录树，返回一个三元组 (dirpath, dirnames, filenames)。

import os
使用walk递归遍历文件夹
path = '/path/to/directory'
for dirpath, dirnames, filenames in os.walk(path):
    for filename in filenames:
        print(os.path.join(dirpath, filename))

优点：

递归遍历子文件夹。
使用方便，不需要手动拼接路径。

缺点：

相对来说，性能可能不如os.scandir()。

二、GLOB模块

glob模块提供了一个函数用于查找符合特定模式的文件路径名。

import glob
使用glob遍历文件夹
path = '/path/to/directory/*'
files = glob.glob(path)
for file in files:
    print(file)

优点：

支持通配符，方便筛选特定类型的文件。
可以递归遍历子文件夹。

缺点：

不如os.walk()和os.scandir()灵活。

三、PATHLIB模块

pathlib模块在Python 3.4中引入，提供了面向对象的路径操作。

from pathlib import Path
使用pathlib遍历文件夹
path = Path('/path/to/directory')
for file in path.iterdir():
    print(file)

1、pathlib.Path.iterdir()

iterdir()方法返回一个生成器，用于遍历目录中的文件和文件夹。

优点：

面向对象，代码更易读。
可以获取文件的更多信息。

缺点：

无法递归遍历子文件夹，需要手动处理。

2、pathlib.Path.rglob()

rglob()方法支持递归遍历目录树，并可以使用通配符匹配文件。

from pathlib import Path
使用rglob递归遍历文件夹
path = Path('/path/to/directory')
for file in path.rglob('*'):
    print(file)

优点：

递归遍历子文件夹。
支持通配符匹配。

缺点：

需要Python 3.5以上版本。

四、实际应用场景

1、批量文件处理

在数据处理和分析过程中，经常需要批量处理文件。例如，从多个文件中提取数据并进行汇总分析。

import os
path = '/path/to/directory'
for dirpath, dirnames, filenames in os.walk(path):
    for filename in filenames:
        if filename.endswith('.txt'):
            with open(os.path.join(dirpath, filename), 'r') as file:
                data = file.read()
                # 进行数据处理

2、文件备份

在自动化运维中，经常需要遍历文件夹来备份文件。

import shutil
from pathlib import Path
source = Path('/path/to/source')
destination = Path('/path/to/destination')
for file in source.rglob('*'):
    if file.is_file():
        shutil.copy(file, destination / file.relative_to(source))

3、搜索特定文件

在开发过程中，有时需要搜索包含特定内容的文件。

from pathlib import Path
path = Path('/path/to/directory')
search_string = "specific content"
for file in path.rglob('*.py'):
    with open(file, 'r') as f:
        if search_string in f.read():
            print(f"Found in {file}")

4、项目管理系统中的文件管理

在项目管理系统中，文件管理是一个重要功能。可以通过遍历文件夹来实现文件的上传、下载和删除功能。

推荐使用以下两款项目管理系统：

研发项目管理系统PingCode：专注于研发项目管理，提供丰富的文件管理功能。
通用项目管理软件Worktile：适用于各种类型的项目管理，支持文件管理和团队协作。

import os
示例：在Worktile中上传文件
def upload_files_to_worktile(directory):
    for dirpath, dirnames, filenames in os.walk(directory):
        for filename in filenames:
            file_path = os.path.join(dirpath, filename)
            # 调用Worktile API上传文件
            # worktile_api.upload_file(file_path)
示例：在PingCode中下载文件
def download_files_from_pingcode(directory):
    # 调用PingCode API获取文件列表
    # files = pingcode_api.get_files()
    for file in files:
        file_path = os.path.join(directory, file['name'])
        # 调用PingCode API下载文件
        # pingcode_api.download_file(file['id'], file_path)

五、总结

使用Python遍历文件夹的方法有很多，每种方法都有其优缺点和适用场景。os模块提供了基础的文件夹遍历功能，适合简单的文件操作；glob模块支持通配符匹配，适合筛选特定类型的文件；pathlib模块提供了更现代的面向对象接口，代码更易读。根据具体应用场景选择合适的方法，可以提高代码的效率和可读性。

相关问答FAQs：

1. 问题：我想使用Python遍历文件夹，如何实现？

回答：您可以使用Python的os模块中的walk()函数来遍历文件夹。该函数可以递归地遍历文件夹中的所有子文件夹和文件。您可以使用以下代码来实现：

import os

def traverse_folder(folder_path):
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            file_path = os.path.join(root, file)
            # 在这里对文件进行操作，例如打印文件路径
            print(file_path)

在上述代码中，您只需要将folder_path替换为您要遍历的文件夹的路径，然后在for循环中对文件进行操作即可。

2. 问题：如何使用Python遍历文件夹并获取文件名和文件大小？

回答：您可以使用Python的os模块中的walk()函数来遍历文件夹，并使用os模块中的stat()函数来获取文件的属性信息，包括文件大小。以下是一个示例代码：

import os

def traverse_folder(folder_path):
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            file_path = os.path.join(root, file)
            file_size = os.stat(file_path).st_size
            # 在这里对文件进行操作，例如打印文件名和文件大小
            print("文件名：", file)
            print("文件大小：", file_size, "bytes")

在上述代码中，file变量保存了文件名，file_size变量保存了文件大小。

3. 问题：我想使用Python遍历文件夹并获取特定文件类型的文件，该怎么做？

回答：您可以使用Python的os模块中的walk()函数来遍历文件夹，并通过判断文件的后缀名来筛选特定文件类型。以下是一个示例代码：

import os

def traverse_folder(folder_path, file_extension):
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.endswith(file_extension):
                file_path = os.path.join(root, file)
                # 在这里对特定文件类型进行操作，例如打印文件路径
                print(file_path)

在上述代码中，您需要将folder_path替换为您要遍历的文件夹的路径，将file_extension替换为您要筛选的文件类型的后缀名（例如：".txt"）。然后，在if语句中判断文件的后缀名是否与file_extension相匹配，如果匹配则对该文件进行操作。

文章包含AI辅助创作，作者：Edit2，如若转载，请注明出处：https://docs.pingcode.com/baike/880948