python中如何读入文件夹数据

在Python中读入文件夹数据的方法包括使用os模块、glob模块和路径库pathlib等。 这些方法各有优缺点和适用场景。以下将详细描述如何使用这些方法来读取文件夹中的数据，并着重讲解其中的os模块，因为它是最基础也最常用的方法。

一、使用os模块读入文件夹数据

1.1、os模块简介

os模块是Python标准库的一部分，提供了与操作系统进行交互的功能。通过os模块，您可以进行文件和目录的操作，如创建、删除、读取和写入等。

1.2、使用os.listdir()读取文件夹内容

os.listdir()方法可以列出指定目录下的所有文件和子目录。以下是一个简单的示例代码：

import os
def read_folder_contents(folder_path):
    try:
        files_and_dirs = os.listdir(folder_path)
        return files_and_dirs
    except FileNotFoundError:
        return f"The directory {folder_path} does not exist."
folder_path = '/path/to/your/folder'
contents = read_folder_contents(folder_path)
print(contents)

1.3、使用os.walk()递归读取文件夹内容

os.walk()方法可以递归地遍历目录树，生成目录名称、子目录名称和文件名称。以下是一个示例代码：

import os
def read_folder_recursive(folder_path):
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            print(os.path.join(root, file))
folder_path = '/path/to/your/folder'
read_folder_recursive(folder_path)

详细描述： os.walk()生成器依次返回当前目录路径(root)，目录中的子目录列表(dirs)以及目录中的文件列表(files)。通过循环，可以遍历整个目录树，获取每个文件的完整路径。

二、使用glob模块读入文件夹数据

2.1、glob模块简介

glob模块提供了一个方便的文件路径名模式匹配工具，使用Unix shell风格的通配符匹配文件路径。

2.2、使用glob.glob()读取文件夹内容

glob.glob()方法可以通过指定的模式匹配文件路径。以下是一个简单的示例代码：

import glob
def read_folder_glob(folder_path, pattern="*"):
    files = glob.glob(f"{folder_path}/{pattern}")
    return files
folder_path = '/path/to/your/folder'
files = read_folder_glob(folder_path)
print(files)

详细描述： glob.glob()方法允许使用通配符，如*匹配任意字符，?匹配单个字符，等。通过指定不同的模式，可以灵活地筛选文件。

三、使用pathlib模块读入文件夹数据

3.1、pathlib模块简介

pathlib模块是Python 3.4版本引入的，用于操作路径的面向对象库。它使得路径操作更加直观和简洁。

3.2、使用pathlib.Path.iterdir()读取文件夹内容

pathlib.Path.iterdir()方法可以生成一个包含目录下所有文件和子目录的迭代器。以下是一个示例代码：

from pathlib import Path
def read_folder_pathlib(folder_path):
    p = Path(folder_path)
    return [x for x in p.iterdir()]
folder_path = '/path/to/your/folder'
contents = read_folder_pathlib(folder_path)
print(contents)

详细描述： Path.iterdir()方法返回一个生成器，生成目录下的每个文件和子目录的Path对象。通过列表推导式，可以将生成器转换为列表，便于后续处理。

四、结合使用多种方法进行高级操作

4.1、结合os和glob进行复杂筛选

在实际应用中，可能需要结合多个模块进行复杂的筛选和处理。以下是一个示例，结合os和glob模块进行文件筛选和处理：

import os
import glob
def advanced_file_filter(folder_path, extension=".txt", min_size=1000):
    files = glob.glob(f"{folder_path}/*{extension}")
    filtered_files = []
    for file in files:
        if os.path.getsize(file) > min_size:
            filtered_files.append(file)
    return filtered_files
folder_path = '/path/to/your/folder'
filtered_files = advanced_file_filter(folder_path)
print(filtered_files)

4.2、结合pathlib进行递归读取和处理

pathlib模块也可以通过Path.rglob()方法进行递归读取。以下是一个示例代码：

from pathlib import Path
def read_folder_recursive_pathlib(folder_path, pattern="*"):
    p = Path(folder_path)
    return [x for x in p.rglob(pattern)]
folder_path = '/path/to/your/folder'
contents = read_folder_recursive_pathlib(folder_path)
print(contents)

详细描述： Path.rglob()方法可以递归地匹配指定模式的文件和子目录，非常适合用于复杂目录结构的遍历和筛选。

五、应用场景和实际案例

5.1、数据分析中的文件读取

在数据分析中，常常需要读取大量的数据文件进行批量处理。例如，读取一个文件夹中的所有CSV文件进行数据汇总和分析。以下是一个示例代码：

import pandas as pd
from pathlib import Path
def read_csv_folder(folder_path):
    p = Path(folder_path)
    csv_files = [x for x in p.iterdir() if x.suffix == '.csv']
    data_frames = [pd.read_csv(file) for file in csv_files]
    combined_data = pd.concat(data_frames, ignore_index=True)
    return combined_data
folder_path = '/path/to/your/folder'
combined_data = read_csv_folder(folder_path)
print(combined_data)

5.2、图像处理中的批量文件读取

在图像处理和机器学习中，常常需要读取一个文件夹中的所有图像文件进行批量处理。例如，读取一个文件夹中的所有JPEG图像进行预处理和特征提取。以下是一个示例代码：

from PIL import Image
import numpy as np
from pathlib import Path
def read_images_folder(folder_path):
    p = Path(folder_path)
    image_files = [x for x in p.iterdir() if x.suffix in ['.jpg', '.jpeg']]
    images = [np.array(Image.open(file)) for file in image_files]
    return images
folder_path = '/path/to/your/folder'
images = read_images_folder(folder_path)
print(images)

5.3、研发项目管理中的文件读取

在研发项目管理中，常常需要读取一个文件夹中的所有文档、代码文件等进行管理。例如，读取一个项目目录中的所有Python文件进行代码质量检查和统计。以下是一个示例代码：

import os
def read_python_files(folder_path):
    python_files = []
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.endswith('.py'):
                python_files.append(os.path.join(root, file))
    return python_files
folder_path = '/path/to/your/project'
python_files = read_python_files(folder_path)
print(python_files)

推荐使用研发项目管理系统PingCode和通用项目管理软件Worktile进行项目管理，可以提高项目的管理效率和质量。

六、总结

在Python中读入文件夹数据的方法多种多样，包括使用os模块、glob模块和pathlib模块等。每种方法各有优缺点和适用场景。在实际应用中，可以根据具体需求选择合适的方法，并结合多种方法进行复杂的筛选和处理。通过这些方法，可以高效地读取和处理文件夹中的数据，满足数据分析、图像处理和项目管理等各种需求。