Python如何批量读入文件

在Python中批量读入文件，可以使用os模块、glob模块、pandas库、使用文件名模式匹配等方法。其中，os模块和glob模块是两种常见的方式，可以帮助我们遍历目录并读取文件。在这里，我们将详细介绍如何使用这些方法来批量读取文件。

一、使用OS模块

os模块是Python标准库中的一个模块，提供了与操作系统进行交互的功能。通过os模块，我们可以轻松地遍历目录、读取文件名，并逐个读入文件。

获取文件列表

首先，我们需要获取目标目录下的所有文件名。可以使用os.listdir()函数来实现：

import os
def get_file_list(directory):
    return os.listdir(directory)
file_list = get_file_list('/path/to/directory')

逐个读取文件

通过获取的文件列表，我们可以使用一个循环逐个打开并读取文件：

def read_files(directory, file_list):
    for file_name in file_list:
        with open(os.path.join(directory, file_name), 'r') as file:
            content = file.read()
            # 处理文件内容
            print(content)
read_files('/path/to/directory', file_list)

在这里，os.path.join()函数用于拼接目录路径和文件名，以确保路径格式正确。

二、使用GLOB模块

glob模块提供了一种更为便捷的方式来获取目录下符合特定模式的文件名列表。glob模块能够使用通配符模式匹配文件名，这对于批量读取特定类型的文件非常有用。

使用glob获取文件名列表

import glob
def get_file_list(pattern):
    return glob.glob(pattern)
file_list = get_file_list('/path/to/directory/*.txt')

逐个读取文件

与使用os模块类似，我们可以通过循环逐个读取文件：

def read_files(file_list):
    for file_name in file_list:
        with open(file_name, 'r') as file:
            content = file.read()
            # 处理文件内容
            print(content)
read_files(file_list)

使用glob模块的优势在于可以灵活地使用通配符，例如获取所有.txt文件或特定前缀的文件。

三、使用PANDAS库

如果文件是结构化数据文件，例如CSV或Excel文件，使用pandas库是一个非常有效的方法。pandas提供了便捷的函数来读取这些文件，并将其转换为DataFrame格式，便于后续的数据处理和分析。

使用pandas读取CSV文件

import pandas as pd
def read_csv_files(file_list):
    data_frames = []
    for file_name in file_list:
        df = pd.read_csv(file_name)
        data_frames.append(df)
    return data_frames
file_list = get_file_list('/path/to/directory/*.csv')
data_frames = read_csv_files(file_list)

处理DataFrame

读取文件后，可以对DataFrame进行各种数据处理和分析操作，例如数据清洗、合并等：

def process_data(data_frames):
    for df in data_frames:
        # 数据处理操作
        print(df.head())
process_data(data_frames)

使用pandas读取文件的好处在于其强大的数据处理能力，尤其适用于大规模的数据分析任务。

四、文件名模式匹配与过滤

有时候，我们只需要读取目录中符合特定条件的文件。可以结合正则表达式或其他字符串操作方法来实现文件名的过滤。

使用正则表达式过滤文件名

import re
def filter_files(file_list, pattern):
    regex = re.compile(pattern)
    return [file_name for file_name in file_list if regex.match(file_name)]
file_list = get_file_list('/path/to/directory')
filtered_files = filter_files(file_list, r'^data_\d+\.txt$')

读取过滤后的文件

def read_filtered_files(directory, filtered_files):
    for file_name in filtered_files:
        with open(os.path.join(directory, file_name), 'r') as file:
            content = file.read()
            # 处理文件内容
            print(content)
read_filtered_files('/path/to/directory', filtered_files)

通过正则表达式，可以灵活地过滤出符合特定命名规则的文件，例如以“data_”开头并且后接数字的文件。

五、处理大文件

在批量读取文件时，有时会遇到大文件，直接将其全部读入内存可能导致内存不足。因此，处理大文件时需要格外注意，可以考虑使用分块读取的方法。

分块读取文件

def read_large_file(file_name, chunk_size=1024):
    with open(file_name, 'r') as file:
        while True:
            chunk = file.read(chunk_size)
            if not chunk:
                break
            # 处理每个块
            print(chunk)
read_large_file('/path/to/large_file.txt')

通过设置合适的chunk_size参数，可以控制每次读取的字节数，从而避免内存溢出问题。

六、并行处理文件

对于大量文件的读取操作，使用并行处理可以显著提高效率。Python的concurrent.futures模块提供了简单易用的并行执行接口。

使用ThreadPoolExecutor进行并行读取

from concurrent.futures import ThreadPoolExecutor
def process_file(file_name):
    with open(file_name, 'r') as file:
        content = file.read()
        # 处理文件内容
        print(content)
def read_files_concurrently(file_list):
    with ThreadPoolExecutor() as executor:
        executor.map(process_file, file_list)
file_list = get_file_list('/path/to/directory/*.txt')
read_files_concurrently(file_list)

通过并行处理，可以充分利用多核CPU的性能，特别是在处理大量小文件时效果显著。

七、总结

批量读入文件是数据处理和分析中的常见任务，Python提供了多种方法来实现这一操作。根据具体需求，可以选择使用os模块、glob模块、pandas库、正则表达式、分块读取或并行处理的方法。每种方法都有其适用场景和优缺点，应根据实际情况选择合适的方案。通过合理的代码组织和优化，可以有效提高文件读取和处理的效率。