python如何读取文件夹下文件

Python读取文件夹下文件的方法包括使用os模块、glob模块、pathlib模块等。 其中，os模块提供了读取文件夹内容的基础功能，glob模块支持通配符查找，pathlib模块则提供了面向对象的路径操作方法。本文将详细介绍这些方法，并通过实例展示如何高效读取文件夹下的文件。

一、使用os模块读取文件夹下文件

os模块是Python标准库中的一个模块，提供了一些与操作系统进行交互的函数。os模块中的os.listdir()函数可以用来获取指定文件夹中的所有文件和文件夹的名称。

import os
def list_files(directory):
    files = os.listdir(directory)
    for file in files:
        print(file)

在上面的代码中，os.listdir()函数返回一个包含指定目录下所有文件和文件夹名称的列表。通过遍历该列表，可以逐个输出文件和文件夹的名称。

优点： os模块是Python标准库的一部分，无需额外安装，功能强大且灵活。

缺点： 不能直接区分文件和文件夹，需要额外判断。

二、使用glob模块读取文件夹下文件

glob模块是一个用于文件路径模式匹配的模块，支持通配符查找。通过glob模块，可以轻松实现对文件夹下文件的匹配和读取。

import glob
def list_files(directory):
    files = glob.glob(f"{directory}/*")
    for file in files:
        print(file)

在上面的代码中，glob.glob()函数返回一个匹配指定模式的文件路径列表。通过遍历该列表，可以逐个输出文件的完整路径。

优点： 支持通配符查找，匹配灵活，使用简单。

缺点： 仅返回文件路径，不区分文件和文件夹。

三、使用pathlib模块读取文件夹下文件

pathlib模块是Python 3.4引入的一个模块，提供了面向对象的路径操作方法。通过pathlib模块，可以更方便地进行路径操作和文件读取。

from pathlib import Path
def list_files(directory):
    path = Path(directory)
    for file in path.iterdir():
        print(file)

在上面的代码中，Path.iterdir()方法返回一个生成器，生成器中包含指定路径下的所有文件和文件夹。通过遍历生成器，可以逐个输出文件和文件夹的完整路径。

优点： 面向对象的路径操作，代码简洁易读，功能强大。

缺点： 需要Python 3.4以上版本。

四、读取文件夹下的特定类型文件

有时候，我们可能只需要读取特定类型的文件，例如只读取.txt文件。可以结合上述方法和文件扩展名判断来实现这一需求。

使用os模块读取特定类型文件

import os
def list_txt_files(directory):
    files = os.listdir(directory)
    for file in files:
        if file.endswith('.txt'):
            print(file)

在上面的代码中，通过判断文件名是否以.txt结尾，过滤出所有的文本文件。

使用glob模块读取特定类型文件

import glob
def list_txt_files(directory):
    files = glob.glob(f"{directory}/*.txt")
    for file in files:
        print(file)

在上面的代码中，通过在模式中使用通配符*.txt，匹配出所有的文本文件。

使用pathlib模块读取特定类型文件

from pathlib import Path
def list_txt_files(directory):
    path = Path(directory)
    for file in path.glob("*.txt"):
        print(file)

在上面的代码中，通过Path.glob()方法和通配符*.txt，匹配出所有的文本文件。

五、递归读取文件夹下的所有文件

有时候，文件夹结构可能是多层嵌套的，我们需要递归地读取所有层级的文件。可以结合os模块的os.walk()函数或pathlib模块的rglob()方法来实现这一需求。

使用os模块递归读取所有文件

import os
def list_all_files(directory):
    for root, dirs, files in os.walk(directory):
        for file in files:
            print(os.path.join(root, file))

在上面的代码中，os.walk()函数递归地遍历指定目录及其子目录，返回一个包含当前目录路径、目录列表和文件列表的元组。通过遍历所有文件列表，可以输出所有文件的完整路径。

使用pathlib模块递归读取所有文件

from pathlib import Path
def list_all_files(directory):
    path = Path(directory)
    for file in path.rglob("*"):
        if file.is_file():
            print(file)

在上面的代码中，Path.rglob()方法递归地匹配指定路径及其子路径下的所有文件和文件夹。通过判断是否为文件，可以输出所有文件的完整路径。

六、读取文件夹下的文件并进行操作

读取文件夹下的文件后，通常还需要对文件进行一些操作，例如读取文件内容、统计文件行数等。可以结合文件读取方法和文件操作方法来实现这一需求。

读取文件内容

import os
def read_files(directory):
    files = os.listdir(directory)
    for file in files:
        file_path = os.path.join(directory, file)
        if os.path.isfile(file_path):
            with open(file_path, 'r') as f:
                content = f.read()
                print(content)

在上面的代码中，通过open()函数打开文件，并使用read()方法读取文件内容，最后输出文件内容。

统计文件行数

import os
def count_lines(directory):
    files = os.listdir(directory)
    for file in files:
        file_path = os.path.join(directory, file)
        if os.path.isfile(file_path):
            with open(file_path, 'r') as f:
                lines = f.readlines()
                print(f"{file} has {len(lines)} lines.")

在上面的代码中，通过readlines()方法读取文件的所有行，并统计行数，最后输出文件名和行数。

七、读取大文件的方法

对于大文件，直接读取整个文件内容可能会导致内存不足。可以通过逐行读取文件的方法来处理大文件。

import os
def read_large_file(file_path):
    with open(file_path, 'r') as f:
        for line in f:
            print(line.strip())

在上面的代码中，通过逐行读取文件内容，避免一次性读取整个文件导致的内存不足问题。

总结

本文详细介绍了Python读取文件夹下文件的多种方法，包括使用os模块、glob模块、pathlib模块等。并通过实例展示了如何读取文件夹下的特定类型文件、递归读取所有文件以及读取文件内容和统计文件行数等操作。同时介绍了处理大文件的方法。通过合理选择和组合这些方法，可以高效地读取和处理文件夹下的文件。