Python如何读取目录文件

Python读取目录文件的方法有os模块、glob模块、pathlib模块等。os模块提供了基本的文件和目录操作、glob模块支持使用通配符匹配文件路径、pathlib模块则是Python 3.4引入的面向对象的文件系统路径操作模块。其中，os模块是最传统和广泛使用的方法，它通过os.listdir()函数列出目录下的所有文件和子目录。glob模块更适合需要使用通配符进行文件匹配的场景。pathlib模块提供了更现代和直观的接口，非常适合处理路径操作。下面将详细介绍这几种方法。

一、OS模块

os模块是Python标准库中的一个模块，它提供了一系列与操作系统交互的功能，包括文件和目录的操作。

使用os.listdir()

os.listdir()函数用于列出指定目录中的所有文件和目录名。它返回一个包含目录中所有条目的列表。

import os
def list_files(directory):
    files = os.listdir(directory)
    for file in files:
        print(file)
list_files('/path/to/directory')

在这个示例中，os.listdir()列出指定目录中的所有文件和目录，并使用循环打印每个文件或目录的名称。

使用os.walk()

os.walk()是一个生成器，用于遍历目录树。它生成一个三元组(root, dirs, files)，其中root是当前目录路径，dirs是root下的目录列表，files是root下的文件列表。

import os
def walk_directory(directory):
    for root, dirs, files in os.walk(directory):
        print(f"Current Directory: {root}")
        print(f"Subdirectories: {dirs}")
        print(f"Files: {files}")
walk_directory('/path/to/directory')

使用os.walk()可以递归遍历目录树中的所有目录和文件，是进行目录分析的强大工具。

二、GLOB模块

glob模块提供了一种查找文件路径名的简单方法，支持使用通配符匹配。

使用glob.glob()

glob.glob()函数返回匹配特定模式的文件路径列表。

import glob
def list_files_with_pattern(directory, pattern):
    files = glob.glob(f"{directory}/{pattern}")
    for file in files:
        print(file)
list_files_with_pattern('/path/to/directory', '*.txt')

在这个示例中，glob模块用于查找目录中所有以.txt结尾的文件。

使用glob.iglob()

glob.iglob()与glob()类似，但返回一个迭代器，而不是列表。

import glob
def list_files_with_pattern_iterator(directory, pattern):
    for file in glob.iglob(f"{directory}/{pattern}"):
        print(file)
list_files_with_pattern_iterator('/path/to/directory', '*.py')

使用glob.iglob()可以在处理大型目录时节省内存，因为它是惰性评估的。

三、PATHLIB模块

pathlib模块是Python 3.4中引入的，用于面向对象地处理文件和目录路径。

使用Path.iterdir()

Path.iterdir()方法用于遍历目录中的文件和目录。

from pathlib import Path
def list_files_pathlib(directory):
    p = Path(directory)
    for file in p.iterdir():
        print(file)
list_files_pathlib('/path/to/directory')

这种方法更直观，代码更简洁，推荐在Python 3.4及以上版本中使用。

使用Path.glob()

Path.glob()方法用于匹配特定模式的文件和目录。

from pathlib import Path
def list_files_with_pattern_pathlib(directory, pattern):
    p = Path(directory)
    for file in p.glob(pattern):
        print(file)
list_files_with_pattern_pathlib('/path/to/directory', '*.md')

Path.glob()方法与glob模块类似，但提供了更好的接口。

使用Path.rglob()

Path.rglob()是递归的glob版本，用于匹配目录树中的文件和目录。

from pathlib import Path
def list_files_recursive_pathlib(directory, pattern):
    p = Path(directory)
    for file in p.rglob(pattern):
        print(file)
list_files_recursive_pathlib('/path/to/directory', '*.png')

Path.rglob()非常适合需要递归查找文件的场景。

四、使用PANDAS模块读取目录下的文件

Pandas是一个强大的数据处理和分析库，可以方便地读取目录下的文件，尤其是数据文件（如CSV、Excel）。

读取CSV文件

import pandas as pd
import os
def read_csv_files(directory):
    files = [f for f in os.listdir(directory) if f.endswith('.csv')]
    for file in files:
        df = pd.read_csv(os.path.join(directory, file))
        print(df.head())
read_csv_files('/path/to/directory')

这个例子中，使用Pandas读取目录中的CSV文件，并打印出每个文件的前几行。

读取Excel文件

import pandas as pd
import os
def read_excel_files(directory):
    files = [f for f in os.listdir(directory) if f.endswith('.xlsx')]
    for file in files:
        df = pd.read_excel(os.path.join(directory, file))
        print(df.head())
read_excel_files('/path/to/directory')

类似地，可以读取Excel文件，代码结构与读取CSV文件类似。

五、结合多种方法的使用场景

在实践中，往往需要结合多种方法来实现复杂的文件读取需求。例如，使用os模块列出目录，结合glob模块进行模式匹配，并使用pathlib模块进行路径操作，最后使用pandas模块读取数据文件。

import os
import glob
from pathlib import Path
import pandas as pd
def complex_file_reading(directory):
    # 列出所有文件和目录
    all_files = os.listdir(directory)
    print("All files and directories:", all_files)
    # 使用glob匹配特定模式的文件
    matched_files = glob.glob(f"{directory}/*.csv")
    print("Matched CSV files:", matched_files)
    # 使用pathlib处理路径
    p = Path(directory)
    for file in p.glob('*.xlsx'):
        print("Excel file found:", file)
    # 使用pandas读取文件
    for file in matched_files:
        df = pd.read_csv(file)
        print("Data from file:", file)
        print(df.head())
complex_file_reading('/path/to/directory')