python如何遍历磁盘文件

要遍历磁盘上的文件，通常使用Python中的os模块、os.path模块或者glob模块。通过os模块中的os.walk函数，可以递归遍历目录树、获取文件路径，使用os.path可以检查文件属性，而glob模块则用于查找符合特定模式的文件。下面将详细介绍如何使用这些方法来遍历磁盘文件，并提供一些实际应用的示例代码。

一、使用OS模块遍历文件

Python的os模块提供了与操作系统交互的多种方式，其中os.walk函数是遍历文件系统的强大工具。它允许你遍历一个目录树，并返回3个值：当前目录路径、目录列表、文件列表。

os.walk函数的基本用法

os.walk函数是Python标准库中非常有用的一个工具，用于在目录树中进行深度优先遍历。通过os.walk，可以轻松访问目录下的所有子目录和文件。这对于需要处理大量文件或者对目录结构进行操作的程序非常有用。

import os
def traverse_directory(path):
    for root, dirs, files in os.walk(path):
        print("Current Directory:", root)
        print("Subdirectories:", dirs)
        print("Files:", files)
        print("\n")

在上面的例子中，traverse_directory函数接受一个路径参数，并使用os.walk遍历该路径下的所有内容。每个目录的路径、子目录和文件列表都会被打印出来。

过滤特定文件类型

有时你可能只想遍历某一类型的文件，例如只处理.txt文件。可以在遍历文件时使用条件判断来过滤出符合条件的文件。

import os
def traverse_specific_files(path, file_extension):
    for root, _, files in os.walk(path):
        for file in files:
            if file.endswith(file_extension):
                print(os.path.join(root, file))
Example usage
traverse_specific_files("/path/to/directory", ".txt")

此函数通过检查文件名的后缀来过滤出特定类型的文件，并输出它们的完整路径。

二、使用OS.PATH模块获取文件属性

os.path模块提供了一组函数，用于处理文件路径和检查文件属性。这些函数可以帮助你在遍历文件时获取更多的信息。

获取文件的大小和修改时间

在遍历文件时，你可能需要获取每个文件的大小和最后修改时间。这可以通过os.path模块中的getsize和getmtime函数来实现。

import os
import time
def get_file_info(path):
    for root, _, files in os.walk(path):
        for file in files:
            file_path = os.path.join(root, file)
            size = os.path.getsize(file_path)
            modification_time = os.path.getmtime(file_path)
            readable_time = time.ctime(modification_time)
            print(f"File: {file_path}, Size: {size} bytes, Last Modified: {readable_time}")
Example usage
get_file_info("/path/to/directory")

get_file_info函数遍历给定目录下的所有文件，并打印每个文件的大小和最后修改时间。

在遍历文件时，可能需要判断某个路径是文件还是目录。os.path模块提供了isfile和isdir函数用于此目的。

import os
def check_file_type(path):
    if os.path.isfile(path):
        print(f"{path} is a file.")
    elif os.path.isdir(path):
        print(f"{path} is a directory.")
    else:
        print(f"{path} is neither a file nor a directory.")
Example usage
check_file_type("/path/to/file_or_directory")

check_file_type函数接受一个路径参数，并判断该路径是文件还是目录。

三、使用GLOB模块查找文件

glob模块允许你使用Unix shell风格的路径匹配规则来查找文件。这对于简单的文件匹配任务非常方便。

基本用法

glob模块可以使用通配符模式来查找文件，例如查找所有.txt文件。

import glob
def find_files_with_glob(pattern):
    files = glob.glob(pattern)
    for file in files:
        print(file)
Example usage
find_files_with_glob("/path/to/directory/*.txt")

find_files_with_glob函数接受一个匹配模式，使用glob.glob函数查找符合模式的文件，并打印文件列表。

递归查找

glob模块在Python 3.5及更高版本中增加了递归查找功能，通过在模式中使用来实现。

import glob
def find_files_recursively(pattern):
    files = glob.glob(pattern, recursive=True)
    for file in files:
        print(file)
Example usage
find_files_recursively("/path/to/directory//*.txt")

在find_files_recursively函数中，通过在模式中使用，可以实现对目录树的递归查找。

四、结合多种方法的应用场景

在实际应用中，可能需要结合多种方法来完成复杂的文件遍历和处理任务。例如，你可能需要遍历一个目录树中的所有文件，并对每个文件进行特定处理，然后根据处理结果将文件移动到不同的目录。

结合使用os.walk和os.path

假设你有一个目录包含许多文件，你需要根据文件类型将它们移动到不同的子目录中。

import os
import shutil
def organize_files_by_type(src_path, dest_path):
    for root, _, files in os.walk(src_path):
        for file in files:
            file_extension = os.path.splitext(file)[1]
            destination_dir = os.path.join(dest_path, file_extension[1:])
            os.makedirs(destination_dir, exist_ok=True)
            shutil.move(os.path.join(root, file), destination_dir)
            print(f"Moved {file} to {destination_dir}")
Example usage
organize_files_by_type("/path/to/source_directory", "/path/to/destination_directory")

organize_files_by_type函数通过os.walk遍历源目录中的所有文件，根据文件扩展名创建子目录，并使用shutil.move将文件移动到相应的子目录中。

使用glob结合os.path

在某些情况下，glob模块的模式匹配功能可以与os.path的文件属性检查功能结合使用，以实现更复杂的文件处理逻辑。

import glob
import os
def find_and_process_large_files(pattern, size_threshold):
    files = glob.glob(pattern, recursive=True)
    for file in files:
        if os.path.getsize(file) > size_threshold:
            print(f"Processing large file: {file}")
            # Add your file processing logic here
Example usage
find_and_process_large_files("/path/to/directory//*.log", 1024 * 1024)  # Files larger than 1MB

find_and_process_large_files函数使用glob递归查找符合模式的文件，并通过os.path.getsize检查文件大小，筛选出大于指定阈值的文件进行处理。

五、实用技巧与注意事项

在使用Python进行文件遍历时，有一些实用的技巧和注意事项可以帮助你更高效地处理文件。

使用生成器提高效率

在遍历大量文件时，使用生成器可以显著减少内存使用。os.walk本身就是一个生成器，因此可以直接在循环中逐步处理文件，而不是将所有结果加载到内存中。

import os
def lazy_file_processing(path):
    for root, _, files in os.walk(path):
        for file in files:
            yield os.path.join(root, file)
for file_path in lazy_file_processing("/path/to/directory"):
    print(f"Processing file: {file_path}")

通过使用yield关键字创建生成器函数，可以在需要时逐个处理文件，而不是一次性加载所有文件路径。

注意文件权限和错误处理

在处理文件时，需要注意文件的访问权限，并对可能的错误进行处理。例如，某些文件可能由于权限问题而无法访问，因此在处理文件时应添加异常处理代码。

import os
def SAFe_file_access(path):
    try:
        with open(path, 'r') as file:
            # Process file
            pass
    except PermissionError:
        print(f"Permission denied: {path}")
    except FileNotFoundError:
        print(f"File not found: {path}")
    except Exception as e:
        print(f"An error occurred: {e}")
Example usage
safe_file_access("/path/to/file")

通过捕获可能的异常，可以使程序更健壮，并能更好地处理文件访问过程中可能出现的问题。

六、总结

Python提供了多种方法来遍历磁盘上的文件，每种方法都有其独特的优点和适用场景。os.walk函数适合需要递归遍历目录树的场景，glob模块则在需要简单模式匹配时非常有用，而os.path模块可以帮助获取文件属性和进行路径操作。在实际应用中，常常需要结合多种方法来实现复杂的文件处理任务。通过合理使用这些工具和技巧，可以大大提高文件处理的效率和灵活性。同时，在处理文件时也要注意权限问题和异常处理，以确保程序的健壮性。