python如何批量读取txt文件

Python批量读取txt文件可以通过多种方法实现，如使用os模块、glob模块、Pathlib模块等。方法包括遍历文件夹、使用通配符匹配文件、以及递归读取子文件夹中的文件等。

其中，使用os模块遍历文件夹是一种常用且简单的方法。通过os.listdir()函数可以获取指定目录中的所有文件名，然后通过循环逐个读取这些文件的内容。

一、使用os模块读取文件

使用os模块可以非常方便地获取文件夹中的所有文件，并逐个读取它们的内容。以下是具体步骤和示例代码：

获取文件列表

首先，使用os.listdir()函数获取指定目录中的所有文件名：

import os
def get_file_list(directory):
    return os.listdir(directory)

读取文件内容

然后，通过循环遍历文件名列表，逐个打开并读取每个文件的内容：

def read_files(directory):
    file_list = get_file_list(directory)
    for file_name in file_list:
        file_path = os.path.join(directory, file_name)
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
            print(f"Content of {file_name}:")
            print(content)
            print("\n")

完整示例

import os
def get_file_list(directory):
    return os.listdir(directory)
def read_files(directory):
    file_list = get_file_list(directory)
    for file_name in file_list:
        file_path = os.path.join(directory, file_name)
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
            print(f"Content of {file_name}:")
            print(content)
            print("\n")
directory = 'path/to/your/directory'  # 替换为你的文件夹路径
read_files(directory)

二、使用glob模块读取文件

glob模块允许使用通配符来匹配文件名，这在批量读取特定类型的文件时非常有用。以下是具体步骤和示例代码：

获取文件列表

使用glob.glob()函数获取匹配指定模式（如*.txt）的文件名列表：

import glob
def get_file_list(directory, pattern):
    return glob.glob(os.path.join(directory, pattern))

读取文件内容

与os模块类似，通过循环遍历文件名列表，逐个打开并读取每个文件的内容：

def read_files(directory, pattern):
    file_list = get_file_list(directory, pattern)
    for file_path in file_list:
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
            print(f"Content of {os.path.basename(file_path)}:")
            print(content)
            print("\n")

完整示例

import os
import glob
def get_file_list(directory, pattern):
    return glob.glob(os.path.join(directory, pattern))
def read_files(directory, pattern):
    file_list = get_file_list(directory, pattern)
    for file_path in file_list:
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
            print(f"Content of {os.path.basename(file_path)}:")
            print(content)
            print("\n")
directory = 'path/to/your/directory'  # 替换为你的文件夹路径
pattern = '*.txt'  # 替换为你要匹配的文件模式
read_files(directory, pattern)

三、使用Pathlib模块读取文件

Pathlib模块提供了更简洁且面向对象的文件和路径操作方法。以下是具体步骤和示例代码：

获取文件列表

使用Pathlib模块的Path类获取指定目录中的所有文件路径：

from pathlib import Path
def get_file_list(directory):
    return list(Path(directory).glob('*'))

读取文件内容

通过循环遍历文件路径列表，逐个打开并读取每个文件的内容：

def read_files(directory):
    file_list = get_file_list(directory)
    for file_path in file_list:
        with file_path.open('r', encoding='utf-8') as file:
            content = file.read()
            print(f"Content of {file_path.name}:")
            print(content)
            print("\n")

完整示例

from pathlib import Path
def get_file_list(directory):
    return list(Path(directory).glob('*'))
def read_files(directory):
    file_list = get_file_list(directory)
    for file_path in file_list:
        with file_path.open('r', encoding='utf-8') as file:
            content = file.read()
            print(f"Content of {file_path.name}:")
            print(content)
            print("\n")
directory = 'path/to/your/directory'  # 替换为你的文件夹路径
read_files(directory)

四、递归读取子文件夹中的文件

有时需要读取指定目录及其所有子目录中的文件，这可以通过递归遍历实现。以下是具体步骤和示例代码：

获取文件列表

使用os.walk()函数递归获取指定目录及其所有子目录中的所有文件路径：

import os
def get_file_list(directory):
    file_list = []
    for root, dirs, files in os.walk(directory):
        for file_name in files:
            file_list.append(os.path.join(root, file_name))
    return file_list

读取文件内容

与之前的方法类似，通过循环遍历文件路径列表，逐个打开并读取每个文件的内容：

def read_files(directory):
    file_list = get_file_list(directory)
    for file_path in file_list:
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
            print(f"Content of {file_path}:")
            print(content)
            print("\n")

完整示例

import os
def get_file_list(directory):
    file_list = []
    for root, dirs, files in os.walk(directory):
        for file_name in files:
            file_list.append(os.path.join(root, file_name))
    return file_list
def read_files(directory):
    file_list = get_file_list(directory)
    for file_path in file_list:
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
            print(f"Content of {file_path}:")
            print(content)
            print("\n")
directory = 'path/to/your/directory'  # 替换为你的文件夹路径
read_files(directory)

五、处理文件内容

读取文件内容后，通常需要对其进行处理，如数据解析、统计分析、格式转换等。以下是一些常见的处理方法：

数据解析

如果文件内容是结构化数据（如CSV、JSON等），可以使用相应的库进行解析：

import csv
import json
def parse_csv(content):
    reader = csv.reader(content.splitlines())
    return list(reader)
def parse_json(content):
    return json.loads(content)

统计分析

对文件内容进行统计分析，如计算词频、统计行数等：

def count_words(content):
    words = content.split()
    word_count = {}
    for word in words:
        word_count[word] = word_count.get(word, 0) + 1
    return word_count
def count_lines(content):
    return len(content.splitlines())

格式转换

将文件内容转换为其他格式，如将文本文件转换为Excel文件：

import pandas as pd
def text_to_excel(content, output_path):
    lines = content.splitlines()
    data = [line.split() for line in lines]
    df = pd.DataFrame(data)
    df.to_excel(output_path, index=False)

六、综合示例

结合以上方法，实现一个综合示例，批量读取指定目录及其所有子目录中的txt文件，并对文件内容进行统计分析和格式转换：

import os
import pandas as pd
def get_file_list(directory):
    file_list = []
    for root, dirs, files in os.walk(directory):
        for file_name in files:
            if file_name.endswith('.txt'):
                file_list.append(os.path.join(root, file_name))
    return file_list
def read_files(directory):
    file_list = get_file_list(directory)
    all_content = ""
    for file_path in file_list:
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
            all_content += content + "\n"
            print(f"Content of {file_path}:")
            print(content)
            print("\n")
    return all_content
def count_words(content):
    words = content.split()
    word_count = {}
    for word in words:
        word_count[word] = word_count.get(word, 0) + 1
    return word_count
def text_to_excel(content, output_path):
    lines = content.splitlines()
    data = [line.split() for line in lines]
    df = pd.DataFrame(data)
    df.to_excel(output_path, index=False)
directory = 'path/to/your/directory'  # 替换为你的文件夹路径
output_path = 'output.xlsx'  # 替换为你的输出Excel文件路径
all_content = read_files(directory)
word_count = count_words(all_content)
print("Word Count:", word_count)
text_to_excel(all_content, output_path)

总结

在Python中，批量读取txt文件可以使用os模块、glob模块、Pathlib模块等多种方法。通过结合这些方法，可以实现遍历文件夹、匹配文件名、递归读取子文件夹等功能。此外，还可以对读取的文件内容进行数据解析、统计分析、格式转换等处理。希望本文的内容能够帮助你更好地理解和实现Python批量读取txt文件的操作。