python如何按行读取文本文件

Python按行读取文本文件，可以使用多种方法：使用内置的open()函数、使用readlines()方法、使用迭代器（for循环）读取、以及使用第三方库如pandas等。其中，使用open()函数和迭代器是最常见也是最推荐的方法，因为它们简单、高效且易于控制。下面详细介绍其中一种方法。

使用open()函数和for循环读取文本文件是最常见的方法之一。通过这种方法，你可以按行读取文件并进行处理。示例如下：

with open('filename.txt', 'r') as file:
    for line in file:
        print(line.strip())

这段代码打开一个名为"filename.txt"的文本文件，并按行读取其中的内容。使用with语句可以确保文件在使用完后自动关闭，line.strip()用于去除每行末尾的换行符。接下来，我们将详细介绍Python按行读取文本文件的多种方法以及它们的具体使用场景。

一、使用open()函数

1、基础用法

使用open()函数是读取文本文件最基本的方法。通过指定文件路径和模式（如'r'表示只读），可以打开文件并按行读取。示例如下：

with open('filename.txt', 'r') as file:
    for line in file:
        print(line.strip())

在这个示例中，with语句确保文件在完成操作后自动关闭，line.strip()用于去除每行末尾的换行符。这种方法非常适合读取小到中等大小的文件，因为它逐行读取文件，节省内存。

2、读取大文件

对于较大的文件，可以使用生成器来逐行读取，以避免占用过多内存。示例如下：

def read_large_file(file_path):
    with open(file_path, 'r') as file:
        for line in file:
            yield line.strip()
for line in read_large_file('largefile.txt'):
    print(line)

在这个示例中，read_large_file()函数通过生成器逐行读取文件内容，并在外部for循环中处理每行数据。这种方法非常适合处理大文件，因为它不会将整个文件加载到内存中。

二、使用readlines()方法

1、基础用法

readlines()方法一次性读取文件的所有行并返回一个列表。虽然这种方法简单易用，但对于大文件可能会占用大量内存。示例如下：

with open('filename.txt', 'r') as file:
    lines = file.readlines()
    for line in lines:
        print(line.strip())

在这个示例中，readlines()方法将文件的所有行读取到一个列表中，然后通过for循环逐行处理。对于小文件，这种方法非常方便，但对于大文件不推荐使用。

2、优化读取

对于中等大小的文件，可以使用readlines()方法结合生成器表达式来优化内存使用。示例如下：

with open('filename.txt', 'r') as file:
    lines = (line.strip() for line in file.readlines())
    for line in lines:
        print(line)

在这个示例中，生成器表达式在内存中逐行处理文件内容，减少了内存占用。虽然不是最优解，但对于中等大小的文件，这种方法是一个不错的折中方案。

三、使用迭代器（for循环）

1、基础用法

使用迭代器（for循环）是读取文件的另一种高效方法。与open()函数结合使用，可以实现逐行读取和处理。示例如下：

with open('filename.txt', 'r') as file:
    for line in file:
        print(line.strip())

这种方法与第一部分介绍的open()函数相同，适用于大多数读取文件的场景。迭代器的优势在于它逐行读取文件，节省内存。

2、处理特定行

如果需要处理特定行，可以结合enumerate()函数使用，示例如下：

with open('filename.txt', 'r') as file:
    for index, line in enumerate(file):
        if index % 2 == 0:  # 处理偶数行
            print(line.strip())

在这个示例中，enumerate()函数将文件行号和行内容一起返回，通过条件判断处理特定行。这种方法适用于需要按行号处理文件内容的场景。

四、使用第三方库

1、pandas库

对于结构化数据文件，如CSV文件，可以使用pandas库按行读取和处理数据。示例如下：

import pandas as pd
df = pd.read_csv('filename.csv')
for index, row in df.iterrows():
    print(row['column_name'])

在这个示例中，pandas库提供了强大的数据处理功能，read_csv()方法读取CSV文件并返回DataFrame，通过iterrows()方法按行处理数据。pandas库适用于数据分析和处理结构化数据的场景。

2、linecache库

linecache库允许快速访问文件中特定行的内容，而不需要读取整个文件。示例如下：

import linecache
line = linecache.getline('filename.txt', 3)  # 获取文件的第三行
print(line.strip())

在这个示例中，linecache.getline()方法直接读取文件的指定行，避免了逐行遍历文件。这种方法适用于需要频繁访问文件特定行的场景。

五、使用文件对象的其他方法

1、逐字符读取

在某些情况下，可能需要逐字符读取文件内容。可以使用文件对象的read()方法结合迭代器实现，示例如下：

with open('filename.txt', 'r') as file:
    while True:
        char = file.read(1)
        if not char:
            break
        print(char, end='')

在这个示例中，file.read(1)方法每次读取一个字符，通过while循环逐字符处理文件内容。虽然这种方法效率较低，但在特定场景下可能需要逐字符读取。

2、逐块读取

对于大文件，可以按块读取文件内容，减小内存占用。示例如下：

def read_in_chunks(file_path, chunk_size=1024):
    with open(file_path, 'r') as file:
        while True:
            chunk = file.read(chunk_size)
            if not chunk:
                break
            yield chunk
for chunk in read_in_chunks('largefile.txt'):
    print(chunk)

在这个示例中，read_in_chunks()函数通过生成器按块读取文件内容，每次读取指定大小的块（默认1024字节）。这种方法适用于处理大文件，避免一次性加载整个文件到内存中。