python如何将一个大文件根据

PYTHON 如何将一个大文件根据特定条件拆分

在处理大型文件时，Python 提供了多种方法来根据特定条件拆分文件，这些方法包括但不限于：按行数拆分、按文件大小拆分、按特定关键字拆分。 其中，按文件大小拆分是非常常见的一种方式，因为它可以确保生成的文件大小均匀，不会导致某些文件过大或过小。

一、按行数拆分文件

按行数拆分文件是最直接的一种方式。它的核心思想是读取原始文件的行数，并将其分成若干行数相等的小文件。

1.1 基本实现

通过读取文件并按行数分割，将其写入多个小文件中。以下是一个按行数拆分文件的示例代码：

def split_file_by_lines(input_file, lines_per_file):
    with open(input_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()
    total_lines = len(lines)
    file_count = (total_lines // lines_per_file) + (1 if total_lines % lines_per_file != 0 else 0)
    for i in range(file_count):
        with open(f'output_file_{i+1}.txt', 'w', encoding='utf-8') as output_file:
            start = i * lines_per_file
            end = start + lines_per_file
            output_file.writelines(lines[start:end])
Example usage
split_file_by_lines('large_file.txt', 1000)

1.2 性能优化

对于超大文件，直接使用 readlines() 方法可能会导致内存不足。因此，采用逐行读取和逐行写入的方法更为合适。

def split_large_file_by_lines(input_file, lines_per_file):
    with open(input_file, 'r', encoding='utf-8') as file:
        current_file_index = 1
        current_line_count = 0
        current_file = open(f'output_file_{current_file_index}.txt', 'w', encoding='utf-8')
        for line in file:
            if current_line_count >= lines_per_file:
                current_file.close()
                current_file_index += 1
                current_file = open(f'output_file_{current_file_index}.txt', 'w', encoding='utf-8')
                current_line_count = 0
            current_file.write(line)
            current_line_count += 1
        current_file.close()
Example usage
split_large_file_by_lines('large_file.txt', 1000)

二、按文件大小拆分

按文件大小拆分文件可以确保生成的小文件大致相同大小。实现这种拆分的关键是实时监控写入文件的大小，并在达到预定大小时切换到新的输出文件。

2.1 基本实现

下面是一个按文件大小拆分文件的示例代码：

import os
def split_file_by_size(input_file, max_file_size):
    with open(input_file, 'rb') as file:
        file_index = 0
        current_file_size = 0
        current_file = open(f'output_file_{file_index}.txt', 'wb')
        for line in file:
            if current_file_size + len(line) > max_file_size:
                current_file.close()
                file_index += 1
                current_file = open(f'output_file_{file_index}.txt', 'wb')
                current_file_size = 0
            current_file.write(line)
            current_file_size += len(line)
        current_file.close()
Example usage
split_file_by_size('large_file.txt', 10*1024*1024)  # 10 MB

2.2 处理边界情况

在实际应用中，可能会遇到一些边界情况，例如最后一个文件过小或特殊字符处理，这些都需要在代码中进行适当处理。

import os
def split_file_by_size_robust(input_file, max_file_size):
    with open(input_file, 'rb') as file:
        file_index = 0
        current_file_size = 0
        current_file = open(f'output_file_{file_index}.txt', 'wb')
        for line in file:
            if current_file_size + len(line) > max_file_size:
                current_file.close()
                file_index += 1
                current_file = open(f'output_file_{file_index}.txt', 'wb')
                current_file_size = 0
            current_file.write(line)
            current_file_size += len(line)
        current_file.close()
        # Ensure the last file is not empty
        if os.path.getsize(f'output_file_{file_index}.txt') == 0:
            os.remove(f'output_file_{file_index}.txt')
Example usage
split_file_by_size_robust('large_file.txt', 10*1024*1024)  # 10 MB

三、按特定关键字拆分

有时候，我们可能需要根据特定关键字或模式来拆分文件。这种拆分方式常用于日志文件、数据分析等场景。

3.1 基本实现

下面是一个根据特定关键字拆分文件的示例代码：

def split_file_by_keyword(input_file, keyword):
    with open(input_file, 'r', encoding='utf-8') as file:
        file_index = 0
        current_file = open(f'output_file_{file_index}.txt', 'w', encoding='utf-8')
        for line in file:
            if keyword in line:
                current_file.close()
                file_index += 1
                current_file = open(f'output_file_{file_index}.txt', 'w', encoding='utf-8')
            current_file.write(line)
        current_file.close()
Example usage
split_file_by_keyword('large_file.txt', 'KEYWORD')

3.2 处理复杂关键字

有时，关键字可能不仅仅是一个简单的字符串，而是一个复杂的模式。这时可以使用正则表达式来匹配关键字。

import re
def split_file_by_regex(input_file, regex_pattern):
    pattern = re.compile(regex_pattern)
    with open(input_file, 'r', encoding='utf-8') as file:
        file_index = 0
        current_file = open(f'output_file_{file_index}.txt', 'w', encoding='utf-8')
        for line in file:
            if pattern.search(line):
                current_file.close()
                file_index += 1
                current_file = open(f'output_file_{file_index}.txt', 'w', encoding='utf-8')
            current_file.write(line)
        current_file.close()
Example usage
split_file_by_regex('large_file.txt', r'\bKEYWORD\b')

四、综合应用

在实际应用中，以上几种拆分方法可以根据需求组合使用。例如，可以先按文件大小拆分，再按关键字拆分。

4.1 综合示例

以下是一个综合示例，先按文件大小拆分，再按关键字拆分：

import os
def split_file_by_size_and_keyword(input_file, max_file_size, keyword):
    def split_by_size(file, max_size):
        file_index = 0
        current_file_size = 0
        current_file = open(f'temp_file_{file_index}.txt', 'wb')
        for line in file:
            if current_file_size + len(line) > max_size:
                current_file.close()
                file_index += 1
                current_file = open(f'temp_file_{file_index}.txt', 'wb')
                current_file_size = 0
            current_file.write(line)
            current_file_size += len(line)
        current_file.close()
        return file_index + 1
    def split_by_keyword(file_index, keyword):
        for i in range(file_index):
            with open(f'temp_file_{i}.txt', 'r', encoding='utf-8') as file:
                part_index = 0
                current_file = open(f'output_file_{i}_{part_index}.txt', 'w', encoding='utf-8')
                for line in file:
                    if keyword in line:
                        current_file.close()
                        part_index += 1
                        current_file = open(f'output_file_{i}_{part_index}.txt', 'w', encoding='utf-8')
                    current_file.write(line)
                current_file.close()
            os.remove(f'temp_file_{i}.txt')
    with open(input_file, 'rb') as file:
        file_count = split_by_size(file, max_file_size)
    split_by_keyword(file_count, keyword)
Example usage
split_file_by_size_and_keyword('large_file.txt', 10*1024*1024, 'KEYWORD')  # 10 MB and 'KEYWORD'