Python如何将txt文件去重

Python 将 txt 文件去重的方法包括读取文件内容、利用集合（set）数据结构、写回去重后的内容。集合是一种无序且不重复的序列，因此利用集合可以很方便地去除重复的行。以下是具体步骤：

读取文件内容并存储在列表中。
将列表转换为集合以去重。
将集合转换回列表并排序（如果需要）。
将去重后的内容写回文件。

下面详细介绍每一步的实现方法：

一、读取文件内容

首先，我们需要读取txt文件中的所有内容。可以使用Python内置的 open 函数来完成这一步。

file_path = 'example.txt'
with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()

在这段代码中，file_path 是文件的路径，'r' 模式表示以读的方式打开文件，encoding='utf-8' 确保文件以 UTF-8 编码读取。readlines() 方法将文件中的每一行读取到一个列表中。

二、利用集合去重

利用集合的无序和不重复的特点，可以轻松去除重复行。

unique_lines = set(lines)

这行代码将 lines 列表转换为一个集合 unique_lines，从而去除所有重复的行。

三、将集合转换回列表并排序

虽然集合可以去重，但它会打乱原有的顺序。如果需要保持原有的顺序，可以使用 sorted 函数对集合进行排序（假定文件中的行有可比性）。

unique_sorted_lines = sorted(unique_lines)

这样我们就得到了一个去重并排序后的列表 unique_sorted_lines。

四、将去重后的内容写回文件

最后一步是将去重后的内容写回到文件中。仍然使用 open 函数，这次以写模式打开文件。

with open(file_path, 'w', encoding='utf-8') as file:
    file.writelines(unique_sorted_lines)

'w' 模式表示以写的方式打开文件，如果文件已经存在，将清空原有内容。writelines() 方法将列表中的每一行写入文件。

总结

完整的代码如下：

file_path = 'example.txt'
读取文件内容
with open(file_path, 'r', encoding='utf-8') as file:
    lines = file.readlines()
利用集合去重
unique_lines = set(lines)
转换回列表并排序（如果需要）
unique_sorted_lines = sorted(unique_lines)
将去重后的内容写回文件
with open(file_path, 'w', encoding='utf-8') as file:
    file.writelines(unique_sorted_lines)

实践案例

假设 example.txt 文件的内容如下：

apple banana apple orange banana grape

运行上述代码后，example.txt 文件的内容将变为：

apple banana grape orange

这种方法不仅简单高效，还能保证去重后的数据整洁有序。

进一步优化

在实际应用中，文件可能非常大，这时可以考虑逐行读取和处理，以节省内存。以下是优化代码：

file_path = 'example.txt'
利用集合去重
unique_lines = set()
逐行读取文件内容
with open(file_path, 'r', encoding='utf-8') as file:
    for line in file:
        unique_lines.add(line)
转换回列表并排序（如果需要）
unique_sorted_lines = sorted(unique_lines)
将去重后的内容写回文件
with open(file_path, 'w', encoding='utf-8') as file:
    file.writelines(unique_sorted_lines)