python如何将提取的数据剔重

作者：Rhett Bai发布时间：2026-01-14阅读时长：0 分钟阅读次数：28

用户关注问题

如何在Python中去除列表中的重复数据？

我有一个包含多个重复元素的列表，想知道在Python里怎样高效地去除这些重复项？

使用set进行去重

可以利用Python的set数据结构来去除列表中的重复元素。将列表转换为set后，重复元素会被自动剔除。示例代码：

my_list = [1, 2, 2, 3, 4, 4, 5]
unique_list = list(set(my_list))
print(unique_list)

需要注意的是，set会打乱列表的原有顺序，如果顺序重要，可以考虑其他方法。

如何在保持数据顺序的情况下去掉Python列表重复元素？

用set去重会导致列表顺序改变，有没有办法在不影响顺序的情况下剔除重复数据？

使用dict.fromkeys或遍历方法进行有序去重

可以通过dict.fromkeys方法在Python 3.7及以上版本保持顺序去重，示例代码：

my_list = [1, 2, 2, 3, 4, 4, 5]
unique_list = list(dict.fromkeys(my_list))
print(unique_list)

另一种方法是自己遍历列表，使用一个辅助集合跟踪已出现元素：

result = []
seen = set()
for item in my_list:
    if item not in seen:
        result.append(item)
        seen.add(item)
print(result)

这些方法都能确保结果保持原列表的元素顺序。

Python中如何对复杂数据结构进行去重？

如果列表中元素是字典或者自定义对象，简单用set去重不适用，怎样才能剔除重复数据？

使用自定义函数结合哈希或条件判断进行去重

对于字典或自定义对象，可以根据特定字段或者属性来判断重复项。常见做法是遍历列表，使用辅助结构存储已见关键字或者序列化后的对象。示例针对字典列表：

my_list = [{'id':1, 'name':'a'}, {'id':2, 'name':'b'}, {'id':1, 'name':'a'}]
seen = set()
result = []
for d in my_list:
    identifier = d['id']  # 用'id'字段做判重依据
    if identifier not in seen:
        result.append(d)
        seen.add(identifier)
print(result)

这样可以根据关键字段实现去重。如果元素是自定义对象，则可以实现__hash__和__eq__方法，或者用类似的逻辑判断重复，从而达到剔重效果。

标签：

数据清洗 Python技巧效率优化