python如何求语句频度

在Python中求语句频度，可以使用字典（dictionary）结构存储每个语句的出现次数、使用collections模块的Counter类、或者利用pandas库处理大型数据集。 字典结构是最直接的方法，通过遍历文本中的语句，并检查这个语句是否已存在于字典中，若存在，则增加其值，否则将其添加到字典中。而Counter类可以直接生成语句及其频率的计数器。在大数据集中，pandas提供了更高效的数据操作方式，其中的value_counts()方法可以快速统计频度。

一、使用字典统计频度

为了使用字典统计语句频度，我们首先需要将文本划分成语句列表，之后遍历这个列表，并进行计数。

def count_statements_frequency(statements):
    frequency_dict = {}
    for statement in statements:
        if statement in frequency_dict:
            frequency_dict[statement] += 1
        else:
            frequency_dict[statement] = 1
    return frequency_dict
假设statements是以语句为元素的列表
frequency = count_statements_frequency(statements)
for statement, freq in frequency.items():
    print(f"语句：'{statement}'，出现次数：{freq}")

这种方法简单易懂，适合处理较小的数据集。

二、使用Counter类

Python的collections模块提供了一个Counter类，它是专门为计数设计的字典子类。

from collections import Counter
def count_statements_frequency_with_counter(statements):
    return Counter(statements)
假设statements是以语句为元素的列表
frequency = count_statements_frequency_with_counter(statements)
for statement, freq in frequency.items():
    print(f"语句：'{statement}'，出现次数：{freq}")

Counter是专为计数任务设计，使用上更为便捷，效率也更高，特别是在大型数据集的场景中。

三、使用pandas统计频度

在处理大规模数据集时，pandas库提供的数据处理功能非常强大。

import pandas as pd
将语句列表转成pandas的Series对象
statements_series = pd.Series(statements)
frequency = statements_series.value_counts()
value_counts()方法返回一个新的Series，索引为唯一的语句，值为对应语句的计数
for statement, freq in frequency.items():
    print(f"语句：'{statement}'，出现次数：{freq}")

在pandas中使用value_counts()方法能够快速得到结果，并提供了更多的数据操作可能，比如排序、过滤等。

四、进阶处理：去除停用词

在统计语句频度时，通常需要去除文本中的停用词（常见的、没有太大意义的词），这样做可以使频度统计的结果更加有价值。

from sklearn.feature_extraction.text import ENGLISH_STOP_WORDS
def remove_stop_words(statements):
    filtered_statements = []
    for statement in statements:
        filtered_words = [word for word in statement.lower().split() if word not in ENGLISH_STOP_WORDS]
        filtered_statement = ' '.join(filtered_words)
        filtered_statements.append(filtered_statement)
    return filtered_statements
filtered_statements = remove_stop_words(statements)
frequency = count_statements_frequency(filtered_statements)
for statement, freq in frequency.items():
    print(f"语句：'{statement}'，出现次数：{freq}")

在统计过程中引入停用词的过滤，可以更准确地反映文本内容的特点。

五、数据可视化

统计结果经常需要可视化表达，让数据一目了然。Python中的matplotlib库可以帮助我们将频度结果可视化。

import matplotlib.pyplot as plt
假设我们已经得到了语句的频度统计字典frequency
statements, freqs = zip(*frequency.items())
plt.bar(statements, freqs)
plt.xlabel('语句')
plt.ylabel('频数')
plt.title('语句频度统计')
plt.xticks(rotation=90)  # 旋转x轴的标签，避免重叠
plt.show()