python如何统计中文词数

Python可以通过分词工具、正则表达式等方法来统计中文词数。 其中，使用分词工具（如jieba库）是较为常见和有效的方法，因为它能更准确地识别和切分中文词汇。分词工具、正则表达式可以帮助我们处理中文文本，分词工具尤其适合处理复杂的中文语句，确保词语切分的准确性。

例如，jieba库可以帮助我们快速进行中文分词和统计词数。jieba库是一个非常流行且功能强大的中文分词库，它不仅支持简单的分词操作，还支持自定义词典和关键词提取等高级功能。接下来，我们将详细介绍如何使用jieba库来统计中文词数，并对其他方法进行简单介绍。

一、JIEBA库的安装与基本使用

安装jieba库

在使用jieba库之前，我们需要先安装它。可以通过pip命令进行安装：

pip install jieba

基本分词操作

安装完成后，我们可以通过以下示例代码进行基本的中文分词操作：

import jieba
text = "今天天气真好，我们一起去公园玩耍吧！"
words = jieba.cut(text)
print("/".join(words))

运行上述代码，将输出分词结果：

今天天气/真好/，/我们/一起/去/公园/玩耍/吧/！

统计词数

在分词完成后，我们可以使用collections.Counter来统计每个词的出现次数：

import jieba
from collections import Counter
text = "今天天气真好，我们一起去公园玩耍吧！"
words = jieba.cut(text)
word_count = Counter(words)
for word, count in word_count.items():
    print(f"{word}: {count}")

运行上述代码，将输出各个词的出现次数。

二、JIEBA库的高级功能

自定义词典

jieba库允许用户自定义词典，从而更好地适应特定领域的分词需求。可以通过以下代码加载自定义词典：

jieba.load_userdict("user_dict.txt")

自定义词典文件user_dict.txt的格式如下：

词语词频词性

例如：

小明 10 nr

关键词提取

jieba库还支持关键词提取功能，可以通过以下代码实现：

import jieba.analyse
text = "今天天气真好，我们一起去公园玩耍吧！"
keywords = jieba.analyse.extract_tags(text, topK=5)
print(keywords)

运行上述代码，将输出文本中的关键词。

三、其他中文词数统计方法

正则表达式

正则表达式可以用于简单的中文分词和词数统计，但不如jieba库准确。以下是一个示例代码：

import re
from collections import Counter
text = "今天天气真好，我们一起去公园玩耍吧！"
words = re.findall(r'[\u4e00-\u9fff]+', text)
word_count = Counter(words)
for word, count in word_count.items():
    print(f"{word}: {count}")

NLP工具包

除了jieba库，还有一些其他的NLP工具包也支持中文分词和词数统计，如THULAC和Stanford NLP等。这些工具包功能强大，但使用起来相对复杂，适合有更高需求的用户。

四、实际应用案例

文本分析

在实际应用中，我们可以利用jieba库进行文本分析，如情感分析、主题模型等。以下是一个简单的情感分析示例：

import jieba
from collections import Counter
positive_words = ["好", "喜欢", "开心"]
negative_words = ["坏", "讨厌", "伤心"]
text = "今天天气真好，我们一起去公园玩耍吧！"
words = jieba.cut(text)
word_count = Counter(words)
positive_count = sum(word_count[word] for word in positive_words if word in word_count)
negative_count = sum(word_count[word] for word in negative_words if word in word_count)
if positive_count > negative_count:
    print("正面情感")
else:
    print("负面情感")

关键词提取

在信息检索和搜索引擎优化（SEO）中，关键词提取是一个重要的任务。我们可以利用jieba库进行关键词提取，帮助我们更好地理解文本内容并优化网页内容。

import jieba.analyse
text = "Python是一种广泛使用的高级编程语言，具有简洁的语法和丰富的库。"
keywords = jieba.analyse.extract_tags(text, topK=5)
print(keywords)

文本分类

文本分类是自然语言处理中的一个重要任务，我们可以利用jieba库进行分词，然后结合机器学习算法进行文本分类。以下是一个简单的文本分类示例：

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
训练数据
train_texts = ["今天天气真好", "我讨厌下雨", "我们去看电影吧", "今天心情很糟糕"]
train_labels = ["正面", "负面", "正面", "负面"]
测试数据
test_texts = ["今天阳光明媚", "下雨天真烦"]
分词
train_texts = [" ".join(jieba.cut(text)) for text in train_texts]
test_texts = [" ".join(jieba.cut(text)) for text in test_texts]
特征提取
vectorizer = TfidfVectorizer()
train_features = vectorizer.fit_transform(train_texts)
test_features = vectorizer.transform(test_texts)
训练模型
model = MultinomialNB()
model.fit(train_features, train_labels)
预测
predictions = model.predict(test_features)
print(predictions)