python中如何统计单词个数

python中如何统计单词个数

作者:William Gu发布时间:2026-01-07阅读时长:0 分钟阅读次数:81

用户关注问题

Q
如何在Python中统计字符串里的单词数量?

我有一段文本,需要用Python代码计算这段文本中有多少个单词,该怎么做?

A

使用字符串的split方法统计单词数量

可以利用字符串的split()方法将文本按空白字符拆分成单词列表,然后使用len()函数获取列表长度。例如:word_count = len(text.split())。这样可以得到单词的数量。

Q
Python中有没有简便的库可以用来统计单词数?

除了自己用字符串方法处理,Python有没有专门的工具库方便统计文本里的单词数?

A

使用NLTK库进行更准确的单词统计

NLTK是Python中著名的自然语言处理库,可以使用它的word_tokenize函数来切分文本,这样对标点符号处理更好,也更准确地统计单词数量。示例:from nltk.tokenize import word_tokenize; words = word_tokenize(text); word_count = len(words)。

Q
如何避免统计时把标点符号当作单词?

用Python统计单词数时,有时标点符号会被当成单词统计,怎么避免这种情况?

A

过滤掉标点符号后再统计

先使用正则表达式或NLTK的word_tokenize对文本进行切分,然后筛选出真正的单词,去除标点符号。例如,可以用正则表达式提取字母和数字组成的单词,或者对token进行isalpha()判断过滤,只统计纯单词。