python 如何提取单词的词根

作者：William Gu发布时间：2026-03-28 22:14阅读时长：14 分钟阅读次数：79

常见问答

Python 是否有内置库支持词根提取？

有没有Python自带的库可以直接用来提取单词的词根？

Python 词根提取相关库介绍

Python标准库中没有专门用于词根提取的模块，但可以使用第三方库如NLTK（Natural Language Toolkit）中的词干提取器PorterStemmer或者LancasterStemmer来实现词根提取功能。

词根提取和词干提取有什么区别？

在Python中处理单词时，词根提取和词干提取是否是同一个过程？

词根提取与词干提取的区别

词干提取（stemming）通常指去掉单词的词尾，从而得到其词干，方法较为简单且有时不保证是有效词根。词根提取（lemmatization）则通过词形还原返回单词的基本形式，通常需要词性作为辅助，结果更准确。在Python中，NLTK提供了对应的工具来分别完成这两个操作。

怎么使用Python实现更准确的词根提取？

如何利用Python代码获得单词更准确的词根？

使用Python进行准确词根提取的方法

可以借助NLTK库的WordNetLemmatizer进行词形还原，首先需要对单词进行词性标注，然后将词性传给Lemmatizer以获得准确词根。例如：

from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet

def get_wordnet_pos(tag):
    if tag.startswith('J'):
        return wordnet.ADJ
    elif tag.startswith('V'):
        return wordnet.VERB
    elif tag.startswith('N'):
        return wordnet.NOUN
    elif tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN

lemmatizer = WordNetLemmatizer()
word = 'running'
pos = 'VBG'  # 词性标签
lemma = lemmatizer.lemmatize(word, get_wordnet_pos(pos))
print(lemma)  # 输出 run

这个方法比仅用词干提取器更符合语义。

* 文章含AI生成内容

标签：

编程开发文本处理自然语言