词干提取怎么做？

访客自然语言处理 2026-06-05 23:10:41 1

本文目录导读：

常用方法（算法）
具体怎么做（以 Python 为例）
实际应用流程（一个完整例子）
需要留意的几个点
除 Python 外的其他选择

词干提取（Stemming）是自然语言处理（NLP）中的一种文本预处理技术，目的是将单词的屈折形式（如复数、时态、动名词等）简化为词干（可能不是合法的单词，只是词根部分）。

running → run
happiness → happi
studies → studi

词干提取通常和词形还原（Lemmatization）区分开：词干提取更粗暴（直接砍掉后缀），词形还原会考虑词性，输出合法的单词（如 studies → study）。

下面介绍做词干提取的具体方法、常用工具和一个简单的代码示例。

常用方法（算法）

主要分为三类,理解它们有助于你选择适合的场景：

Porter Stemmer：最经典、最常用，规则集较小，速度较快，结果偏向保守（砍掉常见的后缀如 -ing, -ed, -s, -ly）,适用于英文。
Lancaster Stemmer：非常激进（砍得狠），提取出的词干往往很短，可能会有歧义,适合某些需要极致压缩的场景。
Snowball Stemmer：Porter 的改进版，支持多语言（英文、俄语、法语等）,可控性好。

如果你处理的是中文等语言，通常需要分词 + 自定义词典,不直接使用上述算法。

具体怎么做（以 Python 为例）

Python 中常用的库是 NLTK（自然语言工具包）,里面内置了多种词干提取器。

第一步：安装 NLTK

pip install nltk

第二步：选择并调用词干提取器

import nltk
from nltk.stem import PorterStemmer, LancasterStemmer, SnowballStemmer
# --- 1. Porter Stemmer (推荐) ---
porter = PorterStemmer()
words = ["running", "flies", "happiness", "studies", "better", "leaves"]
for w in words:
    print(f"{w} -> {porter.stem(w)}")

输出：

running -> run
flies -> fli
happiness -> happi
studies -> studi
better -> better
leaves -> leav

第三步：如果需要处理英文以外的语言

可以使用 SnowballStemmer 并指定语言：

# 法语词干提取
french_stemmer = SnowballStemmer("french")
print(french_stemmer.stem("parler"))   # 输出: parl

实际应用流程（一个完整例子）

假设你有一句话,想提取其中每个词的词干：

from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
# 先保证下载了必要的分词模型
# nltk.download('punkt')
sentence = "The boys are running happily and studying together."
# 分词
tokens = word_tokenize(sentence)
# 词干提取
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(w) for w in tokens]
print("原始词:", tokens)
print("词干:  ", stemmed_words)

输出：

原始词: ['The', 'boys', 'are', 'running', 'happily', 'and', 'studying', 'together', '.']
词干:   ['the', 'boy', 'are', 'run', 'happili', 'and', 'studi', 'togeth', '.']

注意到：

are 没变（因为它已经是词根形式）
boys → boy
happily → happili（Porter 会先将 -ly 去掉，再处理之前的 -y 变 -i）

需要留意的几个点

词干不一定是合法单词：studies → studi，这个字符串不是英文单词，但后续 NLP 任务（如文本分类、信息检索）通常能接受。
过激 vs 保守：
- Porter：适中,多数场景够用。
- Lancaster：非常激进（running → run，但可能 argument → argu）。
- 如果任务中需要保留语义完整性（如问答系统），建议用词形还原（LeMMatization）。
中文没有词干提取：中文靠分词 + 自定义词典或中文词干库（如 Jieba + 自定义规则）。

除 Python 外的其他选择

语言/平台	工具/库
Python	NLTK, spaCy（词形还原为主）, Snowball
Java	Apache Lucene (PorterStemmer, SnowballPorterFilter)
JavaScript	natural 库
R	corpus, SnowballC
命令行	`stem`（如 `echo 'running' \| stem`）