你是否需要一个用Python实现计算文本TF-IDF权重的案例

访客自然语言处理 2026-06-05 13:05:23 1

Python实现TF-IDF权重计算的完整案例与深度解析

文章目录导读

核心概念与为什么你需要这个案例
TF-IDF的数学原理与实战误区
纯手工实现TF-IDF（附代码）
使用Scikit-learn快速实现（工业级方案）
中文文本的特殊处理与停用词策略
常见问题与避坑指南（含问答）
性能优化与扩展思考

核心概念与为什么你需要这个案例

当你在做文本挖掘、信息检索或关键词提取时，是否遇到过这样的问题：
“为什么同一份数据用不同方法跑出的关键词截然不同？”
或 “如何让机器理解‘苹果公司’中的‘苹果’比‘水果苹果’中的‘苹果’更重要？”

答案是 TF-IDF（词频-逆文档频率） 。
它通过统计词在单篇文档中的频率（TF）与在整个语料库中的稀缺程度（IDF）进行加权，是最经典且有效的文本特征权重方法,这个案例能帮你：

掌握从零实现的核心逻辑，不依赖黑盒库
理解IDF的平滑处理对稀疏文本的致命影响
复现搜索引擎中“关键词重要性排序”的基本原理

TF-IDF的数学原理与实战误区

公式拆解（严谨版）

TF(t,d) = 词t在文档d中的出现次数 / 文档d的总词数
IDF(t) = log( (文档总数N) / (包含词t的文档数DF) )
TF-IDF(t,d) = TF(t,d) × IDF(t)

三个新手必定踩的坑

分母加1问题：当DF=0时产生除零错误，必须使用 IDF = log((N+1)/(DF+1)) + 1（Sklearn默认方式）
原始频率 vs 归一化：大文档中高频词天然占优，必须对TF做L2归一化
语料规模敏感：只有50篇文档时，IDF的区分度极差，需要额外权重调整

纯手工实现TF-IDF（附可运行代码）

以下代码不依赖第三方库,仅用Python核心功能演示完整流程：

import math
from collections import Counter
def compute_tf(text):
    """计算词频（原始频率）"""
    words = text.lower().split()
    total_words = len(words)
    tf_dict = Counter(words)
    return {word: tf_dict[word] / total_words for word in tf_dict}
def compute_idf(doc_list):
    """计算逆文档频率（带平滑）"""
    N = len(doc_list)
    idf_dict = {}
    # 统计每个词出现在多少文档中
    df = Counter()
    for doc in doc_list:
        words = set(doc.lower().split())
        for word in words:
            df[word] += 1
    # 平滑处理
    for word, count in df.items():
        idf_dict[word] = math.log((N + 1) / (count + 1)) + 1
    return idf_dict
def compute_tfidf(doc_list):
    """计算完整TF-IDF矩阵"""
    idf = compute_idf(doc_list)
    tfidf_matrix = []
    for doc in doc_list:
        tf = compute_tf(doc)
        tfidf = {word: tf[word] * idf.get(word, 0) for word in tf}
        # L2归一化（关键步骤）
        norm = math.sqrt(sum(v**2 for v in tfidf.values()))
        if norm > 0:
            tfidf = {k: v/norm for k, v in tfidf.items()}
        tfidf_matrix.append(tfidf)
    return tfidf_matrix
# 测试数据
docs = [
    "Python is a powerful programming language",
    "Python and Java are both popular languages",
    "Java is used for enterprise applications",
    "JavaScript is for web development"
]
result = compute_tfidf(docs)
for i, doc_tfidf in enumerate(result):
    top_words = sorted(doc_tfidf.items(), key=lambda x: -x[1])[:3]
    print(f"文档{i+1} 核心词: {top_words}")

输出分析：

文档1中“powerful”因只出现一次且IDF高，排名第一
文档3中“enterprise”因独特性成为关键词
验证了稀有词在短句中权重更高的规律

使用Scikit-learn快速实现（工业级方案）

对于真实项目,推荐使用成熟的TfidfVectorizer：

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd
docs = [
    "Python is powerful",
    "Java is for enterprise apps",
    "JavaScript is for web"
]
vectorizer = TfidfVectorizer(max_features=1000, stop_words='english')
tfidf_matrix = vectorizer.fit_transform(docs)
df = pd.DataFrame(
    tfidf_matrix.toarray(),
    columns=vectorizer.get_feature_names_out()
)
print(df)

优势：

自动处理停用词、标点、大小写
内部使用优化的稀疏矩阵（内存节省80%）
支持ngram范围（如捕捉“machine learning”二元词组）

中文文本的特殊处理与停用词策略

中文与英文最大的差异是没有空格分词，因此流程必须改为：

原始文本 → 分词（Jieba） → 去停用词 → TF-IDF计算

完整中文示例

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
# 自定义停用词（建议从哈工大停用词表加载）
stopwords = set(['的', '了', '是', '在', '和', '也', '就', '都'])
def tokenize(text):
    words = jieba.lcut(text)
    return [w for w in words if w not in stopwords and len(w) > 1]
corpus = [
    "Python是一门强大的编程语言",
    "Java广泛应用于企业级应用开发",
    "JavaScript主要用于前端网页交互"
]
# 注意这里传入预处理函数
vectorizer = TfidfVectorizer(tokenizer=tokenize)
tfidf = vectorizer.fit_transform(corpus)
print(vectorizer.get_feature_names_out())  # 输出：'java' 'javascript' 'python' '企业级' '前端'...

关键结论：