为什么说预训练模型（如BERT）改变了NLP的研究范式

访客自然语言处理 2026-06-04 19:53:11 1

本文目录导读：

转变前的旧范式：“特征工程 + 任务特定模型”
转变后的新范式：“预训练 + 微调”
“范式改变”的四个关键维度
总结：为什么说这是“范式改变”？

这是一个非常核心的问题,说预训练模型（如BERT）改变了NLP的研究范式，是因为它带来了一种在之前的方法论中不曾有过的根本性转变。

在BERT出现之前（2018年以前），NLP的研究范式可以概括为：“特征工程 + 任务特定模型”，而在BERT之后，范式转变为：“预训练 + 微调”。

下面我们来详细拆解这个转变,看看它到底“改变”了什么。

转变前的旧范式：“特征工程 + 任务特定模型”

想象一下,你想训练一个情感分类模型（判断一段话是正面还是负面），或者一个命名实体识别模型（识别人名、地名）。

传统做法是：

手工设计特征： 研究人员需要绞尽脑汁，从文本中提取哪些信息对任务有帮助。
- 词汇特征： 文本中出现了哪些词（Bag-of-Words, BoW）？使用了否定词吗？
- 句法特征： 这个词是名词还是动词（词性标注）？它的语法依存关系是什么？
- 语义特征： 这个词的情感极性是正还是负（情感词典）？它和“苹果”在概念上相关吗（如WordNet）？
- 统计特征： 这个词在文档中出现的频率（TF-IDF）有多高？它和哪些词经常一起出现（N-gram）？
输入给特定模型： 将这些手工特征组合成一个高维、稀疏的向量，喂入一个分类器（如SVM、逻辑回归）或序列模型（如LSTM、CRF）。
从头训练： 每个任务都需要从零开始训练一个独立的模型，情感分类模型和命名实体识别模型是两个完全不相关的系统，它们的参数、输入特征都完全不同。

旧范式的痛点（为何需要改变）：

高人力成本： 特征工程是“艺术”也是“苦力活”，需要领域专家花费大量时间调试。
数据饥渴： 对于每个新任务，都需要收集大量的标注数据，NLP领域的标注成本极高。
泛化能力差： 模型学到的只是任务表面的“模式”，而非深层的“语言理解”，情感分类模型可能只记住了“糟糕”=负向，但当遇到“这部电影的糟糕程度令人惊叹”这种讽刺时，就难以处理。
迁移困难： 模型A学到的知识（如句法结构）无法直接用于模型B。

转变后的新范式：“预训练 + 微调”

BERT（以及GPT、ELMo等）的诞生，彻底颠覆了上述流程，其核心思想是：“先学通用语言知识，再针对具体任务做适配”。

新范式的工作方式是：

预训练（Pre-training）： 在一个海量、无标注的通用语料库（比如整个维基百科、书籍）上，训练一个巨大的语言模型。
- 任务： 设计一个无需人工标注的“自监督”学习任务。
  - BERT的“完形填空”： 随机遮盖句子中的15%的词，让模型预测被遮住的是什么词（Masked Language Model, MLM），这个过程强迫模型理解上下文语境。
  - BERT的“下一句预测”： 给模型两个句子，让它判断第二句是否是第一句的下一句（Next Sentence Prediction, NSP），这迫使模型理解句子间的逻辑关系。
- 结果： 预训练完成后，我们得到的不是一个针对特定任务的模型，而是一个通用的、强大的“语言编码器”，它已经学会了语法、句法、语义、部分常识，甚至一定的推理能力，这个编码器的参数（模型的“大脑”）就是核心财富。
微调（Fine-tuning）： 针对一个特定的下游任务（如情感分类、问答、，我们只需要：
- 加载预训练模型： 直接拿来BERT或GPT的“大脑”。
- 添加简单的任务头： 在预训练模型最上层，添加一个简单的小分类器或输出层（一个全连接层+Softmax）。
- 在小规模标注数据上训练： 将你的任务数据（比如几百条到几千条标注好的情感分类数据）输入模型，同时更新预训练模型和任务头的参数，这个过程非常快，通常只需要几个小时甚至几分钟，而且不需要大量数据。

“范式改变”的四个关键维度

维度	旧范式（传统NLP）	新范式（预训练+微调）
知识获取方式	手工特征工程，由人来定义哪些信息重要	自动学习特征，由模型在海量数据中自主学习语言的通用规律
数据需求	数据饥饿，每个任务都需要大量标注数据	数据高效，只需要少量标注数据进行微调，因为大部分知识已在无标注数据中学会
学习目标	单任务学习，模型只为解决一个具体问题而存在	多任务学习潜力，预训练模型学到的通用知识可以迁移到几乎所有NLP任务
模型通用性	任务隔离，不同任务模型独立，知识不共享	模型统一，一个预训练模型（如BERT）稍加修改就能解决多种任务

为什么说这是“范式改变”？

从“学习任务”到“理解语言”： 核心目标从解决特定任务，变成了先教会模型理解语言本身，这是质的飞跃。
从“手动”到“自动”： 最耗费人力的特征工程被自动化的预训练所取代，极大地解放了研究者和工程师。
从“孤立”到“统一”： NLP领域不再是一盘散沙的单个任务，而是找到了一个统一的、通用的技术框架，只要你有好的预训练模型，所有下游任务都能受益。
数据利用的革命： 极大降低了对昂贵标注数据的依赖，转而利用网络上取之不尽的无标注文本，这直接推动了NLP在更多应用场景中的落地。

一个形象的比喻：

旧范式： 就像为每个房间（任务）单独培养一名专业的工匠，比如需要油漆工就培养油漆工，需要电工就培养电工，每个工匠都需要从零开始学习，且只擅长自己的领域。
新范式： 就像先培养一名全能的大学生（预训练模型），他学习了数学、语文、物理、历史（通用语言知识），当他需要去当油漆工时，只需要进行 “几天速成培训（微调）” ，就能快速成为一名合格的油漆工，因为底层知识扎实，他学习的效率和上限都远高于直接从零学起的工匠。

BERT等预训练模型的诞生,不仅仅是一个更强的模型，它从根本上重塑了NLP的研究方式、工程实践和资源分配，开启了一个全新的时代，直到今天，“大规模预训练 + 任务微调” 依然是NLP研究的主流范式。

标签：微调

本文地址： https://dfhcn.com/post/48.html

文章来源：访客