本文目录导读:
中文分词是自然语言处理中的基础任务,但它的难点远比“将句子切分成词”要复杂,这些难点主要源于中文的语言特性和现实应用中的歧义问题。
以下是中文分词的主要难点,我们将其分类说明:
歧义消解(最大的难点)
这是分词中最核心、最困难的部分,同一个字串,在不同语境下有不同的切分方式。
-
交集型歧义(交叉歧义): 字串
AB既可以和前面的A组成词,也可以和后面的B组成词,形成交叉。- 例子: “才能”
- 切分1:他 / 才 / 能 / 来。(“才”表示“刚刚”,“能”表示“能够”)
- 切分2:他 / 才能 / 出众。(“才能”表示“能力”)
- 机器需要判断是“才-能”还是“才能”。
- 类似的还有:“研究生”(研究/生 vs. 研究生),“将来”(将/来 vs. ,“美国会”(美/国会 vs. 美国/会)。
- 例子: “才能”
-
组合型歧义(覆盖歧义): 某个字串本身可以是一个词,也可以拆分为更小的词。
- 例子: “把手”
- 切分1:请 / 把 / 手 / 举起来。(“把”是介词,“手”是名词)
- 切分2:门 / 的 / 把手 / 坏了。(“把手”是一个名词)
- 类似的还有:“将军”(将/军 vs. 将军),“马上”(马/上 vs. 马上),“地下”(地/下 vs. 地下)。
- 例子: “把手”
-
真歧义: 即使在理解整句话后,普通人类也可能有不同的理解,这种歧义是语言本身的模糊性。
- 例子: “乒乓球拍卖完了”,可以理解为“乒乓球/拍卖/完了”(乒乓球被人拍卖掉了),也可以理解为“乒乓球拍/卖/完了”(乒乓球拍卖完了),需要靠更广的上下文甚至常识才能判断。
未登录词(Out-of-Vocabulary, OOV)识别
这是实际应用中的另一大难点,分词词典不可能包含所有词汇。
-
人名、地名、机构名:
- “特朗普”在2016年前对词典是未登录词。
- “王建国”需要判断是“王/建国”还是“王建国”。
- “北京市海淀区”需要正确切分出市、区、路名。
-
缩写、简称、新词(网络流行语、专业术语):
- “不明觉厉”、“栓Q”、“YYDS”等网络新词,以及“人工智能”的简称“AI”(在中文文本中需要处理)。
- “碳达峰”、“元宇宙”这类新出现的专业术语。
-
人名中的特殊情况:
- “周杰伦”是明星,但“周杰”和“周强”也可能是人名。
- 外国人名的音译:“奥巴马”、“贝克汉姆”。
分词规范的模糊性
中文本身没有统一的、绝对正确的分词标准,不同机构、不同任务的分词标准可能不同,这给模型训练和评估带来困难。
-
什么是“词”? 这本身就不清晰。
- “吃饭”是一个词还是两个词?(吃/饭 vs. 吃饭)从语法上看“吃饭”是动宾短语,但从语感上很多人认为它是一个整体。
- “清华大学”是一个词还是两个词?(清华/大学 vs. 清华大学)通常作为机构名整体保留。
- “看不清”是“看/不清”还是“看不清”?(“看得清”、“看不清”)作为可能态补语短语。
- “越来越好”是“越来越/好”还是“越/来/越/好”?
-
中文词的长度不固定: 英文词之间有空格天然分隔,中文词可以是单字(我、是),双字(喜欢、学习),三字及以上(计算机、人工智能),判断边界很难。
真实文本的复杂与噪声
现实中的文本远不如教科书工整。
- 拼写错误: “晚餐”打成“碗餐”。
- 口语化、不规范的表达: “那个啥”、“我去去就来”。
- 中英文混合、数字、符号: “iPhone 14 Pro Max”、“GDP增长7.5%”、“@小明”,需要合理处理这些非纯中文元素。
- 古文、文言文、诗歌: 这些文体的语法和现代汉语差别巨大,分词规则完全不同。之乎者也”在现代分词中处理困难。
领域适应性
一个在某领域表现优秀的分词模型,换到另一个领域可能效果很差。
- 医疗领域: 需要识别
心肌梗死、冠状动脉等医学术语,如果词典里没有,可能会切分成“心肌/梗死”或“冠状/动脉”,这就不准确了。 - 金融领域: 需要识别
量化宽松、多头头寸、资产证券化等专有名词。 - 法律领域: 需要识别
不可抗力、反诉、知识产权等特定词汇。
总结与应对策略
| 难点类型 | 具体表现 | 典型例子 | 应对策略 |
|---|---|---|---|
| 歧义消解 | 交集型、组合型、真歧义 | 才能、把手、乒乓球拍卖完了 | 使用统计语言模型(如CRF、BiLSTM-CRF、BERT等),结合上下文语境 和概率 判断最可能的切分方式。 |
| 未登录词 | 人名、地名、机构名、新词 | 特朗普、元宇宙、YYDS | 使用基于字标注的序列标注模型(如BIO标注法),本质上是在做“命名实体识别”,能发现潜在的词。 |
| 规范模糊 | 词语定义不统一 | 吃饭、清华大学、越来越好 | 制定符合特定任务的分词标准(如“清华大学”整体保留),或使用无监督/半监督方法,学习语料中的隐含结构。 |
| 文本噪声 | 拼写错误、中英混排 | 碗餐、iPhone 14、古文 | 预处理(拼写校正、正则表达式处理特殊格式)、使用鲁棒性更强的模型。 |
| 领域适应 | 医疗、金融等领域术语 | 心肌梗死、量化宽松 | 使用领域词典或领域语料进行微调(Fine-tuning)预训练语言模型。 |
核心结论: 中文分词不是一个简单的“查词典”任务,其核心难点在于利用上下文和知识去消歧、判断边界、识别新词,现代方法(尤其是基于深度学习的预训练语言模型+序列标注)能有效处理大部分歧义和未登录词问题,但真歧义和领域适应性仍是需要持续优化的挑战。
标签: 未登录词