中文分词难点在哪?

访客 自然语言处理 2

本文目录导读:

  1. 歧义消解(最大的难点)
  2. 未登录词(Out-of-Vocabulary, OOV)识别
  3. 分词规范的模糊性
  4. 真实文本的复杂与噪声
  5. 领域适应性
  6. 总结与应对策略

中文分词是自然语言处理中的基础任务,但它的难点远比“将句子切分成词”要复杂,这些难点主要源于中文的语言特性和现实应用中的歧义问题。

以下是中文分词的主要难点,我们将其分类说明:

歧义消解(最大的难点)

这是分词中最核心、最困难的部分,同一个字串,在不同语境下有不同的切分方式。

  • 交集型歧义(交叉歧义): 字串 AB 既可以和前面的 A 组成词,也可以和后面的 B 组成词,形成交叉。

    • 例子:才能
      • 切分1:他 / 才 / 能 / 来。(“才”表示“刚刚”,“能”表示“能够”)
      • 切分2:他 / 才能 / 出众。(“才能”表示“能力”)
      • 机器需要判断是“才-能”还是“才能”。
    • 类似的还有:“研究生”(研究/生 vs. 研究生),“将来”(将/来 vs. ,“美国会”(美/国会 vs. 美国/会)。
  • 组合型歧义(覆盖歧义): 某个字串本身可以是一个词,也可以拆分为更小的词。

    • 例子:把手
      • 切分1:请 / / / 举起来。(“把”是介词,“手”是名词)
      • 切分2:门 / 的 / 把手 / 坏了。(“把手”是一个名词)
    • 类似的还有:“将军”(将/军 vs. 将军),“马上”(马/上 vs. 马上),“地下”(地/下 vs. 地下)。
  • 真歧义: 即使在理解整句话后,普通人类也可能有不同的理解,这种歧义是语言本身的模糊性。

    • 例子:乒乓球拍卖完了”,可以理解为“乒乓球/拍卖/完了”(乒乓球被人拍卖掉了),也可以理解为“乒乓球拍/卖/完了”(乒乓球拍卖完了),需要靠更广的上下文甚至常识才能判断。

未登录词(Out-of-Vocabulary, OOV)识别

这是实际应用中的另一大难点,分词词典不可能包含所有词汇。

  • 人名、地名、机构名:

    • 特朗普”在2016年前对词典是未登录词。
    • 王建国”需要判断是“王/建国”还是“王建国”。
    • 北京市海淀区”需要正确切分出市、区、路名。
  • 缩写、简称、新词(网络流行语、专业术语):

    • 不明觉厉”、“栓Q”、“YYDS”等网络新词,以及“人工智能”的简称“AI”(在中文文本中需要处理)。
    • 碳达峰”、“元宇宙”这类新出现的专业术语。
  • 人名中的特殊情况:

    • 周杰伦”是明星,但“周杰”和“周强”也可能是人名。
    • 外国人名的音译:“奥巴马”、“贝克汉姆”。

分词规范的模糊性

中文本身没有统一的、绝对正确的分词标准,不同机构、不同任务的分词标准可能不同,这给模型训练和评估带来困难。

  • 什么是“词”? 这本身就不清晰。

    • 吃饭”是一个词还是两个词?(吃/饭 vs. 吃饭)从语法上看“吃饭”是动宾短语,但从语感上很多人认为它是一个整体。
    • 清华大学”是一个词还是两个词?(清华/大学 vs. 清华大学)通常作为机构名整体保留。
    • 看不清”是“看/不清”还是“看不清”?(“看得清”、“看不清”)作为可能态补语短语。
    • 越来越好”是“越来越/好”还是“越/来/越/好”?
  • 中文词的长度不固定: 英文词之间有空格天然分隔,中文词可以是单字(我、是),双字(喜欢、学习),三字及以上(计算机、人工智能),判断边界很难。

真实文本的复杂与噪声

现实中的文本远不如教科书工整。

  • 拼写错误:餐”打成“餐”。
  • 口语化、不规范的表达:那个啥”、“我去去就来”。
  • 中英文混合、数字、符号:iPhone 14 Pro Max”、“GDP增长7.5%”、“@小明”,需要合理处理这些非纯中文元素。
  • 古文、文言文、诗歌: 这些文体的语法和现代汉语差别巨大,分词规则完全不同。之乎者也”在现代分词中处理困难。

领域适应性

一个在某领域表现优秀的分词模型,换到另一个领域可能效果很差。

  • 医疗领域: 需要识别心肌梗死冠状动脉等医学术语,如果词典里没有,可能会切分成“心肌/梗死”或“冠状/动脉”,这就不准确了。
  • 金融领域: 需要识别量化宽松多头头寸资产证券化等专有名词。
  • 法律领域: 需要识别不可抗力反诉知识产权等特定词汇。

总结与应对策略

难点类型 具体表现 典型例子 应对策略
歧义消解 交集型、组合型、真歧义 才能、把手、乒乓球拍卖完了 使用统计语言模型(如CRF、BiLSTM-CRF、BERT等),结合上下文语境概率 判断最可能的切分方式。
未登录词 人名、地名、机构名、新词 特朗普、元宇宙、YYDS 使用基于字标注的序列标注模型(如BIO标注法),本质上是在做“命名实体识别”,能发现潜在的词。
规范模糊 词语定义不统一 吃饭、清华大学、越来越好 制定符合特定任务的分词标准(如“清华大学”整体保留),或使用无监督/半监督方法,学习语料中的隐含结构。
文本噪声 拼写错误、中英混排 碗餐、iPhone 14、古文 预处理(拼写校正、正则表达式处理特殊格式)、使用鲁棒性更强的模型
领域适应 医疗、金融等领域术语 心肌梗死、量化宽松 使用领域词典领域语料进行微调(Fine-tuning)预训练语言模型。

核心结论: 中文分词不是一个简单的“查词典”任务,其核心难点在于利用上下文和知识去消歧、判断边界、识别新词,现代方法(尤其是基于深度学习的预训练语言模型+序列标注)能有效处理大部分歧义和未登录词问题,但真歧义领域适应性仍是需要持续优化的挑战。

标签: 未登录词

抱歉,评论功能暂时关闭!