NLP入门干货:手把手教你3种中文规则分词方法

本文介绍了中文自然语言处理的关键技术——分词,包括分词概念、分类,重点讲解了规则分词的三种方法:正向最大匹配、逆向最大匹配和双向最大匹配,并探讨了其优缺点。
摘要由CSDN通过智能技术生成


导读:本文将讲解中文自然语言处理的第一项核心技术——中文分词技术,它是中文自然语言处理非常关键和核心的部分。

作者:杜振东 涂铭

来源:大数据DT(ID:hzdashuju)

在自然语言理解中,词(token)是最小的能够独立活动的有意义的语言成分。将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至自然语言理解,最终达到智能计算的最高境界。因此,每个NLP工作者都应掌握分词技术。

本文要点如下:

  • 介绍中文分词的概念与分类;

  • 介绍常见的规则分词方法。

01 分词的概念和分类

“词”这个概念一直是汉语言学界纠缠不清而又挥之不去的问题。“词是什么”(词的抽象定义)和“什么是词”(词的具体界定)这两个基本问题迄今为止也未能有一个权威、明确的表述,当今更是没有一份令大家公认的词表。

问题的主要难点在于汉语结构与印欧体系语种差异甚大,对词的构成边界很难进行界定。比如在英语中,单词本身就是“词”的表达,一篇英文文章的格式就是“单词”加分隔符(空格)。

而在汉语中,词以字为基本单位,但是一篇文章的语义表达却仍然是以词来划分。因此,需要针对中文汉字,将其按照一定的方式进行组织,分成不同的词。

中文分词是让计算机自动识别出句子中的词,然后在词间加入边界标记符。这个过程看似简单,然而实践起来要复杂得多,主要困难在于分词歧义

下面以NLP分词的经典场景为例进行说明,短语“结婚的和尚未结婚的”,应该分词为“结婚/的/和/尚未/结婚/的”,还是“结婚/的/和尚/未/结婚/的”呢?对于这个问题,机器很难处理。此外,像未登录词、分词粒度粗细等都是影响分词效果的重要因素。

自中文自动分词被提出以来,历经近30年的探索,先后出现了很多分词方法,可主要归纳为规则分词统计分词混合分词(规则+统计)这3个流派。最近这几年又兴起了以深度学习的方式进行分词,比如BILSTM+CRF。

规则分词是最早兴起的方法,主要通过人工设立词库,按照一定方式进行匹配切分,其实现简单高效,但对没有录入词库的新词很难进行处理。

随后统计机器学习技术兴起,应用于分词任务上就有了统计分词方法。该方法能够较好地应对新词发现等特殊场景。然而在实践中,单纯的统计分词也有其缺陷:太过依赖语料的质量。因此实践中多是采用规则分词和统计分词这两种方法的结合,即混合分词。

02 规则分词

基于规则的分词是一种机械分词方法,需要不断维护和更新词典,在切分语句时,将语句的每个字符串与词表中的每个词进行逐一匹配,找

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值