NLP入门干货：手把手教你3种中文规则分词方法

最新推荐文章于 2020-12-27 23:03:45 发布

大数据v

最新推荐文章于 2020-12-27 23:03:45 发布

阅读量1.7k

点赞数

文章标签：人工智能编程语言自然语言处理大数据 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zw0Pi8G5C1x/article/details/109323866

版权

本文介绍了中文自然语言处理的关键技术——分词，包括分词概念、分类，重点讲解了规则分词的三种方法：正向最大匹配、逆向最大匹配和双向最大匹配，并探讨了其优缺点。

摘要由CSDN通过智能技术生成

导读：本文将讲解中文自然语言处理的第一项核心技术——中文分词技术，它是中文自然语言处理非常关键和核心的部分。

作者：杜振东涂铭

来源：大数据DT（ID：hzdashuju）

在自然语言理解中，词（token）是最小的能够独立活动的有意义的语言成分。将词确定下来是理解自然语言的第一步，只有跨越了这一步，中文才能像英文那样过渡到短语划分、概念抽取以及主题分析，以至自然语言理解，最终达到智能计算的最高境界。因此，每个NLP工作者都应掌握分词技术。

本文要点如下：

介绍中文分词的概念与分类；
介绍常见的规则分词方法。

01 分词的概念和分类

“词”这个概念一直是汉语言学界纠缠不清而又挥之不去的问题。“词是什么”（词的抽象定义）和“什么是词”（词的具体界定）这两个基本问题迄今为止也未能有一个权威、明确的表述，当今更是没有一份令大家公认的词表。

问题的主要难点在于汉语结构与印欧体系语种差异甚大，对词的构成边界很难进行界定。比如在英语中，单词本身就是“词”的表达，一篇英文文章的格式就是“单词”加分隔符（空格）。

而在汉语中，词以字为基本单位，但是一篇文章的语义表达却仍然是以词来划分。因此，需要针对中文汉字，将其按照一定的方式进行组织，分成不同的词。

中文分词是让计算机自动识别出句子中的词，然后在词间加入边界标记符。这个过程看似简单，然而实践起来要复杂得多，主要困难在于分词歧义。

下面以NLP分词的经典场景为例进行说明，短语“结婚的和尚未结婚的”，应该分词为“结婚/的/和/尚未/结婚/的”，还是“结婚/的/和尚/未/结婚/的”呢？对于这个问题，机器很难处理。此外，像未登录词、分词粒度粗细等都是影响分词效果的重要因素。

自中文自动分词被提出以来，历经近30年的探索，先后出现了很多分词方法，可主要归纳为规则分词、统计分词和混合分词（规则+统计）这3个流派。最近这几年又兴起了以深度学习的方式进行分词，比如BILSTM+CRF。

规则分词是最早兴起的方法，主要通过人工设立词库，按照一定方式进行匹配切分，其实现简单高效，但对没有录入词库的新词很难进行处理。

随后统计机器学习技术兴起，应用于分词任务上就有了统计分词方法。该方法能够较好地应对新词发现等特殊场景。然而在实践中，单纯的统计分词也有其缺陷：太过依赖语料的质量。因此实践中多是采用规则分词和统计分词这两种方法的结合，即混合分词。

02 规则分词

基于规则的分词是一种机械分词方法，需要不断维护和更新词典，在切分语句时，将语句的每个字符串与词表中的每个词进行逐一匹配，找

最低0.47元/天解锁文章

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。