2.2中文分词和新词识别

九阈

已于 2022-04-06 14:34:54 修改

阅读量1.5k

点赞数

分类专栏： # 操作系统软定制文章标签：中文分词算法新词识别统计方法自然语言处理

于 2022-04-06 09:50:51 首次发布

本文链接：https://blog.csdn.net/weixin_46048542/article/details/123979036

版权

操作系统软定制专栏收录该内容

7 篇文章 1 订阅

订阅专栏

请添加图片描述
为什么需要中文分词?
●与英文为代表的拉丁语系语言相比，英文以空格作为天然的分隔符，而中文由于继承自古代汉语的传统，词语之间没有分隔。
●古代汉语中除了连绵词和人名地名等，词通常就是单个汉字，所以当时没有分词书写的必要。而现代汉语中双字或多字词居多，一个字不再等同于一个词。
请添加图片描述

分词作用

互联网绝大多数应用都需要分词，典型应用实例
➢汉字处理:拼音输入法、手写识别、简繁转换
➢信息检索: Google、 Baidu
➢内容分析:机器翻译、广告推荐、内容监控
➢语音处理:语音识别、语音合成
举例
请添加图片描述
中文的语义与字词的搭配相关

定义
●什么是分词?
➢分词就是利用计算机识别出文本中词汇的过程。比如句子“内塔尼亚胡说的确实在理"

中文分词常用算法

分词算法分类
●基于字符串匹配的分词算法
●基于统计的分词算法
●基于理解的分词算法

基于字符串匹配的分词算法

字符串匹配分词(机械分词)
请添加图片描述
正向最大匹配算法
基本思想:
选取固定长个汉字的符号串作为最大符号串，把最大符号串与词典中的单词条目相匹配，如果不能匹配，就去掉一一个汉字继续匹配，直到在词典中找到相应的单词为止。
匹配方向是从左向右，减字方向是从右向左。
请添加图片描述

机械分词
●优点
➢程序简单易行，开发周期短
➢没有任何复杂计算，分词速度快
●不足
➢不能处理歧义
➢不能识别新词
➢分词精度不能满足实际的需要(规范文本80%，互联网文本在70%左右)

基于统计的分词算法

统计分词
●生成式统计分词
●判别式统计分词
请添加图片描述

生成式分词

●优点
➢在训练语料规模足够大和覆盖领域足够多的情况下，可以获得较高的切分正确率(>=95%)
●不足
➢需要很大的训练语料➢新词识别能力弱
➢解码速度相对较慢
判别式分词
原理
➢在有限样本条件下建立对于预测结果的判别函数，直接对预测结果进行判别，建模无需任何假设。
➢由字构词的分词理念，将分词问题转化为判别式分类问题
优势
➢能充分利用各种来源的知识
➢需要较少的训练语料
➢解码速度更快
➢新词识别性能好
请添加图片描述

分词过程示例

判别式分词
●特征所涉及的语言学知识
➢字的上下文知识
➢形态词知识:处理重叠词、离合词、前后缀
➢仿词知识: 2000年
➢成语/惯用语知识
➢普通词词典知识
➢歧义知识
➢新词知识/用户词典
➢新词的全局化知识
优点
➢理论基础扎实
➢解码速度快
➢分词精度高
➢新词识别能力强
➢所需学习素材少
弱点
➢训练速度慢
➢需要高配置的机器训练

基于理解的分词算法

（1）通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。
（2）包括三个部分
●分词子系统
●句法语义子系统
●总控部分
特点
（1）在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。
（2）这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。
请添加图片描述

中文分词的难点及应用领域

请添加图片描述

请添加图片描述
常见分词系统
●ICTCLAS
Institute of Computing Technology, Chinese Lexical Analysis System
由中国科学院计算技术研究所开发
主要功能有

自动分词
词性标注

●斯坦福分词系统
（1）斯坦福分词系统是- 一个开源的软件，它基于CRF (Condition Random Field，条件随机场)机器学习理论。
（2）该系统提供了了两个分词数据模型，

一个是基于宾州中文树库
另外一个是基于北京大学为sighan第二届中文分词竞赛提供的数据

（3）使用形式如下:
●segment ctb| pk filename encoding
●参数说明如下:
●ctb:宾州中文树库。
●pk:北京大学语料库。
●filename: 待分词的文件名。
●encoding: 待分词文件的编码，可以是UTF 8, GB18030等java所支持的编码。

中文分词的应用领域
请添加图片描述

中文新词识别

新词的定义
（1）词典参照的角度
●现代汉语基本词汇所没有的词语

新形式
新意义
新用法

（2）时间参照角度
●在某一时间段内或自某一时间点以来首次出现的具有新词形、新词义或者新用法的词汇
●随着互联网不断发展，新词大量涌现
未登录词与新词
●未登录词:未在当前所用词典中出现的
●新词:随着时代的发展而新出现或旧词新用的词
多数研究者对这两个概念不加区别
●中文信息处理领域新词识别
一般把新词视为未登录词来进行处理
●对未登录词的处理在实用分词系统中举足轻重
新词的分类
请添加图片描述
新词识别的任务
●候选新词的提取
●垃圾字串的过滤
●新词的词性猜测
新词识别的发展过程(一)
（1）最早的一篇文章是1990年汪华峰的《汉语自然语言理解中词切分中新词问题初探》
●基于统计的方法，只考虑了词频一个特征
（2）在之后的十年研究成果较少
（3）2002年郑家恒等人的《基于构词法的网络新词自动识别初探》
●采用了规则的方法
●对新词的词长、构词规则进行了总结，依靠语言学规则进行新词识别，取得了较好的效果
请添加图片描述

新词识别的方法

基于规则的方法
基于统计的方法
规则与统计相结合的方法

基于规则的方法
（1）利用语言学知识，总结新词的构词特点建立规则库，利用规则库筛选新词
（2）优点
●准确率高
（3）缺点
●构建规则库工作量大、成本高
●规则不能概括所有的语言现象
对于不符合规则的新词会造成遗漏，且规则过多规则之间容易相互冲突
●规则库的更新困难.
新词产生的速度快、组词灵活，构建的规则库难以适应新词产生的速度
●移植性差
规则方法常与特定领域相关
●新词词性规则
新词主要集中在名词、动词、形容词这三类实词上
名词所占比例最高
虚词一般不构成新词
基于统计的方法
（1）统计方法主要以大规模语料库作为训练语料，根据新词的特点统计各种有效数据来识别新词。逐渐成为主流方法。
（2）优点:
●不依赖规则
●不限定领域
●移植性好
（3）缺点
●统计方法的计算量大
●大规模语料进行模型训练
●由于使用的语言知识较少,一般都存在数据稀疏和准确率低的问题
●会形成大量垃圾串，垃圾串的过滤是统计方法的难点。
新词识别的统计特征
●字或词的频数和出现文数
●词内部概率
●时间特征
●邻接类别
字或词的频数和出现文数
请添加图片描述
时间特征

词内部概率

邻接类别
●新词作为词，内部要稳定，上下文要灵活
●上下文邻接(左邻接、右邻接)集合
集合元素越多，说明词的上下文语境越灵活，越可能是一个新词
规则和统计相结合的方法
（1）规则方法和统计方法各有不足，将两种方法相结合以提高识别效果。
●实践中采用统计方法为主辅之以规则方法过滤，对规则的深入研究和运用仍然较少。
●采用统计和规则相结合的方法来识别新词的文献
新词识别的基础知识
●正确率=提取出的正确新词数/提取出的新词数
●召回率=提取出的正确新词数/样本中的新词数
两者取值在0和1之间，数值越接近1，正确率或召回率就越高。
●F值=正确率召回率2/(正确率+召回率)
F值即为正确率和召回率的调和平均值
新词识别研究的主要技术方法
●基于支持向量机(SVM)
●基于最大熵模型(ME)
●条件随机场模型(CRF)
●基于隐马尔科夫模型(HMM)
●基于决策树(DT)

支持向量机(SVM)

请添加图片描述

存在的问题
●新词识别方法具有一定局限性
●识别效果有待提高
●新词定义不统一，人工判定新词的具有主观性
●新词产生时间的模糊性
●分词后识别方法中的分词错误
●垃圾串过滤的复杂性
●少数民族语的新词识别研究几乎没有
●多语种的新词识别研究成果非常少

九阈

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
2.2中文分词和新词识别

为什么需要中文分词?●与英文为代表的拉丁语系语言相比，英文以空格作为天然的分隔符，而中文由于继承自古代汉语的传统，词语之间没有分隔。●古代汉语中除了连绵词和人名地名等，词通常就是单个汉字，所以当时没有分词书写的必要。而现代汉语中双字或多字词居多，一个字不再等同于一个词。分词作用互联网绝大多数应用都需要分词，典型应用实例➢汉字处理:拼音输入法、手写识别、简繁转换➢信息检索: Google、 Baidu➢内容分析:机器翻译、广告推荐、内容监控➢语音处理:语音识别、语音合成举例中文的语义.
复制链接

扫一扫

专栏目录