NLP-分词综述

大虾飞哥哥

已于 2022-06-15 23:23:24 修改

阅读量3.6k

点赞数 3

分类专栏： NLP 文章标签：自然语言处理算法人工智能

于 2022-02-27 09:59:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xu624735206/article/details/123160179

版权

NLP 专栏收录该内容

24 篇文章 5 订阅

订阅专栏

NLP-分词综述

一、什么是分词？
二、为什么要分词
三、中英⽂分词的3个典型区别
四、中⽂分词的3⼤难点
五、3种典型的分词⽅法
六、分词⼯具
- 1.中文分词⼯具
- 2.英文分词⼯具

一、什么是分词？

分词是⾃然语⾔理解 - NLP 的重要步骤。分词就是将句⼦、段落、⽂章这种⻓⽂本，分解为以字词为单位的数据结构，⽅便后续的处理分析⼯作。
在这里插入图片描述

二、为什么要分词

1、将复杂问题转化为数学问题

机器学习之所以看上去可以解决很多复杂的问题，是因为它
把这些问题都转化为了数学问题。⽽ NLP 也是相同的思路，⽂本都是⼀些「⾮结构化数据」，我们需要先将这些数据转化为
「结构化数据」，结构化数据就可以转化为数学问题了，⽽分词就是转化的第一步。
在这里插入图片描述

2. 词是⼀个⽐较合适的粒度

词是表达完整含义的最⼩单位。字的粒度太⼩，⽆法表达完整含义，⽐如”⿏“可以是”⽼⿏“，也可以是”⿏标“。⽽句⼦的粒度太⼤，承载的信息量多，很难复⽤。⽐如”传统⽅法要分词，⼀个重要原因是传统⽅法对远距离依赖的建模能⼒较弱。”
在这里插入图片描述

3. 深度学习时代，部分任务中也可以「分字」

三、中英⽂分词的3个典型区别

在这里插入图片描述

1.分词⽅式不同，中⽂更难

英⽂有天然的空格作为分隔符，但是中⽂没有。所以如何切分是⼀个难点，再加上中⽂⾥⼀词多意的情况⾮常多，导致很容易出现歧义。

2.英⽂单词有多种形态

英⽂单词存在丰富的变形变换。为了应对这些复杂的变换，英⽂NLP相⽐中⽂存在⼀些独特的处理步骤，我们称为词形还原（Lemmatization）和词⼲提取（Stemming）；中⽂则不需要。
词性还原：does，done，doing，did 需要通过词性还原恢复成 do。
词⼲提取：cities，children，teeth 这些词，需要转换为 city，child，tooth这些基本形态。

3.中⽂分词需要考虑粒度问题

例如「中国科学技术⼤学」就有很多种分法：
中国科学技术⼤学
中国 \ 科学技术 \ ⼤学
中国 \ 科学 \ 技术 \ ⼤学
粒度越⼤，表达的意思就越准确，但是也会导致召回⽐较少。所以中⽂需要不同的场景和要求选择不同的粒度。这个在英⽂中是没有的。

四、中⽂分词的3⼤难点

在这里插入图片描述

五、3种典型的分词⽅法

在这里插入图片描述

六、分词⼯具

1.中文分词⼯具

Hanlp
Stanford 分词
ansj 分词器
哈⼯⼤ LTP
KCWS分词器
jieba
IK
清华⼤学THULAC
ICTCLAS

2.英文分词⼯具

Keras
Spacy
Gensim
NLTK

大虾飞哥哥

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

大虾飞哥哥 CSDN认证博客专家 CSDN认证企业博客

码龄7年

65: 原创

7万+: 周排名

8万+: 总排名

26万+: 访问

: 等级

1119: 积分

69: 粉丝

287: 获赞

87: 评论

1373: 收藏

私信

关注

热门文章

分类专栏

python学习 9篇
Langchian 2篇
NLP 24篇
pytorch 6篇
linux学习 4篇
量化交易 2篇
机器学习 7篇
pandas 7篇
web 2篇
时间序列 1篇
leetcode 1篇
vnpy 1篇
画图 1篇

最新评论

解决ubuntu20.04虚拟机无法上网的问题
Shiain: 晕了....我的是20.04.6，虽然依照教程配置了静态ip文件，但是依旧是每次开机无法上网（包括删除文末的interfaces配置文件），ifconfig每次都查不到ens33接口，只有用了sudo dhclient -v后才能访问网站，索性将其写为脚本加入开机启动项了....
解决ubuntu20.04虚拟机无法上网的问题
段ヤシ.: 不得行呀地址是有了但是重新启动还是的输入命令
解决ubuntu20.04虚拟机无法上网的问题
walton934: +1 ,非常折磨
pytorch使用-nn.RNN
zsxlkn: 写的很有帮助，谢谢
seaborn画分组箱线图
Kairos #,#: 请问df1和df2两分组之间的距离可以修改么？画出来的都是紧贴在一起的

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大虾飞哥哥 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。