京东搜索框的汉语分词技术太牛了！！！---------js的番外拓展（二）

最新推荐文章于 2023-12-09 13:39:27 发布

贪吃ღ大魔王

最新推荐文章于 2023-12-09 13:39:27 发布

阅读量699

点赞数 2

分类专栏：拓展小结个人心得文章标签：算法大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44070254/article/details/116279188

版权

系列文章目录

JS的垃圾回收机制-----------------------------js的番外拓展（一）

https://blog.csdn.net/weixin_44070254/article/details/116245572?spm=1001.2014.3001.5501

文章目录

系列文章目录
前言
一、分词涉及的主要问题？
二、基于词典和规则的汉字分词分类
三、常用中文分词包
总结

前言

中文分词的技术是怎样实现的？例如有一段文字“吃亏不要紧，只要主义真”，双击“吃”字，会自动选中“吃亏”。我想问的就是系统怎么知道这两个字构成一个词？

京东的分词还是非常牛的，支持汉语拼音分词、简拼分词、英语分词、数词分词，太厉害了。

比如我这样搜索：
在这里插入图片描述
当搜索一个名词时，下面的提示框会提示相关的不同名词。

但是当我输入拼音的时候，看清楚了：

在这里插入图片描述
它自己给拼音进行了解析，提示框也给出了相关的提示，是不是很神奇呢，太牛了吧。那这背后到底是怎么样的算法实现呢？

我忍不住去翻阅了相关资料和问了度娘，这篇博客带你们见识一下这个神奇的算法吧。

在中文自然语言处理中，词是最小的能够独立活动的有意义的语言成分。汉语是以字为基本书写单位，词语之间没有明显的区分标记，因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列，然后再在此基础上进行其它分析处理。中文分词是中文信息处理的一个基础环节，已被广泛应用于中文文本处理、信息提取、文本挖掘等应用中。分词涉及许多方面的问题，主要包括：

一、分词涉及的主要问题？

1. 核心词表问题

许多分词算法都需要有一个核心的（通用、与领域无关的）词表。凡在该词表中的词，分词时就应该切分出来。但对于哪些词应当收进核心词表，目前尚无一个标准；

2.词的变形问题

汉语中的动词和形容词有些可以产生变形结构，如“打牌”、“开心”、“看见”、“相信”可能变形成“打打牌”、“开开心”、“看没看见”、“相不相信”等，它们可以被切出“打打/牌”，但“开开/心”就不合理；“看/没/看见”说得过去，“相/不/相信”就说不过去。又如大量的离合词如“打架”、“睡觉”等可以合理地变形为“打了一场架”、“睡了一大觉”。对这些变形结构的切分往往缺少可操作而又合理的规范；

最低0.47元/天解锁文章

贪吃ღ大魔王

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
3
评论
京东搜索框的汉语分词技术太牛了！！！---------js的番外拓展（二）

系列文章目录文章目录系列文章目录前言一、分词涉及的主要问题？1. 核心词表问题2.词的变形问题3.词缀的问题4.不同目标的应用二、基于词典和规则的汉字分词分类1 基于词典和规则的汉字分词1.1 最大匹配分词方法1.2 全切分分词算法1.3 基于理解的中文分词算法2.1 N元语法（N-gram）模型和隐马尔可夫模型（HMM）2.2 互信息模型2.3 最大熵模型3 规则和统计方法相结合的汉字分词方法三、常用中文分词包总结前言中文分词的技术是怎样实现的？例如有一段文字“吃亏不要紧，只要主义真”
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

贪吃ღ大魔王 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。