基于词典的正向/逆向最大匹配算法

文晓武

于 2022-06-21 14:10:08 发布

阅读量889

点赞数

分类专栏：工程算法

原文链接：https://mp.weixin.qq.com/s/RREa-BWkTF4MYbgL-REUOw

版权

java 开发语言分词

工程算法专栏收录该内容

7 篇文章 1 订阅

订阅专栏

背景

编程语言是人类与计算机之间交流的工具，而所谓的自然语言则是人类与人类之间交流的工具，那么计算机是如何理解人与人之间交流所使用的语句呢？今天讲一种常用的自然语言处理算法——双向最大匹配算法，这种算法虽然实现简单，但是依赖庞大的词库，词库相当的情况下，能取得不错的分词效果。

正向匹配法

双向最大匹配算法”中的“双向”就是正向和反向。所以先来说正向匹配法。正向匹配法就是按照正向阅读顺序，根据词库中的词对句子进行匹配，我们已“苏州中学生前来参观”这句话为例（词库中存在各种长度的词语，这里假设词库中最长的单词长度为5）

正向匹配法丨结论

因此正向匹配法输出结果：“苏州中学 /生前 /来 /参观”，这显然不是我们要的意思，因此有人提出了逆向匹配法，原理和正向匹配一直，不过取词的顺序是从后往前。

逆向匹配法

逆向匹配法丨结论

按照这个方法，逆向匹配法最终的输出结果是：“苏州 /中学生 /前来 /参观“。

但是，无论是正向匹配法还是逆向匹配法，方法都是一样的，逆向匹配也会出现曲解句子意思的情况，并不会从根本上改变匹配的准确度，因此有了双向最大匹配法。

双向匹配法

双向最大匹配法是通过比较正向和逆向的结果从而确定正确的结果：

丨最后总结

双向最大匹配法的结果也不是完全准确的，所以在使用中往往会加入一些统计模型做校正。

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

文晓武 CSDN认证博客专家 CSDN认证企业博客

码龄14年

25: 原创

3万+: 周排名

87万+: 总排名

104万+: 访问

: 等级

4467: 积分

902: 粉丝

796: 获赞

125: 评论

5122: 收藏

私信

关注

热门文章

分类专栏

最新评论

为什么 Redis 的查询很快，Redis 如何保证查询的高效
睡觉睡觉上课: 昨天刷到类似的视频,今天找到了这篇，又给我复习了一下
彻底理解CPU Load - 这一篇就够了
hongdounuoyan: top - 12:53:40 up 158 days, 17:37, 2 users, load average: 20.77, 19.57, 19.22 Tasks: 221 total, 1 running, 220 sleeping, 0 stopped, 0 zombie %Cpu0 : 65.5 us, 6.1 sy, 0.0 ni, 27.7 id, 0.0 wa, 0.0 hi, 0.7 si, 0.0 st %Cpu1 : 56.3 us, 6.1 sy, 0.0 ni, 36.3 id, 0.0 wa, 0.0 hi, 1.4 si, 0.0 st %Cpu2 : 93.0 us, 3.3 sy, 0.0 ni, 3.3 id, 0.0 wa, 0.0 hi, 0.3 si, 0.0 st %Cpu3 : 92.7 us, 3.7 sy, 0.0 ni, 3.3 id, 0.0 wa, 0.0 hi, 0.3 si, 0.0 st %Cpu4 : 93.0 us, 2.7 sy, 0.0 ni, 3.7 id, 0.0 wa, 0.0 hi, 0.7 si, 0.0 st %Cpu5 : 90.3 us, 3.3 sy, 0.0 ni, 5.7 id, 0.0 wa, 0.0 hi, 0.7 si, 0.0 st %Cpu6 : 96.0 us, 3.0 sy, 0.0 ni, 0.7 id, 0.0 wa, 0.0 hi, 0.3 si, 0.0 st %Cpu7 : 93.7 us, 3.0 sy, 0.0 ni, 2.7 id, 0.0 wa, 0.0 hi, 0.7 si, 0.0 st KiB Mem : 32779564 total, 4319288 free, 19722576 used, 8737700 buff/cache KiB Swap: 0 total, 0 free, 0 used. 12341032 avail Mem 大佬，8核心CPU，这样算不算 CPU很繁忙，为什么top看到load有20，zabbix监控load 显示2
Tomcat工作原理详细介绍
约束112: 大佬你写得真好
堡垒机是干什么的? 看完这篇你就懂了
线粒er: 如何实现绕过它呢？纯小白好奇问一下
堡垒机是干什么的? 看完这篇你就懂了
2401_86934661: 堡垒机如果是用来审计运维人员，网络入口那么多，我完全可以绕过它进入登录设备，它完全管不着，如何解决这个问题？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。