NLP
agnes_luo
基于金融领域的文本分析
展开
-
一个程序搞定最小编辑距离,最大公共子串,最大连续公共子串
今天看了浏览器的拼写检查的实现流程,发现其中最核心的就是计算字符串之间的最小编辑距离,同时又联想到之前用动态规划实现的子串等相关问题,所以今天在这里做一个总结,用一个代码同时求解两个字符串之间的最小编辑距离,最大子串问题。如下代码:(python)def compute_distance(A, B, distance_dict, substr_len, sub_str, sub_continu原创 2018-01-17 17:14:38 · 392 阅读 · 0 评论 -
拼写纠正器的原理-----搜索引擎的一大应用
大家都知道,当我们在有道词典,搜索引擎等应用中输入一个错误单词时,它们会反馈一些备选的可能时我们想要查询的正确单词。这个功能非常的常见,但大规模实现起来其实并不容易。今天无意中想起还是因为在了解最小编辑距离时顺带整理的梳理一下,仅供大家参考。试想一下,如果是我们自己来实现这样一个拼写检查纠正器,我们会怎样入手呢 ?显然,正确的目标词肯定与输入的词在形上是非常相似,而且是一个有意义的词,这就意味原创 2018-01-17 18:58:01 · 452 阅读 · 0 评论 -
Linux下手动编译shogun
手动编译shogun,如果按照直接按照官网上的步骤进行,会踩非常多的坑,下面分享一下在下的编译过程,希望能为阁下提供些许借鉴。1. git clone https://github.com/shogun-toolbox/shogun.git这里是从服务器上下载shogun的工具包。Git命令如果没有安装,可以通过apt-get install git进行安装。下载完成后,当前目录下会有一个...原创 2019-03-01 15:29:51 · 342 阅读 · 1 评论