NLP
文章平均质量分 88
wxyfennie
这个作者很懒,什么都没留下…
展开
-
文字编辑距离代码实现
参考资料:自动化所老师宗成庆老师的《自然语言理解》课程1、在使用word的时候,输入英文会自动检测出单词是否正确,在单词不正确(字典中查不到的时候),还会给出相应的建议单词。这个功能是如何实现的呢?首先引入一个概念叫做英语单词拼写检查,设X为拼写错误的字符串,长度为m,Y为X对应的正确的单词,其长度为n,则X和Y的编辑距离,定义为:从字符串X到字符串Y需要的插入、删除、替换和交换两个相邻的基本原创 2016-11-16 14:51:07 · 1216 阅读 · 0 评论 -
自然语言处理1——求字符的熵
自动化所的老师讲的自然语言的课的课后作业,要求是任意摘录一段文字,统计字符出现的相对频率,假设这些相对频率就是这些字符的概率,计算其分布的熵#include#include#include#include#include#includeusing namespace std;mapm;map::iterator ite;char rs[10005];double h;in原创 2016-11-10 21:54:58 · 3460 阅读 · 0 评论 -
英文分词器代码实现解读
知识参考链接点这里背景知识:分词、朴素贝叶斯、python(装饰器、缓存制表)、后缀数组类的装饰器最初,我们说装饰器是一个修改另一个函数的函数,但其实它们可以用于修改类或者方法。对类进行装饰并不常见,但某些情况下作为元类(metaclass)的一个替代,类的装饰器是一个有用的工具。foo = ['important', 'foo', 'stuff']def add_原创 2017-01-07 21:01:23 · 1855 阅读 · 0 评论