自然语言处理
文章平均质量分 73
鹤入云霄
技术改变生活
展开
-
关键词提取
在信息爆炸的时代,很多信息我们无法全面接收,我们需要从中筛选出一些我们感兴趣的或者说对我们有用的信息进行接收。怎么选择呢,关键词提取就是其中一个很好的方法。如果我们可以准确地将所有文档都用几个简单的关键词描述出来,单看几个关键词就可以了解一篇文章,这样会大大提高我们的信息获取效率。停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为 Stop Words(停用词)。原创 2023-12-22 17:47:51 · 975 阅读 · 0 评论 -
N元语言模型
计算出每个词汇的概率后,便可根据公式求得句子的概率。原创 2023-11-27 21:26:30 · 1133 阅读 · 1 评论 -
计算单词之间的最小编辑距离
对于两个字符串S1,S2,经过d次编辑可以使得其中一个字符串变为另外一个字符串,那么我们称字符串S1和S2之间的编辑距离为d。 可用的编辑操作有以下三种。 1.替换。将某一个字母换为另外一个字母。如happa -> happy,将最后一个字母“a”替换为”y”。 2.插入。在字符串中插入一个字母。如hapy -> happy,在“p”和“y”之间插入字母“p”。 3.删除。删除字符串中的一个字母。如habppy -> happy,删除“a”和“p”之间的字母”b”。原创 2023-10-22 10:30:28 · 523 阅读 · 1 评论 -
规则分词法
自然语言处理正向最大匹配(MM)逆向最大匹配(RMM)双向最大匹配的相关知识原创 2023-10-23 12:01:54 · 475 阅读 · 0 评论