中文分词
笨笨猪的学习之路
这个作者很懒,什么都没留下…
展开
-
以kenlm为例,详细介绍N-gram语言模型
本文为转载https://blog.csdn.net/asrgreek/article/details/81979194的基础上,做了一些推演与推演过程的修正,如有错误欢迎指正。 本文以KenlM介绍常用的N-gram语言模型原理。KenlM采用的平滑技术是Modified Kneser-ney smoothing 以以下代码段为例介绍,以N=2为例,即2-gram,bigram介绍N-gra...原创 2020-02-07 16:04:32 · 1095 阅读 · 0 评论 -
中文分词之HMM模型详解
关于HMM模型的介绍,网上的资料已经烂大街,但是大部分都是在背书背公式,本文在此针对HMM模型在中文分词中的应用,讲讲实现原理。 尽可能的撇开公式,撇开推导。结合实际开源代码作为例子,争取做到雅俗共赏,童叟无欺。 没有公式,就没有伤害。 模型介绍 第一次听说HMM模型是从李开复的博文论文中听说的: 李开复1988年的博士论文发表了第一个基于隐马尔科夫模型(HMM)的语音识别系统Sphi...转载 2018-08-27 09:45:31 · 258 阅读 · 0 评论 -
基于余弦距离的的文本相似度挖掘(C++)
本文实现了根据余弦距离的文本相似度的C++实现算法,如要要点如下: 1、对1998年1月的人民日报所有文章进行预处理(其中文件已经分化好分词),然后进行去噪声、去停用词等操作。 2、对处理好的数据进行余弦计算,并存储为相应的数据结构。 3、输出前N篇最相似的文章 下面介绍 Statistics.cpp,对预处理文件进行统计词频。 #pragma once #include "Text...转载 2018-09-03 16:51:41 · 935 阅读 · 0 评论 -
文本相似度算法(余弦定理)
文本相似度算法(余弦定理) 最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非常好,受益匪浅。 于是我决定把它用到项目中,来判断两个文本的相似度。但后来实际操作发现有一些问题:直接说就是查询一本书中的相似章节花了我7、8分钟;这是我不能接受…… ...转载 2018-09-03 19:12:53 · 602 阅读 · 0 评论 -
Trie(前缀树/字典树)及其应用
Trie,又经常叫前缀树,字典树等等。它有很多变种,如后缀树,Radix Tree/Trie,PATRICIA tree,以及bitwise版本的crit-bit tree。当然很多名字的意义其实有交叉。 定义 在计算机科学中,trie,又称前缀树或字典树,是一种有序树,用于保存关联数组,其中的键通常是字符串。与二叉查找树不同,键不是直接保存在节点中,而是由节点在树中的位置决定。一个节...转载 2018-10-17 13:44:36 · 456 阅读 · 0 评论 -
tensorflow c++接口,python训练模型,c++调用
https://blog.csdn.net/luanpeng825485697/article/details/81152615转载 2018-11-27 22:27:50 · 594 阅读 · 0 评论 -
词云wordcloud
词云的各个参数的含义: font_path : string #字体路径,需要展现什么字体就把该字体路径+后缀名写上,如:font_path = '黑体.ttf' width : int (default=400) #输出的画布宽度,默认为400像素 height : int (default=200) #输出的画布高度,默认为200像素 prefer_horizontal : flo...原创 2019-01-24 14:22:39 · 113 阅读 · 0 评论