cppjieba
文章平均质量分 87
笨笨猪的学习之路
这个作者很懒,什么都没留下…
展开
-
中文分词之HMM模型详解
关于HMM模型的介绍,网上的资料已经烂大街,但是大部分都是在背书背公式,本文在此针对HMM模型在中文分词中的应用,讲讲实现原理。尽可能的撇开公式,撇开推导。结合实际开源代码作为例子,争取做到雅俗共赏,童叟无欺。没有公式,就没有伤害。模型介绍第一次听说HMM模型是从李开复的博文论文中听说的:李开复1988年的博士论文发表了第一个基于隐马尔科夫模型(HMM)的语音识别系统Sphi...转载 2018-08-27 09:45:31 · 261 阅读 · 0 评论 -
基于余弦距离的的文本相似度挖掘(C++)
本文实现了根据余弦距离的文本相似度的C++实现算法,如要要点如下:1、对1998年1月的人民日报所有文章进行预处理(其中文件已经分化好分词),然后进行去噪声、去停用词等操作。2、对处理好的数据进行余弦计算,并存储为相应的数据结构。3、输出前N篇最相似的文章下面介绍Statistics.cpp,对预处理文件进行统计词频。#pragma once#include "Text...转载 2018-09-03 16:51:41 · 950 阅读 · 0 评论 -
文本相似度算法(余弦定理)
文本相似度算法(余弦定理)最近由于工作项目,需要判断两个txt文本是否相似,于是开始在网上找资料研究,因为在程序中会把文本转换成String再做比较,所以最开始找到了这篇关于 距离编辑算法 Blog写的非常好,受益匪浅。 于是我决定把它用到项目中,来判断两个文本的相似度。但后来实际操作发现有一些问题:直接说就是查询一本书中的相似章节花了我7、8分钟;这是我不能接受…… ...转载 2018-09-03 19:12:53 · 608 阅读 · 0 评论 -
jsoncpp安装包使用
想对{"word": "以下", "offset": [52], "weight": -4.80665e+062},{"word": "商品", "offset": [15], "weight": -4.89186e+062}类似的字符串进行拆分,发现字符串加上[]中括号后,就和json字符串规则相似,故想到用json方式拆分字符串到相应的数据结果中原创 2018-10-08 19:34:04 · 700 阅读 · 0 评论 -
Trie(前缀树/字典树)及其应用
Trie,又经常叫前缀树,字典树等等。它有很多变种,如后缀树,Radix Tree/Trie,PATRICIA tree,以及bitwise版本的crit-bit tree。当然很多名字的意义其实有交叉。 定义在计算机科学中,trie,又称前缀树或字典树,是一种有序树,用于保存关联数组,其中的键通常是字符串。与二叉查找树不同,键不是直接保存在节点中,而是由节点在树中的位置决定。一个节...转载 2018-10-17 13:44:36 · 458 阅读 · 0 评论