算法
文章平均质量分 88
XiaoXiao_Yang77
这个作者很懒,什么都没留下…
展开
-
利用余弦定理计算文本相似度
做文本挖掘时,我们可能需要分析不同文本之间的关联,最简单的就是分析两文本是否相似,是否在陈述相同的事情。文本属于非数值数据,通常可根据分词,把文本转化成数值向量,进一步根据相似度度量进行分析。 相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。 余弦相似度(Cosine Similarity原创 2017-10-13 15:02:33 · 4225 阅读 · 0 评论 -
基于HanLP分词的命名实体提取
文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识,并且利用这些知识更好地组织信息的过程。对于文本来说,由于语言组织形式各异,表达方式多样,文本里面提到的很多要素,如人名、手机号、组织名、地名等都称之为实体。在工程领域,招投标文件里的这些实体信息至关重要。利用自然语言处理技术从形式各异的文件中提取出这些实体,能有效提高工作效率和挖掘实体之间的潜在联系。文本预处理1、文本清洗目前,原创 2017-11-03 17:43:57 · 14058 阅读 · 19 评论 -
TF-IDF算法讲解和Java实现
一、 TF-IDF算法原理TF-IDF是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。TF-IDF是一种统计方法,用以评估某个字词对于一个语料库中的其中一份文本的重要程度。字词的重要性随着它在文本中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文件与用户查询之间相原创 2017-12-27 10:42:32 · 5630 阅读 · 2 评论 -
机器学习算法——PCA算法介绍以及Java实现
PCA算法一、算法概述主成分分析(PCA)是多元统计分析中用来分析数据的一种方法,PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。PCA方法最著名的应用应该是在人脸识别中特征提取及数据维,我们知道输入200*200大小的人脸图像,单单提取它的灰度值作为原始特征,则这个原始特征将达到40000维,这给后面分类器的处理将带来极原创 2018-02-07 11:45:38 · 6220 阅读 · 14 评论 -
方差、标准差、均方差、均方误差区别总结
一、百度百科上方差是这样定义的:方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。 看这么一段文字可能有些绕,那就先从公式入手, 对于一组随机变量或者统计数据,其期望...转载 2018-03-09 11:33:55 · 3019 阅读 · 1 评论 -
python+nltk安装+jieba分词安装
jieba(结巴)是一个强大的分词库,完美支持中文分词,且适用于python语言,本文对其安装做了简单的笔记。原创 2018-07-20 11:29:33 · 1413 阅读 · 0 评论