![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
梦幻之窗
我只希望开开心心生活
展开
-
simhash算法及原理简介[转载]
背景如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路:一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏距离、海明距离或者夹角余弦等等),从而通过距离的大小来判断两篇文章的相似度。 另外一种方案是传统hash,我们考虑为每一个web文档通过hash的方式生成一个指纹(finger print)。下面,我们来分析下这两种方法。采取第一种方法,若是只比较两篇文章的相似性还好,但如果是海量数据呢,有着数以百万甚至亿万的网转载 2020-11-04 17:12:49 · 525 阅读 · 0 评论 -
(转)SSE,MSE,RMSE,R-square指标讲解
SSE(和方差、误差平方和):The sum of squares due to errorMSE(均方差、方差):Mean squared errorRMSE(均方根、标准差):Root mean squared errorR-square(确定系数):Coefficient of determinationAdjusted R-square:Degree-of-freedom adjusted...转载 2018-03-25 13:04:35 · 4236 阅读 · 0 评论 -
搜狐新闻文本分类:机器学习大乱斗
目标从头开始实践中文短文本分类,记录一下实验流程与遇到的坑运用多种机器学习(深度学习 + 传统机器学习)方法比较短文本分类处理过程与结果差别工具深度学习:keras传统机器学习:sklearn参与比较的机器学习方法CNN 、 CNN + word2vecLSTM 、 LSTM + word2vecMLP(多层感知机)朴素贝叶斯KNNSVMSVM + word2vec 、SVM + doc2vec第...转载 2018-03-27 20:37:59 · 2595 阅读 · 3 评论 -
文本特征选择
在做文本挖掘,特别是有监督的学习时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍两种常用的特征选择方法:互信息 一个常用的方法是计算文档中的词项t与文档类别c的互信息MI,MI度量的是词的存在与否给类别c带来的信息量,互信息的基本定义如下: 应用到文本特征选择: U、C都是二值随机变量,当文档...转载 2018-03-27 20:59:32 · 1251 阅读 · 0 评论 -
数据挖掘系列-朴素贝叶斯分类算法原理与实践
一个简单的例子 朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下: 这个公式虽然看上去简单,但它却能总结历史,预知未来。公式的右边是总结历史,公式的左边是预知未来,如果把Y看出类别,X看出特征,P(Yk|X)就是在已知特征X的情况下求Yk类别的概率,而对P(Yk|X)的计算又全部转化到类别Yk的特征分布上来。 举个例子,大学的时候,某男生经常去...转载 2018-03-27 21:00:53 · 483 阅读 · 0 评论