数据挖掘
文章平均质量分 64
itgeeks
转来的文章都是怕丢了好文章。
原创的文章都是随手涂鸦
展开
-
部分智能推荐算法总结
简介图模型矩阵分解Topic model增强学习决策树集成学习v目前存在的推荐系统主要分为两种:1.基于内容的推荐系统●2.基于协同过滤的推荐系统原创 2013-10-09 11:32:02 · 7409 阅读 · 1 评论 -
pymongo进阶文档
mongodb作为一个新型数据库,功能远比想象中的qi原创 2014-07-10 16:01:40 · 1024 阅读 · 0 评论 -
基于质心的聚类算法
文本聚类文本聚类原创 2014-04-29 17:12:40 · 6205 阅读 · 0 评论 -
计算相似度方法
都不敢用算法来取名了。。。欧式距离余弦相似度皮尔森相关系数即原创 2014-02-24 12:09:00 · 832 阅读 · 0 评论 -
gensim做主题模型
作为python的一个库,gensim给了文本主题模型足够的方便,像他自己的介绍一样,topic modelling for humans具体的tutorial可以参看他的官方网页,当然是全英文的,http://radimrehurek.com/gensim/tutorial.html由于这个链接打开速度太慢太慢,我决定写个中文总结:(文章参考了52nlp的博客,参看h原创 2013-12-24 15:28:00 · 25344 阅读 · 12 评论 -
TF-IDF提取关键词并用余弦算法计算相似度
TF-IDF算法是一个很易懂的关键词提取算法,算法易实现,易懂且易操作,缺陷是将词频作为唯一考虑因素,且对于位置没有敏感性,位置的问题可以通过人为添加权重的方式改善,比如给第一段最后一段,或者每一段的第一句话加高权重。。。(类似于总分,总分总啥的文本结构吧)TF-IDF算法简单描述:TF是Term Frequency的缩写,即单纯的计算词频,比如,两句话分别是“我最喜欢吃我做的土豆原创 2013-12-25 12:08:07 · 7884 阅读 · 0 评论 -
对Python中文分词模块结巴分词算法过程的理解和分析
转载原因:52nlp等链接中深入挖掘内容很多,值得一看结巴分词是国内程序员用python开发的一个中文分词模块, 源码已托管在github, 地址在: https://github.com/fxsjy/jieba作者的文档写的不是很全, 只写了怎么用, 有一些细节的文档没有写.以下是作者说明文件中提到的结巴分词用到的算法:基于Trie树结构实现高效的词图扫描,生成句转载 2013-12-24 10:16:23 · 5958 阅读 · 0 评论 -
机器学习笔记
机器学习分作监督学习和非监督学习:其中,监督学习是有预测结果的,最常见的算法是分类算法非监督学习是无预测结果的,最常见的算法是聚类算法梯度下降算法是用于得到极值点的方法,在线性回归中,梯度下降算法可以应用于回归过程,得到最小二乘法的结果。线性回归算法试图用线性方程来回归数据集,回归时,一个或多个outlier的存在会把回归方程畸形化,所以在做分类时,用线性回归不是一原创 2013-11-27 09:53:16 · 771 阅读 · 0 评论 -
weka支持的arff格式
例子%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% ARFF file for the weather data with some numric features% @relation weather @attribute outlook {sunny, overcast, rainy}@attribute temperature real原创 2013-11-13 11:44:51 · 860 阅读 · 0 评论 -
机器学习算法思想简单梳理
朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。 2. 计算公式如下: 其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是 的计算方法,而由朴素贝叶斯的前提假设可知, = ,因此转载 2013-11-25 16:07:01 · 1483 阅读 · 0 评论 -
微博个人信息多维度详解
为了检测某个用户是否是僵尸粉或者水军,仔细的判断了一下微博提供的用户信息维度,我用的是个人开发者账号其中对判断水军有意义的信息加以注释id=, screenName="", //用户名String name = "";//省份编码int province = 0;//城市编码int city = 0;//地址String location =原创 2013-11-22 14:09:28 · 1214 阅读 · 0 评论 -
在Centos上安装python及其附属环境
记录:原创 2014-07-05 21:06:46 · 2164 阅读 · 0 评论