- 博客(13)
- 资源 (2)
- 收藏
- 关注
转载 谱聚类
看微博上很多人说写得好,先转载再学习。原文地址:http://blog.sina.com.cn/s/blog_4b9b714a0100is4f.html如果说 K-means 和 GMM 这些聚类的方法是古代流行的算法的话,那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了,中文通常称为“谱聚类”。由于使用的矩阵的细微差别,谱聚类
2013-10-31 12:24:08 1105
原创 【targeting学习笔记】Display Advertising Targeting
背景:stanford的计算广告学(computational advertising)课程,yahoo的人主讲,课程链接:http://www.stanford.edu/class/msande239/#lecture-handouts,这个ppt使其中的一讲,93页主要内容:1. Display ad targeting: 相比于搜索广告来讲,搜索体现
2013-10-29 20:26:51 1639
转载 Deep learning with word2vec and gensim
posted on September 17, 2013 by Radim | 11 CommentsNeural networks have been a bit of a punching bag historically: neither particularly fast, nor robust or accurate, nor open to introspectio
2013-10-27 20:43:58 2728
转载 距离和相似度度量
原文地址:http://www.chinaz.com/web/2011/1008/212684.shtml在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。为了方
2013-10-23 00:12:40 982
转载 130个vim常用命令
原文地址:http://www.catswhocode.com/blog/130-essential-vim-commands130+ essential vim commandsPublished on August 12th, 2013 by Jean-Baptiste Jung. 21 Comments -Since the 70′s, vi
2013-10-21 13:30:40 865
转载 海量数据相似度计算之simhash和海明距离
海量数据相似度计算之simhash和海明距离Posted on 25 八月, 2013by lanceyan| 6条评论通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的
2013-10-16 20:02:47 988
原创 【Deep Learning学习笔记】A Unified Architecture for Natural Language Processing_ICML2008
题目:A Unified Architecture for Natural Language Processing:Deep Neural Networks with Multitask Learning作者:Ronan Collobert单位:NEC发表于:ICML2008主要内容:用DNN的方法,将language model, pos-tag, NER, chun
2013-10-13 18:37:18 4982
转载 Twitter 能否预测股市?
http://www.guokr.com/article/62535/Lithium锂 2011-09-06 20:30今年5月,世界首家基于社交媒体的对冲基金 Derwent Capital Markets 在屡次跳票后终于上线。它会即时关注 Twitter 中的公众情绪指导投资。正如基金创始人保罗•郝汀(Paul Hawtin)表示:“长期以来,
2013-10-11 19:52:41 2225
转载 从头到尾彻底解析哈希表算法
原文地址:http://blog.jobbole.com/49229/原文出处: 研究者July说明:本文分为三部分内容,第一部分为一道百度面试题Top K算法的详解;第二部分为关于Hash表算法的详细阐述;第三部分为打造一个最快的Hash表算法。第一部分:Top K 算法详解问题描述百度面试题:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都
2013-10-10 23:53:31 821
转载 手绘板emacs教程
原文地址:http://sachachua.com/blog/2013/05/how-to-learn-emacs-a-hand-drawn-one-pager-for-beginners/ Here’s version 2 (September 2013). You can print this at 16.5″x10.75″ at 300dpi. Have an ordinary pr
2013-10-08 20:08:12 1913
原创 【Deep Learning学习笔记】Dynamic Auto-Encoders for Semantic Indexing_Mirowski_NIPS2010
发表于NIPS2010 workshop on deep learning的一篇文章,看得半懂。主要内容:是针对文本表示的一种方法。文本表示可以进一步应用在文本分类和信息检索上面。通常,一篇文章表示为V大小的一个向量,|V|是词表的大小。传统的方法,向量中每个值是tf/idf计算得到的权重。不过|V|比较大的时候,对于文本分类和信息检索来讲,时空复杂度都比较大。这时候需要对|V|进
2013-10-08 00:49:46 1764
转载 转自MIT牛人林达华的 ”图˙谱˙马尔可夫过程˙聚类结构 “————经典、透彻
微博上看到的,地址:http://blog.sina.com.cn/s/blog_58195f6b0101ee72.html在人人上看到的,觉得写的很赞,虽然有一些地方依然是不明觉厉的感觉O(∩_∩)O~转载一下,分享给大家探讨分割线=================================================================
2013-10-07 20:06:43 1518
原创 【Deep Learning学习笔记】Deep learning for nlp without magic_Bengio_ppt_acl2012
看完180多页的ppt,真心不容易。记得流水账如下:Five reason to explore Deep Learning:1. learning representation; 2. the need for distribution representation -- curse dimensionality; 3. unsurperwised feature and
2013-10-06 01:17:36 2951
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人