2013年10月_xceman1997

转载谱聚类

看微博上很多人说写得好，先转载再学习。原文地址：http://blog.sina.com.cn/s/blog_4b9b714a0100is4f.html如果说 K-means 和 GMM 这些聚类的方法是古代流行的算法的话，那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了，中文通常称为“谱聚类”。由于使用的矩阵的细微差别，谱聚类

2013-10-31 12:24:08 1105

原创【targeting学习笔记】Display Advertising Targeting

背景：stanford的计算广告学（computational advertising）课程，yahoo的人主讲，课程链接：http://www.stanford.edu/class/msande239/#lecture-handouts，这个ppt使其中的一讲，93页主要内容：1. Display ad targeting：相比于搜索广告来讲，搜索体现

2013-10-29 20:26:51 1639

转载 Deep learning with word2vec and gensim

posted on September 17, 2013 by Radim | 11 CommentsNeural networks have been a bit of a punching bag historically: neither particularly fast, nor robust or accurate, nor open to introspectio

2013-10-27 20:43:58 2728

转载距离和相似度度量

原文地址：http://www.chinaz.com/web/2011/1008/212684.shtml在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。为了方

2013-10-23 00:12:40 982

转载 130个vim常用命令

原文地址：http://www.catswhocode.com/blog/130-essential-vim-commands130+ essential vim commandsPublished on August 12th, 2013 by Jean-Baptiste Jung. 21 Comments -Since the 70′s, vi

2013-10-21 13:30:40 865

转载海量数据相似度计算之simhash和海明距离

海量数据相似度计算之simhash和海明距离Posted on 25 八月, 2013by lanceyan| 6条评论通过采集系统我们采集了大量文本数据，但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复，如何选择和设计文本的去重算法？常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的

2013-10-16 20:02:47 988

原创【Deep Learning学习笔记】A Unified Architecture for Natural Language Processing_ICML2008

题目：A Unified Architecture for Natural Language Processing：Deep Neural Networks with Multitask Learning作者：Ronan Collobert单位：NEC发表于：ICML2008主要内容：用DNN的方法，将language model, pos-tag, NER, chun

2013-10-13 18:37:18 4982

转载 Twitter 能否预测股市？

http://www.guokr.com/article/62535/Lithium锂 2011-09-06 20:30今年5月，世界首家基于社交媒体的对冲基金 Derwent Capital Markets 在屡次跳票后终于上线。它会即时关注 Twitter 中的公众情绪指导投资。正如基金创始人保罗•郝汀（Paul Hawtin）表示：“长期以来，

2013-10-11 19:52:41 2225

转载从头到尾彻底解析哈希表算法

原文地址：http://blog.jobbole.com/49229/原文出处：研究者July说明：本文分为三部分内容，第一部分为一道百度面试题Top K算法的详解；第二部分为关于Hash表算法的详细阐述；第三部分为打造一个最快的Hash表算法。第一部分：Top K 算法详解问题描述百度面试题：搜索引擎会通过日志文件把用户每次检索使用的所有检索串都

2013-10-10 23:53:31 821

转载手绘板emacs教程

原文地址：http://sachachua.com/blog/2013/05/how-to-learn-emacs-a-hand-drawn-one-pager-for-beginners/ Here’s version 2 (September 2013). You can print this at 16.5″x10.75″ at 300dpi. Have an ordinary pr

2013-10-08 20:08:12 1913

原创【Deep Learning学习笔记】Dynamic Auto-Encoders for Semantic Indexing_Mirowski_NIPS2010

发表于NIPS2010 workshop on deep learning的一篇文章，看得半懂。主要内容：是针对文本表示的一种方法。文本表示可以进一步应用在文本分类和信息检索上面。通常，一篇文章表示为V大小的一个向量，|V|是词表的大小。传统的方法，向量中每个值是tf/idf计算得到的权重。不过|V|比较大的时候，对于文本分类和信息检索来讲，时空复杂度都比较大。这时候需要对|V|进

2013-10-08 00:49:46 1764

转载转自MIT牛人林达华的 ”图˙谱˙马尔可夫过程˙聚类结构 “————经典、透彻

微博上看到的，地址：http://blog.sina.com.cn/s/blog_58195f6b0101ee72.html在人人上看到的，觉得写的很赞，虽然有一些地方依然是不明觉厉的感觉O(∩_∩)O~转载一下，分享给大家探讨分割线=================================================================

2013-10-07 20:06:43 1518

原创【Deep Learning学习笔记】Deep learning for nlp without magic_Bengio_ppt_acl2012

看完180多页的ppt，真心不容易。记得流水账如下：Five reason to explore Deep Learning:1. learning representation; 2. the need for distribution representation -- curse dimensionality; 3. unsurperwised feature and

2013-10-06 01:17:36 2951

xceman1997的专栏