自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xceman1997的专栏

基础知识、c/c++语言、自然语言处理技术

  • 博客(13)
  • 资源 (2)
  • 收藏
  • 关注

转载 谱聚类

看微博上很多人说写得好,先转载再学习。原文地址:http://blog.sina.com.cn/s/blog_4b9b714a0100is4f.html如果说 K-means 和 GMM 这些聚类的方法是古代流行的算法的话,那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了,中文通常称为“谱聚类”。由于使用的矩阵的细微差别,谱聚类

2013-10-31 12:24:08 1105

原创 【targeting学习笔记】Display Advertising Targeting

背景:stanford的计算广告学(computational advertising)课程,yahoo的人主讲,课程链接:http://www.stanford.edu/class/msande239/#lecture-handouts,这个ppt使其中的一讲,93页主要内容:1. Display ad targeting:    相比于搜索广告来讲,搜索体现

2013-10-29 20:26:51 1639

转载 Deep learning with word2vec and gensim

posted on September 17, 2013 by Radim | 11 CommentsNeural networks have been a bit of a punching bag historically: neither particularly fast, nor robust or accurate, nor open to introspectio

2013-10-27 20:43:58 2728

转载 距离和相似度度量

原文地址:http://www.chinaz.com/web/2011/1008/212684.shtml在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。为了方

2013-10-23 00:12:40 982

转载 130个vim常用命令

原文地址:http://www.catswhocode.com/blog/130-essential-vim-commands130+ essential vim commandsPublished on August 12th, 2013 by Jean-Baptiste Jung. 21 Comments -Since the 70′s, vi

2013-10-21 13:30:40 865

转载 海量数据相似度计算之simhash和海明距离

海量数据相似度计算之simhash和海明距离Posted on 25 八月, 2013by lanceyan| 6条评论通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的

2013-10-16 20:02:47 988

原创 【Deep Learning学习笔记】A Unified Architecture for Natural Language Processing_ICML2008

题目:A Unified Architecture for Natural Language Processing:Deep Neural Networks with Multitask Learning作者:Ronan Collobert单位:NEC发表于:ICML2008主要内容:用DNN的方法,将language model, pos-tag, NER, chun

2013-10-13 18:37:18 4982

转载 Twitter 能否预测股市?

http://www.guokr.com/article/62535/Lithium锂 2011-09-06 20:30今年5月,世界首家基于社交媒体的对冲基金 Derwent Capital Markets 在屡次跳票后终于上线。它会即时关注 Twitter 中的公众情绪指导投资。正如基金创始人保罗•郝汀(Paul Hawtin)表示:“长期以来,

2013-10-11 19:52:41 2225

转载 从头到尾彻底解析哈希表算法

原文地址:http://blog.jobbole.com/49229/原文出处: 研究者July说明:本文分为三部分内容,第一部分为一道百度面试题Top K算法的详解;第二部分为关于Hash表算法的详细阐述;第三部分为打造一个最快的Hash表算法。第一部分:Top K 算法详解问题描述百度面试题:搜索引擎会通过日志文件把用户每次检索使用的所有检索串都

2013-10-10 23:53:31 821

转载 手绘板emacs教程

原文地址:http://sachachua.com/blog/2013/05/how-to-learn-emacs-a-hand-drawn-one-pager-for-beginners/ Here’s version 2 (September 2013). You can print this at 16.5″x10.75″ at 300dpi. Have an ordinary pr

2013-10-08 20:08:12 1913

原创 【Deep Learning学习笔记】Dynamic Auto-Encoders for Semantic Indexing_Mirowski_NIPS2010

发表于NIPS2010 workshop on deep learning的一篇文章,看得半懂。主要内容:是针对文本表示的一种方法。文本表示可以进一步应用在文本分类和信息检索上面。通常,一篇文章表示为V大小的一个向量,|V|是词表的大小。传统的方法,向量中每个值是tf/idf计算得到的权重。不过|V|比较大的时候,对于文本分类和信息检索来讲,时空复杂度都比较大。这时候需要对|V|进

2013-10-08 00:49:46 1764

转载 转自MIT牛人林达华的 ”图˙谱˙马尔可夫过程˙聚类结构 “————经典、透彻

微博上看到的,地址:http://blog.sina.com.cn/s/blog_58195f6b0101ee72.html在人人上看到的,觉得写的很赞,虽然有一些地方依然是不明觉厉的感觉O(∩_∩)O~转载一下,分享给大家探讨分割线=================================================================

2013-10-07 20:06:43 1518

原创 【Deep Learning学习笔记】Deep learning for nlp without magic_Bengio_ppt_acl2012

看完180多页的ppt,真心不容易。记得流水账如下:Five reason to explore Deep Learning:1. learning representation; 2. the need for distribution representation -- curse dimensionality; 3. unsurperwised feature and

2013-10-06 01:17:36 2951

Addison Wesley - Applied C++

Addison Wesley - Applied C++

2011-02-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除