机器学习
xceman1997
这个作者很懒,什么都没留下…
展开
-
贝叶斯推断及其互联网应用(一):定理简介
google阮一峰的blog软文,比较受追捧,转载一下。原文网址http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html 一年前的这个时候,我正在翻译Paul Graham的《黑客与画家》。那本书的第八章,写了一个非常具体的技术问题----如何使用贝叶斯推断过滤垃圾邮件(英文版)。我没完全看懂转载 2012-10-17 11:22:02 · 1843 阅读 · 0 评论 -
贝叶斯推断及其互联网应用(二):过滤垃圾邮件
google阮一峰的blog软文,比较受追捧,转载一下。原文网址http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_two.html 上一次,我介绍了贝叶斯推断的原理,今天讲如何将它用于垃圾邮件过滤。========================================贝叶斯推断及其互联网应用转载 2012-10-17 11:24:03 · 1236 阅读 · 0 评论 -
贝叶斯推断及其互联网应用(三):拼写检查
google阮一峰的blog软文,比较受追捧,转载一下。原文网址http://www.ruanyifeng.com/blog/2012/10/spelling_corrector.html (这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分。)使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法。比如,你不小心输入了seper转载 2012-10-17 11:25:14 · 2001 阅读 · 0 评论 -
【读书笔记】《大数据——互联网大规模数据挖掘与分布式处理》
计算所王斌老师翻译的,前两天在微博上炒得比较热。第一时间买来,通读了下。先说一下总体感觉吧。有些内容结合了map-reduce等大数据的流行处理方法,是比较“时尚的”。有些内容过于理论化,例如证明算法的上界和下界,而证明过程又不是严谨的过程,鸡肋有些内容,如:pagerank、推荐引擎等内容,比较浅显,不够深入全文读起来不够流畅,往往一段内容看了几遍,才看清楚说的内容;不知道是原创 2012-10-21 11:44:54 · 6943 阅读 · 3 评论 -
Google explains how more data means better speech recognition
A new research paper from Google highlights the importance of big data in creating consumer-friendly services such as voice search on smartphones. More data helps train smarter models, which can the转载 2012-11-01 23:11:11 · 926 阅读 · 0 评论 -
【推荐系统】Amazon.com的推荐
推荐算法以其在电子商务网站的用途而著称,它们利用有关一个顾客的兴趣作为输入,来产生一个推荐商品的列表。很多应用仅仅使用顾客购买并明确表示代表其兴趣的商品,但它们也可以利用其他属性,包括已浏览的商品、人口统计特征数据、主题兴趣,以及偏爱的艺术家。在Amazon.com,我们利用推荐算法,对每位顾客提供在线商店个性化。在顾客兴趣的基础上,商店有了彻底的改观,向一个软件工程师展示编程类标题,向一转载 2012-10-25 13:51:43 · 1643 阅读 · 0 评论 -
Bloom Filter(python版)
原文地址:http://hi.baidu.com/ruclin/item/8f78b786be2f672a110ef369Bloom Filter(python版)1、我的基本python版本是2.62、到http://RVL4.ecn.purdue.edu/~kak/dist/BitVector-2.0.tar.gz?download 下载BitVector模块并安装转载 2012-11-07 22:16:15 · 1205 阅读 · 0 评论 -
【推荐算法】三大推荐算法,帮助网站猜中你的心?
最近转载的多,原创的少,没办法,不像以前那么清闲了。原文地址:http://tech2ipo.com/56496 如今,到网上购物的人已经习惯了收到系统为他们做出的个性化推荐。Netflix 会推荐你可能会喜欢看的视频。TiVo 会自动把节目录下来,如果你感兴趣就可以看。Pandora 会通过预测我们想要听什么歌曲从而生成个性化的音乐流。所有这些推荐结果都来自于各式各样的推转载 2012-11-14 10:12:23 · 2136 阅读 · 0 评论 -
【svm学习】使用svm的一个常见错误
原文地址:http://blog.sina.com.cn/s/blog_6ae183910101cxbv.html 几天前,我在微博上面问了一个问题“一个两类分类问题,5400个训练样本,600个测试样本(测试、训练样本不交叠),特征10000维,用RBF核的SVM训练,得到的模型在测试集上测试误差为50%(和随机猜想一样)。而如果改用线性核,则准确率可以达到80%。这正常吗?”转载 2012-12-28 17:37:43 · 1675 阅读 · 0 评论 -
【学习笔记】读“机器学习那些事”笔记
英文原文题目是“A Few Useful Things to Know About Machine Learning”,中文由刘致远翻译成“机器学习那些事”。文章比较长,我时间比较琐碎,不能一次看完。看到哪里,记到哪里。 “学习=表示+评价+优化”怎么理解这几个词?“表示”指的是待解决的问题的表示,抽象来说就是机器学习问题的参数空间。机器学习问题就转换成在原创 2013-01-06 20:56:01 · 1572 阅读 · 0 评论 -
【学习笔记】读项亮的《推荐系统实践》_第二章利用用户行为数据_上
第二章 利用用户行为数据从前也了解协同过滤算法,不过对于其名字总是不知其所以然。在这本书中是这样解释的,“协同过滤算法......协同过滤就是指用户可以齐心协力,通过不断地和网站互动,使自己的推荐列表能够不断过滤掉自己不感兴趣的物品”。假设的原始情景是,给用户推荐网站全部商品,这些商品形成一个长长的列表。而用户无法在有限时间内看完这张列表。这就需要对列表进行“过滤”,这是第一个关键词—原创 2013-01-26 13:41:45 · 3307 阅读 · 1 评论 -
【学习笔记】读项亮的《推荐系统实践》_第二章利用用户行为数据_下
2.5 隐语义模型LFM(latent factor model)。表示一类模型,有很多经典的模型,如:LSI、pLSA、LDA和topic model等。2.5.1 基础算法作者首先讲了一下LFM应用在推荐系统中的初衷,也是LFM的优势:面对商品分类的时候,人工编辑给出的类别有很多缺点,如不好解决一物多类问题、不好设定物品与类别的权重、主观性因素太强等等。LFM由于其模型本身原创 2013-01-26 23:14:37 · 2148 阅读 · 0 评论 -
【学习笔记】读项亮的《推荐系统实践》_第四章利用用户标签数据
第四章利用用户标签数据介绍UGC(user generated content)的使用。做推荐,一种是通过相似的用户给当前用户推荐物品;一种方法是通过与用户喜欢的物品相似的物品来推荐物品;本章讲的是第三种方法,即用过一些特征(联系用户和物品)来为用户推荐物品。这个特征可以表现为物品属性的集合,也可以表现为隐语义向量,也可以是标签。4.1 UGC标签系统的代表应用列举原创 2013-03-29 19:41:07 · 1797 阅读 · 0 评论 -
【学习笔记】读项亮的《推荐系统实践》_第五章利用上下文信息
个人想法哈,推荐系统三个要素:用户、物品、关联两者的信息(推荐依据)。对于确定的推荐系统而言,用户和物品都是无法选择的,推荐系统的构建就是不断寻找新的推荐依据、并综合现有的推荐依据,设计推荐策略、给用户推荐物品的过程。关键还是推荐依据的寻找,而不是策略或者算法的设定。有了新的信息,比复杂的奇思淫巧强得多。项亮这本书的后几章,都是在描述不同的推荐依据信息,讲述如何利用这些信息了。这章原创 2013-03-31 23:52:42 · 2008 阅读 · 0 评论 -
【学习笔记】读项亮的《推荐系统实践》_第六章利用社交网络数据
这一章更多的介绍的也是思想,而非具体的算法。看得也快,不到30分钟,浏览完。6.1 获得社交网络数据的途径没想到email是一个很好的途径,能获得挺多信息,如:名字、公司等。其他的几个,用户注册、用户位置、讨论组等,都需要相关的资源,现实中能有一种就不错了。facebook的社交网络被称为“社交图谱”,因为需要双向认证,都是认识的人。twitter的社交网络被称为“兴趣原创 2013-04-01 23:36:30 · 1730 阅读 · 0 评论 -
【LDA学习笔记】文本生成方式
序工作中暂时不会用到LDA模型。不过空闲下来,学习学习,自娱自乐。LDA是generative model,这决定了这个模型的“世界观”。从LDA模型看来,文本是通过一种方式“产生”出来的。模型的理论,就是猜测文本产生的方式;模型的训练,就是给定产生方式后,通过样本,估计相关参数;模型的应用过程,就是确定了产生方式,并给定了模型参数,实际运行产生新的文本。Unigram模型原创 2013-04-19 00:40:22 · 1523 阅读 · 0 评论 -
【deep learning学习笔记】最近读的几个ppt(四)
这几个ppt都是在微博上看到的,是百度的一个员工整理的。《Deep Belief Nets》,31页的一个ppt1. 相关背景 还是在说deep learning好啦,如特征表示云云。列了一些参考文献,关于deep learning训练的,还不错。2. 基本概念 两种产生式神经网络:(1)sigmod belief network;(2)Boltzm原创 2013-07-07 12:27:00 · 1769 阅读 · 0 评论 -
Deep learning:十九(RBM简单理解)
原文地址:http://www.cnblogs.com/tornadomeet/archive/2013/03/27/2984725.html 这篇博客主要用来简单介绍下RBM网络,因为deep learning中的一个重要网络结构DBN就可以由RBM网络叠加而成,所以对RBM的理解有利于我们对DBN算法以及deep learning算法的进一步理解。Deep le转载 2013-07-07 23:16:39 · 1242 阅读 · 0 评论 -
深度学习软件资源列表
原文地址:http://blog.csdn.net/anshan1984/article/details/8583619深度学习( Deep Learning )软件资源列表Sason@CSDN列表源自http://deeplearning.net/software_links/,本文进行分类整理。星号代表对软件库的推荐度,考虑了适用范围、开发语言、更新转载 2013-07-08 00:55:19 · 1284 阅读 · 0 评论 -
Deep Learning for NLP 文章列举
原文地址:http://www.xperseverance.net/blogs/2013/07/2124/?utm_source=rss&utm_medium=rss&utm_campaign=deep-learning-for-nlp-%25e6%2596%2587%25e7%25ab%25a0%25e5%2588%2597%25e4%25b8%25be发表日期:2013 年转载 2013-07-10 09:08:31 · 1350 阅读 · 0 评论 -
受限波尔兹曼机
原文地址:http://blog.csdn.net/celerychen2009/article/details/8984316深度神经网路已经在语音识别,图像识别等领域取得前所未有的成功。本人在多年之前也曾接触过神经网络。本系列文章主要记录自己对深度神经网络的一些学习心得。第三篇,谈谈自己对最近几年颇为流行的受限波尔兹曼网络RBM的理解。我不打转载 2013-07-10 22:46:55 · 1352 阅读 · 0 评论 -
Restricted Boltzmann Machine (RBM)限制波尔兹曼机
原文地址:http://blog.csdn.net/zouxy09/article/details/8781396对某些重要的点加粗体表示。假设有一个二部图,每一层的节点之间没有链接,一层是可视层,即输入数据层(v),一层是隐藏层(h),如果假设所有的节点都是随机二值变量节点(只能取0或者1值),同时假设全概率分布p(v,h)满足Boltzmann 分布,我们称这个模型是Res转载 2013-07-10 23:29:30 · 2092 阅读 · 0 评论 -
【deep learning学习笔记】Restricted Boltzmann Machine(待整理)
这几天看Deep Learning,看RBM(转载了一些资料,都是这几天看的,还有下载的资料,就不上传了),做做笔记。暂时没太强的逻辑,以后慢慢整理。1. RBM是两层神经网络,隐含层和显示层,两层之间有连接。2. 有三类参数:(1)两层之间的连接权值,|h| * |v| 个,|h| 和 |v|分别是隐含层和显示层的节点个数;(2)显示层节点的偏置;(3)隐含层节点的偏置3.原创 2013-07-11 00:32:03 · 1837 阅读 · 0 评论 -
【deep learning学习笔记】注释yusugomori的RBM代码 --- 头文件
百度了半天yusugomori,也不知道他是谁。不过这位老兄写了deep learning的代码,包括RBM、逻辑回归、DBN、autoencoder等,实现语言包括c、c++、java、python等。是学习的好材料。代码下载地址:https://github.com/yusugomori/DeepLearning。不过这位老兄不喜欢写注释,而且这些模型的原理、公式什么的,不了解的话就看不懂代码原创 2013-07-13 18:31:54 · 3998 阅读 · 0 评论 -
【deep learning学习笔记】注释yusugomori的RBM代码 --- cpp文件 -- 模型训练
关键是 CD-k(contrastive_divergence)算法的实现。// the CD-k algorithmvoid RBM::contrastive_divergence ( int *input, // the input visiable sample double lr, // the learning rate int k //原创 2013-07-13 23:00:55 · 2491 阅读 · 5 评论 -
【deep learning学习笔记】注释yusugomori的RBM代码 --- cpp文件 -- 准备工作
一些辅助函数,做模型的准备工作。#include #include #include "RBM.h"using namespace std;// To generate a value between min and max in a uniform distributiondouble uniform(double min, double max) { return ran原创 2013-07-13 22:59:16 · 2263 阅读 · 0 评论 -
【deep learning学习笔记】注释yusugomori的RBM代码 --- cpp文件 -- 模型测试
产生数据,调用上文的函数,训练RBM模型,并re-construct测试数据,用来验证训练的RBM模型。void test_rbm() { srand(0); double learning_rate = 0.1; int training_epochs = 1000; int k = 1; int train_N = 6; int test_N = 2;原创 2013-07-13 23:02:46 · 2523 阅读 · 4 评论 -
【deep learning学习笔记】读张春霞《受限波尔兹曼机简介》
这段时间在看RBM得东西,很多材料都罗列了很多共识、理论,显得自己很牛B的样子。不过到具体实现,get hands dirty,就没有了。BS这种装B资料!张春霞《受限波尔兹曼机简介》(收录于“中国科技论文在线”)是介绍RBM不可多得的好材料,理清理论思路,容易具体实现,给出实现经验,挺好的。下面是我的阅读笔记,基本上都是摘抄论文中的内容。0. 引言讲了讲历史,RBM对DBN的模拟原创 2013-07-14 18:33:56 · 6003 阅读 · 1 评论 -
对线性回归,logistic回归和一般回归的认识
在百度文库上看到的一篇材料,是斯坦福大学机器学习课程的笔记和总结,看着不错。原文地址:http://wenku.baidu.com/view/a7fb656d58fafab069dc02ed.html哦,word内容中的图片无法贴到这里。找了个html版本的。原文地址:http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867转载 2013-07-15 17:52:04 · 1250 阅读 · 0 评论 -
Softmax回归 -- from ufldl wiki
Stanford 教授 Andrew Ng 的 Deep Learning 教程的节选。原文地址:http://deeplearning.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92 Softmax回归Contents [hide]1 简介2 代价函数3 Softmax回归模型参数化的特点4 权重衰减5 Softmax回归与Logis转载 2013-07-15 18:06:36 · 2033 阅读 · 0 评论 -
UFLDL教程 -- 译文版
原文地址:http://deeplearning.stanford.edu/wiki/index.php/UFLDL%E6%95%99%E7%A8%8B说明:本教程将阐述无监督特征学习和深度学习的主要观点。通过学习,你也将实现多个功能学习/深度学习算法,能看到它们为你工作,并学习如何应用/适应这些想法到新问题上。本教程假定机器学习的基本知识(特别是熟悉的监督学习,逻辑回归,梯度下降的想转载 2013-07-15 18:08:41 · 2136 阅读 · 0 评论 -
Machine Learning系列实验--SoftMax Regression
这个文章不错,有公式、有代码、有参考文献。原文地址:http://blog.sina.com.cn/s/blog_6982136301015asd.htmlSoftMax回归可以用来进行两种以上的分类,很是神奇!实现过程实在有点坎坷,主要是开始写代码的时候理解并不透彻,而且思路不清晰,引以为戒吧!SoftMax Regression属于指数家族,证明见( http://cs转载 2013-07-16 12:36:29 · 1091 阅读 · 0 评论 -
【deep learning学习笔记】注释yusugomori的LR代码 --- LogisticRegression.cpp
模型实现代码,关键是train函数和predict函数,都很容易。#include #include #include #include "LogisticRegression.h"using namespace std;LogisticRegression::LogisticRegression( int size, // N int in, //原创 2013-07-16 16:01:58 · 1504 阅读 · 1 评论 -
【deep learning学习笔记】注释yusugomori的LR代码 --- LogisticRegression.h
继续看yusugomori的代码,看逻辑回归。在DBN(Deep Blief Network)中,下面几层是RBM,最上层就是LR了。关于回归、二类回归、以及逻辑回归,资料就是前面转的几篇。套路就是设定目标函数(softmax损失函数),对参数求偏导数,得出权重更新公式等。LogisticRegression.h注释如下:class LogisticRegression {publ原创 2013-07-16 15:55:55 · 1861 阅读 · 0 评论 -
机器学习——深度学习(Deep Learning)
原文地址:http://blog.csdn.net/abcjennifer/article/details/7826917Deep Learning是机器学习中一个非常接近AI的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,最近研究了机器学习中一些深度学习的相关知识,本文给出一些很有用的资料和心得。Key Words:有监督学习与无监督学习,分类、回归,密度估计转载 2013-07-16 17:33:13 · 1292 阅读 · 0 评论 -
【deep learning学习笔记】注释yusugomori的DA代码 --- dA.cpp -- 训练
说实话,具体的训练公式,我没有自己推导,姑且认为他写的代码是对的。总体上看,用bp的方法。特殊之处,在于输入层和输出层是完完全全的“同一层”。void dA::get_corrupted_input ( int *x, // the original input 0-1 vector -- input int *tilde_x, // the resulted 0-原创 2013-07-21 15:22:26 · 1777 阅读 · 2 评论 -
【deep learning学习笔记】注释yusugomori的DA代码 --- dA.h
DA就是“Denoising Autoencoders”的缩写。继续给yusugomori做注释,边注释边学习。看了一些DA的材料,基本上都在前面“转载”了。学习中间总有个疑问:DA和RBM到底啥区别?(别笑,我不是“学院派”的看Deep Learning理论,如果“顺次”看下来,可能不会有这个问题),现在了解的差不多了,详情见:【deep learning学习笔记】Autoencoder。之后,原创 2013-07-21 15:18:43 · 1485 阅读 · 0 评论 -
关于USERCF和ITEMCF的那点事
原文地址:http://xlvector.net/blog/?p=488关于USERCF和ITEMCF的那点事UserCF和ItemCF是协同过滤中最为古老的两种算法,在top-N的推荐上被广泛应用。这两个算法之所以重要,是因为他们使用了两个不同的推荐系统基本假设。UserCF认为一个人会喜欢和他有相同爱好的人喜欢的东西,而ItemCF认为一个人会喜欢和他以前喜欢的东西转载 2013-07-31 13:39:28 · 1061 阅读 · 0 评论 -
数据挖掘著名学者的网站
原文地址:http://blog.csdn.net/dllian/article/details/7530581 韩家炜http://www.cs.uiuc.edu/~hanj/著名数据挖掘书籍,《数据挖掘概念和技术》作者,在DM界久负盛名。他的个人主页里面有很多他的papers,都非常经典;还有他所教授的课程,可以下载课件学习。Jian Peiht转载 2013-08-01 19:37:48 · 1460 阅读 · 0 评论 -
Topic Model的分类总结(LDA变种)
原文地址:http://hi.baidu.com/ouyanggaoyan/item/5b5c01d4c518871cd78ed0d7#713670-tsina-1-29064-128ff9f28d958dae738be418601ffbcdTopic Model的分类总结(LDA变种)Topic models主要可以分为四大类:1.无监督无层次转载 2013-07-28 00:34:04 · 3501 阅读 · 0 评论