数据挖掘/机器学习
文章平均质量分 69
52caml
因为梦想所以坚持 关注IT的点点滴滴
展开
-
计算广告与机器学习-技术共享平台
计算广告与机器学习博客地址:http://www.52caml.com/大家好,欢迎来到CAML-技术共享平台!CAML平台致力于整理和分享互联网广告领域的核心问题和解决方案。博主水平有限,期望能与对此话题感兴趣的朋友一起学习、交流、探讨与分享。众所周知,机器学习是一门交叉性很强的学科,而我们这里主要想分享和探讨的是如何利用机器学习这把利器,有效地解决在线广告领域中的学习问题 ...原创 2016-03-29 09:09:00 · 2106 阅读 · 0 评论 -
机器学习那些事
[转载]机器学习的那些事已有 2254 次阅读 2012-12-25 11:49 |个人分类:计算机科学|系统分类:论文交流|关键词:机器学习【原题】A Few Useful Things to Know About Machine Learning【译题】机器学习的那些事【作者】Pedro Domingos【译者】刘知远【说明】译文载于《中国计算机学会通讯》 第转载 2013-12-26 08:51:04 · 1626 阅读 · 0 评论 -
开源机器学习库
原文地址:C++的机器学习开源库作者:webbery508 一、c++开源机器学习库1)mlpack is a C++ machine learning library.2)PLearn is a C++ library aimed at research and development in the field of statistical machine learn转载 2013-12-23 18:49:25 · 1891 阅读 · 0 评论 -
大牛们的blog (人工智能与机器学习)
大牛们的blog (人工智能与机器学习)国外人工智能界牛人主页以前转过一个计算机视觉领域内的牛人简介,现在转一个更宽范围内的牛人简介:http://people.cs.uchicago.edu/~niyogi/http://www.cs.uchicago.edu/people/http://pages.cs.wisc.edu/~jerryzhu/转载 2013-12-23 18:14:30 · 1818 阅读 · 0 评论 -
boost安装(本机是为了安装 机器学习工具包shark,而安装boost的)
windows下boost怎样安装与使用说明?安装VS2010第1步:先从官网(www.boost.org)下载最新版的BOOST源码,如图所示随便下哪个都行,我这里下的是82M的那个第2步:编译源代码(放心.这里是傻瓜式的操作,很容易操作)(本机下载的是boost_1_55_0.zip, zhouy)(1)先把源代码放在D盘,例如 D:\InstalledPr转载 2014-01-05 09:45:41 · 1287 阅读 · 0 评论 -
统计机器学习的理解
目前机器学习的一个比较热门的方向是统计机器学习(另外一个可能是图模型,按照Jordan的说法是统计机器学习属于频率主义,而图模型属于贝叶斯主 义), 对于每一个做统计机器学习的研究者来说,他们大致可以分为两类:一类做统计学习理论相关工作,如泛化界、约简或一致性;一类做优化算法,如支持向量机、 Boosting等。作为一个纯统计机器学习的学者来说,我想这两块内容都得了解。优化算法的门槛低点,可能比较转载 2013-12-13 11:15:58 · 1139 阅读 · 1 评论 -
数据挖掘/分析前的数据整理方法
这里谈不上数据预处理方法,只是数据的导入、导出,以及格式的转换、(一或多个)分隔符等相关问题1. 一条样本/记录中含有多个分隔符的处理方法:(1). 对于小数据集一个有效的方法是: ① 将有多个分隔符的数据 复制 到word文章,将多个分隔符转化为同一个分隔符;② 开始 ---> 查找替换 ---> 替换 ---> 查找内容(如果是空格,直接按一下空格键;如果是制表符等需要使用原创 2013-12-11 21:06:41 · 1567 阅读 · 0 评论 -
[MOOC学习笔记]机器学习基石 Lecture01 The Learning Problem
1. 首先:关于ML的几个解读ML:acquiring skill with experience accumulated/computed from data.skill improve some performance measure(e.g. prediction accuracy)ML: improving some performance measure with expe原创 2013-11-27 16:14:05 · 1784 阅读 · 0 评论 -
[MOOC学习笔记]机器学习基石 Lecture02 Learning to Answer Yes/No
最近,Cousera公开课上又多了一门优质的ML课程,尤其对于华语圈的朋友是学习机器学习的福音。由于本人之前对ML有一定的学习和理解,所以从一个观察者or评论者的角度,来看林老师讲的ML课程,客观的评价是,讲的非常清楚,没有国内大学ML相关课程的照本宣科,问题的引入、算法的描述以及推理都很清楚,非常值得好好学习,不管是刚接触ML的朋友,还是有一定ML经验的朋友。本次Machine Lear原创 2013-12-07 23:09:25 · 1312 阅读 · 1 评论 -
R语言与数据挖掘学习笔记(常用的包)
今天发现一个很不错的博客(http://www.RDataMining.com), 博主致力于研究R语言在数据挖掘方面的应用,正好近期很想系统的学习一下R语言和数据挖掘的整个流程,看了这个博客的内容,心里久久不能平静。决定从今天 开始,只要晚上能在11点之前把碗洗好,就花一个小时的时间学习博客上的内容,并把学习过程中记不住的信息记录下来,顺便把离英语四级的差距尽量缩小。下面列出了可用于转载 2013-11-27 13:50:43 · 1102 阅读 · 0 评论 -
深度学习 学习资料
深度学习,是当前热门的机器学习领域。 最近开始想系统学习一下, 整理了一些网上学习资料, 也供有共同兴趣的朋友参考。如果有好的推荐,也欢迎给我留言。学习网站1. Deep Learning 101 http://markus.com/deep-learning-101/?utm_campaign=Manong_Weekly_Issue_11&utm_med转载 2014-02-06 20:56:55 · 1308 阅读 · 0 评论 -
sklearn.metrics中的评估方法介绍
1. sklearn.metrics.auc(x, y, reorder=False):计算AUC值,其中x,y分别为数组形式,原创 2014-04-30 17:06:36 · 29036 阅读 · 3 评论 -
ROC、AUC、PR等计算方法
受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以虚报概率为横轴,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采转载 2014-04-30 16:18:40 · 7963 阅读 · 0 评论 -
1. 回归
scikit-learn中关于回归有好多方法1.原创 2014-04-25 10:22:10 · 1281 阅读 · 0 评论 -
Python机器学习工具箱
Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶变换和随机数生成函数。 SciPy是一个开源的Python算法库和数学工具包,SciPy包含的模块有最优化转载 2014-04-24 16:28:02 · 1978 阅读 · 0 评论 -
0.python:scikit-learn基本用法
经Edwin Chen的推荐,认识了scikit-learn这个非常强大的python机器学习工具包。这个帖子作为笔记。(其实都没有笔记的意义,因为他家文档做的太好了,不过还是为自己记记吧,为以后节省若干分钟)。如果有幸此文被想用scikit-learn的你看见,也还是非常希望你去它们的主页看文档。主页中最值得关注的几个部分:User Guide几乎是machine learning的索引,各转载 2014-04-24 19:25:23 · 2096 阅读 · 0 评论 -
【deep learning】Theano文档学习
1. thenao中的共享共享变量总结:import theanoimport theano.tensor as Tfrom theano import functionfrom theano import sharedstate = shared(200) # 使用shared定义共享变量,初始化为200inc = T.iscalar('inc')# 定义累加器accumul原创 2014-05-08 15:05:05 · 2097 阅读 · 0 评论 -
python/sklearn/theano中随机数总结
Python中的随机数生成器在numpy.random下面1. 生成910*4原创 2014-05-08 15:15:39 · 1470 阅读 · 0 评论 -
python文本处理总结
1. 除去字符串中,不需要的字符,只要有用的原创 2014-05-03 16:17:49 · 3203 阅读 · 0 评论 -
Python与Mysql之间的操作MySQLdb
MySQLdb是python用于连接并与mysql数据,原创 2014-05-03 10:25:03 · 1490 阅读 · 0 评论 -
玩转机器学习目标函数
机器学习中的目标函数,哟原创 2014-05-01 17:00:32 · 3035 阅读 · 0 评论 -
PR,ROC,AUC计算方法
受试者工作特征曲线 (receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映着相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判定标准下所得的结果而已。接受者操作特性曲线就是以虚报概率为横轴,击中概率为纵轴所组成的坐标图,和被试在特定刺激条件下由于采转载 2014-04-30 16:53:21 · 3590 阅读 · 0 评论 -
强化学习算法介绍(Reinforcement Learning and Control)
在之前的讨论中,我们总是给定一个样本x,然后给或者不给label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题,很难有这么规则的样本。比如,四足机器人的控制问题,刚开始都不知道应该让其动那条腿,在移动过程中,也不知道怎么让机器人自动找到合适的前进方向。另外如要设计一个下象棋的AI,每走一步实际上也是一个决策过程,虽然对于简单的棋有A*的启发式方法,但在转载 2013-11-27 13:47:40 · 9431 阅读 · 0 评论 -
关于乔姆斯基和统计学习的两种文化
原文:http://norvig.com/chomsky.html 作者:Peter Norvig(Google公司研究主管,人工智能专家) 一 背景 2011年是麻省理工学院(MIT)建校150周年。2011.5.3-5日,MIT举办了“大脑、心智与机器(Brians,Minds and Machines)”专题研讨会(属校庆系列活动之一)。网址:http转载 2013-11-13 08:26:00 · 1489 阅读 · 0 评论 -
机器学习经典论文
源地址: http://suanfazu.com/discussion/68/机器学习经典论文survey合集#0-tsina-1-13801-397232819ff9a47a7b7e80a40613cfe1感谢分享Active LearningTwo Faces of Active Learning, Dasgupta, 2011Active Learning转载 2013-11-23 23:22:49 · 3336 阅读 · 0 评论 -
搜索背后的奥秘——浅谈语义主题计算
本文转自百度搜索研发部_官方博客摘要:两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方转载 2013-07-02 20:30:15 · 625 阅读 · 0 评论 -
伯努利过程与泊松过程
随机过程中有两类很重要的过程:到达过程和马尔科夫过程;Ⅰ. 到达过程:到达过程重点研究的是相邻到达时间(即两次到达之间的时间)是相互独立的随机变量模型。IF考虑到达的时间是离散的情形,相邻时间服从几何分布,即伯努利过程;IF考虑到达的时间是连续的情形,相邻时间服从指数分布,即泊松过程。Ⅱ. 马尔科夫过程:考虑数据在时间点上演化,而且未来数据的演化与历史数据有概率相关结构。比如股票的未来日的原创 2013-07-02 18:57:11 · 15188 阅读 · 1 评论 -
[学习笔记]学习主题模型(Topic Model)和PLSA( probabilistic latent semantic analysis)
对于理解什么是 主题 是很好的一篇文章 感谢作者 主体模型与pLSA转载 2013-07-02 09:30:08 · 1187 阅读 · 0 评论 -
Paper Read Records
本文用来记录读研期间论文阅读情况,并对每一篇文章给出我自己的理解,必要时做出点评.... 主要是记录我的"reading paper career",将来能够回忆起"那些年哥读过的论文..."第1篇:题目:《搜索引擎用户查询的广告点击意图分析》 作者:靳岩钦,张敏,刘奕群,马少平 ; 单位: 清华大学智能技术与系统国家重点实验室本文主要讲述了基于用户查询点击日志的历史点击信息原创 2013-07-16 17:17:40 · 801 阅读 · 0 评论 -
用实例理解 泊松分布
去年12月,美国康涅狄格州发生校园枪击案,造成28人死亡。资料显示,1982年至2012年,美国共发生62起(大规模)枪击案。其中,2012年发生了7起,是次数最多的一年。去年有这么多枪击案,这是巧合,还是表明美国治安恶化了?前几天,我看到一篇很有趣的文章,使用"泊松分布"(Poisson distribution),判断同一年发生7起枪击案是否巧合。转载 2013-07-02 10:24:43 · 28918 阅读 · 3 评论 -
共轭先验以及 先验分布与后验分布
如果你读过贝叶斯学习方面的书或者论文,想必是知道共轭先验这个名词的。贝叶斯学派和频率学派的区别之一是特别重视先验信息对于inference的影响,而引入先验信息的手段有“贝叶斯原则“(即把先验信息当着均匀分布)等四大类其中有重要影响的一类是:共轭先验现在假设我们有这样几类概率:P(\theta)(先验分布), p(\theta|X)(后验分布), p(X), p(X|\th转载 2013-07-01 16:38:16 · 2137 阅读 · 0 评论 -
PCML_Chapter2_关于先验分布
转载 2013-06-29 17:41:06 · 620 阅读 · 0 评论 -
Online Learning(from Cousera Course of Stanford University)
1. Since online learning algorithms do not save old examples, they can be very efficent in terms of computer memory and disk space.(在线学习是利用实时流数据,因此不需要保存旧的眼里,节省内存和磁盘空间);2. One of the advantag原创 2013-06-28 16:09:08 · 1906 阅读 · 0 评论 -
李航:机器学习新动向 从人机交互中学习
华为诺亚方舟实验室首席科学家李航发表主题演讲。华为诺亚方舟实验室首席科学家李航 李航表示,到目前为止,人工智能其他领域研究,我们发现最有力的手段可能还是要基于数据,通过机器学习这样的办法才能够使得我们的机器更加智能化。 同时,李航认为在机器学习里面到底我们学习多少数据,我们一个结论是需要很多数据的,即使我们仅仅是学一个二类分类器可能都需要成千上万的标注数据转载 2013-07-18 18:22:11 · 2249 阅读 · 0 评论 -
Recode process
2013-07-18 星期四 天气晴1. IR:chapter12:基于语言建模的信息检索模型看这章的主要目的是熟悉一下,传统的文档检索是基于向量空间模型,其中的权重计算方式为tf-idf:idf(t)用于表示词项t区分文档的能力,如果t出现在大多数文档集中,idf(t)就会很小,说明区分文档的能力就弱,反之则强;这里基于语言建模,并不是以相关性计算为目标,将每一篇文档看做一门"语言"原创 2013-07-18 16:19:34 · 651 阅读 · 0 评论 -
clucene2.3.3.4编译详解
原文地址here,感谢作者~一、首先在sourceforge上下载clucene-core-2.3.3.4 ,在目前这是最新版本的二、安装boost库boost库安装还是有点麻烦的,首先在在boost官网下载boost,解压后,记得一定要解压在C盘,比如我放在C:\boost\boost_1_47_0目录下,在编译代码的时候系统首先在系统目录下找boost库,这样可转载 2013-07-20 21:35:32 · 640 阅读 · 0 评论 -
Deep Learning学习网站
算法组: http://deeplearning.suanfazu.com/blog/原创 2013-11-23 23:24:33 · 958 阅读 · 0 评论 -
Outline of PhD Course of Machine Learning in CMU
Introduction to Machine Learning - 10-701/15-781Prof Alex SmolaCarnegie Mellon University Course URL: http://alex.smola.org/teaching/cmu2013-10-701/index.htmlOverviewMachine learning studies原创 2013-11-20 11:07:40 · 1754 阅读 · 0 评论 -
计算广告学涉及的学科与技术
计算广告学涉及到的学科与相关技术(FYI)原创 2013-10-16 11:38:09 · 1058 阅读 · 0 评论 -
DSP中的基础算法和模型的详细解析
(转载请保留原文链接 http://www.techinads.com/archives/41authored by 江申_Johnson)美国有一家很优秀的DSP公司–M6D(m6d.com),这个公司只是个startup公司,却已经在KDD之类的顶级会议发表的7-8篇优秀的文章。最近我研究了一下他们的DSP算法,和大家分享一下我的理解,希望以一个实例让大家对DSP中的基础算法和模型转载 2013-08-04 08:14:06 · 1663 阅读 · 0 评论