机器学习&数据挖掘
文章平均质量分 70
Tech_Hog
这个作者很懒,什么都没留下…
展开
-
数学之美番外篇:平凡而又神奇的贝叶斯方法
转自:http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛转载 2013-11-15 15:11:13 · 1622 阅读 · 0 评论 -
数据挖掘数据集资源
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.ty转载 2013-11-22 12:12:23 · 1608 阅读 · 0 评论 -
提高 分类器 准确率的几种方法总结
一、装袋对样本空间 D 进行 放回抽样,得到样本空间的一个子集 Di,由Di得到一个 分类器Mi。不断的重复上述过程,就可以得到一系列分类器 M1,M2,M3....Mi ,在分类时用这些分类器进行投票来决定分类。二、提升和AdaBoost对长度为d的训练样本空间 D 的每一个元组分配一个初始的权限 1/d, 然后开始一个迭代的过程:根据元组的权限来作为抽取概率转载 2014-05-23 13:23:31 · 4463 阅读 · 0 评论 -
特征选择常用算法综述
1 综述(1) 什么是特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2) 为什么要做特征选择 在机器学习的实际应用中,特征数量往往较多,其转载 2014-07-18 14:25:50 · 1147 阅读 · 0 评论 -
语音识别中的鸡尾酒会问题
概念“ 鸡尾酒会问题”(cocktail party problem)是在计算机语音识别领域的一个问题,当前语音识别技术已经可以以较高精度识别一个人所讲的话,但是当说话的人数为两人或者多人时,语音识别率就会极大的降低,这一难题被称为鸡尾酒会问题。解决方案斯坦福大学Andrew NG的机器学习公开课(ml-class.org)在第一章unsupervised learning那段原创 2014-02-18 11:43:38 · 7810 阅读 · 0 评论 -
mahout中kmeans算法和Canopy算法实现原理
本文讲一下mahout中kmeans算法和Canopy算法实现原理。 一. Kmeans是一个很经典的聚类算法,我想大家都非常熟悉。虽然算法较为简单,在实际应用中却可以有不错的效果;其算法原理也决定了其比较容易实现并行化。学习mahout就先从简单的kmeans算法开始学起,就当抛砖引玉了。 1. 首先来简单的回顾一下KMeans算法: (1转载 2014-06-19 17:41:13 · 1438 阅读 · 0 评论 -
Least Angle Regression
背景知识最小角回归和模型选择比较像,是一个逐步的过程,每一步都选择一个相关性最大的特征,总的运算步数只和特征的数目有关,和训练集的大小无关。最小角回归训练时的输入为特征矩阵 X={X1,X2,...,XP},和期输出向量Y={y1,y2,...,yN},Xi 是长度为N的矩阵,N表示训练集的大小,P则是特征的数目。还有一点需要注意的是,向量Xi 和 Y 都是正则化之后的向量,即它们的元素的转载 2014-08-07 13:56:31 · 742 阅读 · 0 评论 -
奇异值分解(SVD) --- 几何意义
PS:一直以来对SVD分解似懂非懂,此文为译文,原文以细致的分析+大量的可视化图形演示了SVD的几何意义。能在有限的篇幅把这个问题讲解的如此清晰,实属不易。原文举了一个简单的图像处理问题,简单形象,真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理解,比如 个性化推荐中应用了SVD,文本以及Web挖掘的时候也经常会用到SVD。原文:We recommend a sing转载 2014-08-12 21:35:27 · 820 阅读 · 0 评论 -
Python机器学习库
Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线性代数、傅里叶变换和随机数生成函数。 SciPy是一个开源的Python算法库和数学工具包,SciPy包含的模块有最优化转载 2014-05-06 10:12:58 · 976 阅读 · 0 评论 -
自然语言处理
海量数据处理用“隐马尔科夫模型”进行“词性标注”原创 2013-11-08 16:18:43 · 1087 阅读 · 0 评论 -
《数学之美》信息整合以及个人领悟
统计语言模型谈谈中文分词隐含马尔可夫模型在语言处理中的应用怎样度量信息?布尔代数和搜索引擎的索引图论和网络爬虫 (Web Crawlers)信息论在信息处理中的应用贾里尼克的故事和现代语言处理如何确定网页和查询的相关性有限状态机和地址识别Google 阿卡 47 的制造者阿米特.辛格博士余弦定理和新闻的分类信息指纹及其应用谈谈数学模型的重要性原创 2014-01-27 22:24:43 · 1965 阅读 · 0 评论 -
计算机视觉、机器学习相关领域论文和源代码大集合--持续更新……
注:下面有project网站的大部分都有paper和相应的code。Code一般是C/C++或者Matlab代码。最近一次更新注:下面有project网站的大部分都有paper和相应的code。Code一般是C/C++或者Matlab代码。最近一次更新:2013-3-17一、特征提取Feature Extraction:· SIF转载 2013-11-22 15:41:05 · 1473 阅读 · 0 评论 -
波特词干算法
在英语中,一个单词常常是另一个单词的“变种”,如:happy=>happiness,这里happy叫做happiness的词干(stem)。在信息检索系统中,我们常常做的一件事,就是在Term规范化过程中,提取词干(stemming),即除去英文单词分词变换形式的结尾。应用最为广泛的、中等复杂程度的、基于后缀剥离的词干提取算法是波特词干算法,也叫波特词干器(Porter Stemmer)。转载 2013-11-18 15:39:36 · 1417 阅读 · 1 评论 -
数据挖掘领域十大经典算法初探
数据挖掘领域十大经典算法初探 译者:July 二零一一年一月十五日-----------------------------------------参考文献:国际权威的学术组织ICDM,于06年12月年评选出的数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kN转载 2013-11-15 12:00:39 · 1387 阅读 · 0 评论 -
从决策树学习谈到贝叶斯分类算法、EM、HMM
第一篇:从决策树学习谈到贝叶斯分类算法、EM、HMM引言 最近在面试中,除了基础 & 算法 & 项目之外,经常被问到或被要求介绍和描述下自己所知道的几种分类或聚类算法(当然,这完全不代表你将来的面试中会遇到此类问题,只是因为我的简历上写了句:熟悉常见的聚类 & 分类算法而已),而我向来恨对一个东西只知其皮毛而不得深入,故写一个有关数据挖掘十大算法的系列文章以作为自己备试转载 2013-11-15 09:54:33 · 2262 阅读 · 1 评论 -
数据挖掘方面的资源、期刊、会议的网址集合
JournalsACM TKDD http://tkdd.cs.uiuc.edu/DMKD http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDE http://www.ieee.org/organizations/pubs/tran转载 2013-12-10 10:16:47 · 1056 阅读 · 0 评论 -
自然语言处理中文 工具包
1. Java自然语言处理 LingPipeLingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Quer转载 2014-01-12 20:32:46 · 1281 阅读 · 0 评论 -
词干提取(stemming)和词形还原(lemmatization)
以下内容均摘自论文《词形还原方法及实现工具比较分析》词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义),而词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)。词形还原和词干提取是词形规范化的两类重要方式,都能够达到有效归并词形的目的,二者既有联系也有区别现将共同点和联系总转载 2013-11-24 20:49:36 · 4813 阅读 · 0 评论 -
统计学和数据挖掘区别
1. 简介 统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。 统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上,有时候还导转载 2013-12-23 20:54:55 · 1615 阅读 · 0 评论 -
数据挖掘在企业中应用的四种途径
数据激增是当今社会的一大特性,如何有效的利用数据挖掘方法,从海量信息中提取出有用的模式和规律而不仅仅是“望洋兴叹”,已经成为人们迫切的需求。企业应该将数据挖掘视为一大法宝,利用它将数据转化为商业智能,提高企业的核心竞争力。从投资的角度来看,如果对数据研究所支付的费用少于研究成果所带来的价值,数据挖掘就值得去做。正如修行的省悟过程一样,要将数据挖掘引入公司,并非只有一种途径。我们的最终目的是解决转载 2013-12-10 10:23:25 · 2844 阅读 · 0 评论 -
Python机器学习——线性模型
摘要 : 最近断断续续地在接触一些python的东西。按照我的习惯,首先从应用层面搞起,尽快入门,后续再细化一 些技术细节。找了一些资料,基本语法和数据结构搞定之后,目光便转到了scikit-learn这个包。最近断断续续地在接触一些python的东西。按照我的习惯,首先从应用层面搞起,尽快入门,后续再细化一 些技术细节。找了一些资料,基本语法和数据结构搞定之后转载 2014-10-16 20:01:37 · 2962 阅读 · 0 评论