数据挖掘
文章平均质量分 60
zhangyi880405
这个作者很懒,什么都没留下…
展开
-
数据挖掘工具软件
Orange Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,基绑定了 Python以进行脚本开发。它包含了完整的一系列的组件以进行数据预处理,并提供了数据帐目,过渡,建模,模式评估和勘探的功能。其由C++ 和 Python开发,它的图形库是由跨平台的Qt框架开发。Ra转载 2013-06-26 19:52:22 · 989 阅读 · 0 评论 -
数据挖掘Data Set收集
UCI数据集是一个常用的标准测试数据集,下载地址在http://www.ics.uci.edu/~mlearn/MLRepository.html我的主页上也有整理好的一些UCI数据集(arff格式):http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.zip在看别人的论文时,别人使用的数据集会给出数据集的出处或下载地址(除非是很转载 2014-03-22 10:54:51 · 1370 阅读 · 0 评论 -
EM聚类算法简介
1.一般概念介绍 最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Varia转载 2014-05-05 15:18:17 · 1344 阅读 · 0 评论 -
机器学习的数学基础(1)--Dirichlet分布
这一系列(机器学习的数学基础)主要包括目前学习过程中回过头复习的基础数学知识的总结。基础知识:conjugate priors共轭先验 共轭先验是指这样一种概率密度:它使得后验概率的密度函数与先验概率的密度函数具有相同的函数形式。它极大地简化了贝叶斯分析。 如何解释这句话。由于 P(u|D) = p(D|u)p(u)/p(D) (1.0式)转载 2014-05-05 15:30:25 · 811 阅读 · 0 评论 -
一位数据挖掘成功人士给数据挖掘在读研究生的建议
原文见http://www.cognoschina.net/club/viewthread.php?tid=1518 关于数据挖掘方面的研究,我原来也走过一些弯路。其实从数据挖掘的起源可以发现,它并不是一门崭新的科学,而是综合了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成,同时与专家系统、知识管理等研究方向不同的是,数据挖掘更侧重于应用的层面。因此来说,数据挖掘转载 2014-05-07 21:42:17 · 994 阅读 · 0 评论 -
谱聚类算法详解
如果说 K-means 和 GMM 这些聚类的方法是古代流行的算法的话,那么这次要讲的 Spectral Clustering 就可以算是现代流行的算法了,中文通常称为“谱聚类”。由于使用的矩阵的细微差别,谱聚类实际上可以说是一“类”算法。Spectral Clustering 和传统的聚类方法(例如 K-means)比起来有不少优点:和 K-medoids 类似,Spectral转载 2014-10-04 19:52:39 · 14217 阅读 · 3 评论 -
Hadoop中mapred包和mapreduce包的区别
今天写了段代码突然发现,很多类在mapred和mapreduce中分别都有定义,下面是小菜写的一段代码:public class MyJob extends Configured implements Tool{ public static class MapClass extends MapReduceBase implements Mapper {//转载 2014-12-19 19:55:57 · 605 阅读 · 0 评论 -
数据挖掘、数据分析好书推荐
1 深入浅出数据分析这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。 2 啤酒与尿布通过案例来说事情,而且是最经典的例子。难易程度:非常易。 3 数据之美一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。 4 集体智慧编程学习数据分析、数据挖掘、机器学转载 2014-12-19 21:23:08 · 722 阅读 · 0 评论