数据挖掘
涡轮5
这个作者很懒,什么都没留下…
展开
-
什么是数据挖掘 ?(DM 与DW 、OLAP、CRM 的区别)
什么是数据挖掘 数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。 数据挖掘相关的10个问题 NO.1 Data Min转载 2012-12-22 22:15:32 · 11325 阅读 · 0 评论 -
UCI数据集和源代码
UCI数据集是一个常用的标准测试数据集,下载地址在http://www.ics.uci.edu/~mlearn/MLRepository.html我的主页上也有整理好的一些UCI数据集:http://lamda.nju.edu.cn/yuy/files/download/UCI_arff.zip在看别人的论文时,别人使用的数据集会给出数据集的出处或下载地址(除非是很机密的数据,例如转载 2014-01-02 21:02:05 · 7464 阅读 · 1 评论 -
WEKA连接MySQL,Oracle,SQLServer
1.准备Windows XPjdk-1_5_0_14weka-3-5-7.exeSQLServer2005mysql-6.0.0Oracle10.2.0.1.0Microsoft SQL Server 2005 JDBC Driver 1.2--->sqljdbc.jarMySQL Driver for JDBC--->mysql-connector-java-5.转载 2013-12-20 16:02:17 · 4747 阅读 · 1 评论 -
WEKA入门教程
1.简介WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz.sixxs.org/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算转载 2013-12-22 16:23:33 · 1995 阅读 · 0 评论 -
weka中算法说明
1) 数据输入和输出WOW():查看Weka函数的参数。Weka_control():设置Weka函数的参数。read.arff():读Weka Attribute-Relation File Format (ARFF)格式的数据。write.arff:将数据写入Weka Attribute-Relation File Format (ARFF)格式的文件。2) 数据预处理转载 2013-12-23 16:12:07 · 4454 阅读 · 0 评论 -
myeclipse下java调用weka
代码示例package test;import java.io.File;import weka.classifiers.Classifier;import weka.classifiers.trees.J48;import weka.core.Instances;import weka.core.converters.ArffLoader;public class WekaT原创 2013-12-23 15:34:28 · 4868 阅读 · 1 评论 -
C4.5算法详解(至今见过写的最好的算法详解)
C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进有如下几个要点:用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,这里可以用很多方法来定义信息,ID3使用的是熵(entropy, 熵是一种不纯度度量准则),也就是熵的变化值,而C4.5用的是信息增益率。在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可转载 2014-01-09 17:33:41 · 88463 阅读 · 6 评论 -
数据挖掘学习目录(持续补充)
1、从决策树学习谈到贝叶斯分类算法、EM、HMM - 结构之法 算法之道 - 博客频道 - CSDN.NEThttp://blog.csdn.net/v_july_v/article/details/75776842、决策树算法总结 - as_ - 博客园http://www.cnblogs.com/biyeymyhjob/archive/2012/07/23/2605208.原创 2012-12-23 21:49:34 · 1746 阅读 · 0 评论 -
数据的游戏:冰与火
我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些心得,也许对你有用,也许很傻,不管怎么样,欢迎指教和讨论。另外,注明一下,这篇文章的转载 2013-08-08 20:43:41 · 1766 阅读 · 0 评论 -
overfitting(过度拟合)的概念
overfittingoverfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据。此时我们就叫这个假设出现了overfitting的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。而解决overfit的方法主要有两种:提前停止树的增长或者对已经生成的树按照一定的规则进行后剪枝。转载 2013-07-06 19:39:08 · 24908 阅读 · 0 评论 -
扒一扒这个数据挖掘行业
摘要: 我干这行有几年了,见了很多人,干了很多公司,爆一爆这个行业的状况吧……让后来人有所了解,也让猎头挖人挖的有点方向,起码和candidates聊天的时候不至于什么也不清楚谈不明白,不清楚价值,等等声明:本文指的是做数据挖掘这行,不是数据仓库我干这行有几年了,见了很多人,干了很多公司,爆一爆这个行业的状况吧……让后来人有所了解,也让猎头挖人挖转载 2013-07-07 20:17:33 · 1305 阅读 · 1 评论 -
Mahout
What is Mahout, why need it?Apache Mahout 简介Apache Mahout问答Mahout安装图文版Mahout下载mahout百度Apache Mahout维基百科MapReduce百科原创 2013-07-08 17:35:42 · 641 阅读 · 0 评论 -
数据挖掘中易犯的几大错误
摘要: 数据挖掘中易犯的11大错误包括:缺乏数据、太关注训练、只依赖一项技术、提错了问题、只靠数据来说话、使用了未来的信息、抛弃了不该忽略的案例、轻信预测、 试图回答所有问题、随便地进行抽样、太相信最佳模型。按照Elder博士的总结,这几大易犯错误包括:缺乏数据(Lack Data)太关注训练(Focus on Trainin转载 2013-07-09 18:28:56 · 1036 阅读 · 0 评论 -
数据分析达人博客
1. 沈浩老师中国传媒大学教授,这位老师给我深的印象就是比较喜欢旅游、爱摄影,除此之外更多的介绍还一下子想不起来。不过在博客分享了很多非常好的数据分析方法、数据可视化等。 2. 刘万祥ExcelPro 刘万祥老师,《Excel图表之道》、《用地图说话》作者。专注于最专业、有效的商务图表沟通方法,追求图表的有效沟通,和专业的商务气质。 3.转载 2013-07-09 19:44:16 · 1890 阅读 · 0 评论 -
数据分析能力的8个等级
并非所有的分析方法作用都相同。和大多数软件解决方案一样,你会发现分析方法的能力也存在差异,从简单明了的到高级复杂。下面我们按照不同分析方法所能给人带来的智能程度,把分析能力划分为8个等级。1. 固定报表回答: 发生了什么?什么时候发生的?示例:月度或季度财务报表我们都见过报表,它们一般是定期生成转载 2013-07-10 14:16:04 · 1754 阅读 · 0 评论 -
数据挖掘与云计算—专访中科院何清博士
——专访中国科学院计算技术研究所何清 博士 重庆邮电大学数字通信 张诚 数字通信:当今世界处于一个数据爆炸时代,如何有效地从海量数据中找到有用、可理解的知识正考验人类智慧,我们是否拥有应对这一挑战的技术手段? 何清:人类社会信息正以“每18个月产生的数量等于过去几千年的总和”的速度不断增加,如此浩瀚的数据在带给人们大量信息的同时,也极大地增加了人们转载 2013-07-09 18:21:07 · 2341 阅读 · 0 评论 -
解答数据挖掘初学者心中的疑惑
摘要: 本文中包含了数据挖掘初学者常见的问题,DMFighter对我以前回复的一些问题进行了精心的整理,在此也感谢他的辛勤工作。因为访问我博客的很多读者会不断重复提这些问题,所以我把DMFighter整理的帖子也转载过来,请初 ...本文中包含了数据挖掘初学者常见的问题,DMFighter对我以前回复的一些问题进行了精心的整理,在此也感谢他的辛勤工作。因转载 2013-07-09 19:47:55 · 1204 阅读 · 1 评论 -
weka基础
1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。 详见 http://www.china-pub.com/computers/c转载 2014-04-09 10:59:12 · 3882 阅读 · 0 评论