2014年05月_人生偌只如初见

12月 11月 10月 09月 08月 07月 06月 05月

原创数据挖掘笔记-关联规则-Apriori-原理与简单实现

在交易数据、关系数据或其他信息载体中，查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。非频繁项集的超集可以不用进行测试，许多项之间的组合可以去掉（不满足频繁条件）由频繁项集生成满足最小支持度和最小置信度的关联规则。算法核心：逐层搜索的迭代方法，寻找最大频繁集。一个频繁项集中的任一非空子集也应是频繁项集。用于发现隐藏在大型数据集中的有意义的联系。即：任何非频繁项集的超集一定也是非频繁的。查找所有满足最小支持度和可信度的规则。的集合，若干项的集合，称为项集。蕴涵式的称为关联规则，这里。

2014-05-29 17:17:44 2096

原创数据挖掘笔记-分类-决策树-MapReduce实现-2

下面是具体的实现代码：其中用到了JobControl来控制多Job执行，还有涉及到几个MR程序，代码未进行过整理，望见谅。4、N个小数据集的节点根据最终的最佳划分，分割自己节点上的数据，上传到HDFS，跳转到第二步。1、将一个大数据集文件拆分成N个小数据集文件，对数据做好预处理工作，上传到HDFS。3、汇总N个小数据集文件的最佳划分，投票选出最佳划分。

2014-05-28 16:38:12 2533 1

原创数据挖掘笔记-分类-决策树-MapReduce实现-1

看了一些mahout在处理决策树和随机森林的过程，大体过程是Job只有一个Mapper处理,在map方法里面做数据的转换收集工作，然后在cleanup方法里面去做决策树的创建过程。大体来说，mahout决策树的构建过程好像并没有结合分布式计算,因为我也并没有仔仔细细的去研读mahout里面的源码，所以可能是我没发现。最后生成的决策树并未保存在HDFS上面，后面有时间在考虑下吧。之前写的代码都是单机上跑的，发现现在很流行hadoop,所以又试着用hadoop mapreduce来处理下决策树的创建。

2014-05-28 16:13:57 4915 2

原创数据挖掘笔记-分类-决策树-随机森林

同时每个抽取出来的数据集也不一定是包含所有特征属性，其含有的特征属性也是随机从总特征属性中随机抽取。顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类，即选举投票。b. 在当前的很多数据集上，相对其他算法有着很大的优势，两个随机性的引入，使得随机森林具有很好的抗噪声能力。

2014-05-28 15:32:26 1930

原创数据挖掘笔记-分类-决策树-SLIQ和SPRINT

所谓预排序，就是针对每个属性的取值，把所有的记录按照从小到大的顺序进行排序，以消除在决策树的每个结点对数据集进行的排序。在C4.5算法中，树的构造是按照深度优先策略完成的，需要对每个属性列表在每个结点处都进行一遍扫描，费时很多，为此，SLIQ采用广度优先策略构造决策树，即在决策树的每一层只需对每个属性列表扫描一次，就可以为当前决策树中每个叶子结点找到最优分裂标准。step1:建立类表和各个属性表,并且进行预先排序,即对每个连续属性的属性表进行独立的排序,以避免在每个节点上都要给连续属性值重新排序;

2014-05-28 14:51:52 7105 1

原创数据挖掘笔记-分类-决策树-ID3和C4.5

在这种情况下，处理缺少属性值的通常做法是赋予该属性的常见值，或者属性均值。C4.5算法采用信息增益率作为选择分支属性的标准，并克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足，并能够完成对连续属性离散化是处理；构造决策树的关键步骤是分裂属性。2：用信息增益率(Information Gain Ratio)来选择属性 ,克服了用信息增益来选择属性时偏向选择值多的属性的不足。1：算法低效，在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效，尤其是在大量特征属性的数据集中。

2014-05-28 14:21:29 2594 6

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

PURSUE ONE PIECE

原创数据挖掘笔记-关联规则-Apriori-原理与简单实现

原创数据挖掘笔记-分类-决策树-MapReduce实现-2

原创数据挖掘笔记-分类-决策树-MapReduce实现-1

原创数据挖掘笔记-分类-决策树-随机森林

原创数据挖掘笔记-分类-决策树-SLIQ和SPRINT

原创数据挖掘笔记-分类-决策树-ID3和C4.5

多级层次行政区划相关的文件

Sqoop-1.4.6 支持多分隔符

企业数据架构及应用

Spark快速数据处理

winutils.exe hadoop.dll

数据挖掘：概念与技术（原书第3版）.pdf

jbpm4.4_ssh2.rar

flash_builder_4_keygen.rar

hadoop-client-2.2.0.jar

jsp分页技术jsp分页技术jsp分页技术jsp分页技术

java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949

eclipse快捷键eclipse快捷键eclipse快捷键

[Effective.Enterprise.Java.中文版].Effective.Enterprise.Java.Chinese.eBook

javascript王者归来

学习JAVA的视频网站资料

Android开发教程

JAVAJSP的聊天室Java源码

struts2的rar 下载

struts2v3.0

空空如也

原创 数据挖掘笔记-关联规则-Apriori-原理与简单实现

原创 数据挖掘笔记-分类-决策树-MapReduce实现-2

原创 数据挖掘笔记-分类-决策树-MapReduce实现-1

原创 数据挖掘笔记-分类-决策树-随机森林

原创 数据挖掘笔记-分类-决策树-SLIQ和SPRINT

原创 数据挖掘笔记-分类-决策树-ID3和C4.5

多级层次行政区划相关的文件

Sqoop-1.4.6 支持多分隔符

企业数据架构及应用

Spark快速数据处理

winutils.exe hadoop.dll

数据挖掘：概念与技术（原书第3版）.pdf

jbpm4.4_ssh2.rar

flash_builder_4_keygen.rar

hadoop-client-2.2.0.jar

jsp分页技术jsp分页技术jsp分页技术jsp分页技术

java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949

eclipse快捷键eclipse快捷键eclipse快捷键

[Effective.Enterprise.Java.中文版].Effective.Enterprise.Java.Chinese.eBook

javascript王者归来

学习JAVA的视频网站资料

Android开发教程

JAVAJSP的聊天室Java源码

struts2的rar 下载

struts2v3.0

空空如也

原创数据挖掘笔记-关联规则-Apriori-原理与简单实现

原创数据挖掘笔记-分类-决策树-MapReduce实现-2

原创数据挖掘笔记-分类-决策树-MapReduce实现-1

原创数据挖掘笔记-分类-决策树-随机森林

原创数据挖掘笔记-分类-决策树-SLIQ和SPRINT

原创数据挖掘笔记-分类-决策树-ID3和C4.5