自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

PURSUE ONE PIECE

学历代表过去,财力代表现在,学习力代表将来,所见所闻改变一生,不知不觉断送一生。

  • 博客(6)
  • 资源 (21)
  • 收藏
  • 关注

原创 数据挖掘笔记-关联规则-Apriori-原理与简单实现

在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。非频繁项集的超集可以不用进行测试 ,许多项之间的组合可以去掉(不满足频繁条件)由频繁项集生成满足最小支持度和最小置信度的关联规则。算法核心:逐层搜索的迭代方法,寻找最大频繁集。一个频繁项集中的任一非空子集也应是频繁项集。用于发现隐藏在大型数据集中的有意义的联系。即:任何非频繁项集的超集一定也是非频繁的。查找所有满足最小支持度和可信度的规则。的集合,若干项的集合,称为项集。蕴涵式的称为关联规则,这里。

2014-05-29 17:17:44 2096

原创 数据挖掘笔记-分类-决策树-MapReduce实现-2

下面是具体的实现代码:其中用到了JobControl来控制多Job执行,还有涉及到几个MR程序,代码未进行过整理,望见谅。4、N个小数据集的节点根据最终的最佳划分,分割自己节点上的数据,上传到HDFS,跳转到第二步。1、将一个大数据集文件拆分成N个小数据集文件,对数据做好预处理工作,上传到HDFS。3、汇总N个小数据集文件的最佳划分,投票选出最佳划分。

2014-05-28 16:38:12 2533 1

原创 数据挖掘笔记-分类-决策树-MapReduce实现-1

看了一些mahout在处理决策树和随机森林的过程,大体过程是Job只有一个Mapper处理,在map方法里面做数据的转换收集工作,然后在cleanup方法里面去做决策树的创建过程。大体来说,mahout决策树的构建过程好像并没有结合分布式计算,因为我也并没有仔仔细细的去研读mahout里面的源码,所以可能是我没发现。最后生成的决策树并未保存在HDFS上面,后面有时间在考虑下吧。之前写的代码都是单机上跑的,发现现在很流行hadoop,所以又试着用hadoop mapreduce来处理下决策树的创建。

2014-05-28 16:13:57 4915 2

原创 数据挖掘笔记-分类-决策树-随机森林

同时每个抽取出来的数据集也不一定是包含所有特征属性,其含有的特征属性也是随机从总特征属性中随机抽取。顾名思义,是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的。在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类(对于分类算法),然后看看哪一类被选择最多,就预测这个样本为那一类,即选举投票。b. 在当前的很多数据集上,相对其他算法有着很大的优势,两个随机性的引入,使得随机森林具有很好的抗噪声能力。

2014-05-28 15:32:26 1930

原创 数据挖掘笔记-分类-决策树-SLIQ和SPRINT

所谓预排序,就是针对每个属性的取值,把所有的记录按照从小到大的顺序进行排序,以消除在决策树的每个结点对数据集进行的排序。在C4.5算法中,树的构造是按照深度优先策略完成的,需要对每个属性列表在每个结点处都进行一遍扫描,费时很多,为此,SLIQ采用广度优先策略构造决策树,即在决策树的每一层只需对每个属性列表扫描一次,就可以为当前决策树中每个叶子结点找到最优分裂标准。step1:建立类表和各个属性表,并且进行预先排序,即对每个连续属性的属性表进行独立的排序,以避免在每个节点上都要给连续属性值重新排序;

2014-05-28 14:51:52 7105 1

原创 数据挖掘笔记-分类-决策树-ID3和C4.5

在这种情况下,处理缺少属性值的通常做法是赋予该属性的常见值,或者属性均值。C4.5算法采用信息增益率作为选择分支属性的标准,并克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足,并能够完成对连续属性离散化是处理;构造决策树的关键步骤是分裂属性。2:用信息增益率(Information Gain Ratio)来选择属性 ,克服了用信息增益来选择属性时偏向选择值多的属性的不足。1:算法低效,在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效,尤其是在大量特征属性的数据集中。

2014-05-28 14:21:29 2594 6

多级层次行政区划相关的文件

行政区划相关文件,可以用于https://blog.csdn.net/fighting_one_piece/article/details/93361397这篇文章

2019-09-27

Sqoop-1.4.6 支持多分隔符

Sqoop的1.4.6版本修改部分代码,使--fields-terminated-by支持多分隔符

2017-12-16

企业数据架构及应用

企业数据架构的演发 数据仓库 数据总线及主数据 数据挖掘 数据处理参考架构回顼

2016-03-23

Spark快速数据处理

Spark快速数据处理 Spark Shell 快速开发原型 Spark RDD 交互多种方式 Spark SQL Spark 调优

2016-03-23

winutils.exe hadoop.dll

Hadoop在windows环境下开发所需要的winutils.exe hadoop.dll,所在位置为$HADOOP_HOME/bin

2014-10-18

数据挖掘:概念与技术(原书第3版).pdf

数据挖掘概念与技术(原书第3版).pdf 数据挖掘相关概念与技术

2014-04-10

jbpm4.4_ssh2.rar

jbpm 4.4 整合 struts2 spring hibernate 开发

2013-12-01

flash_builder_4_keygen.rar

flex 开发工具 flash_builder_4_keygen.rar

2013-12-01

hadoop-client-2.2.0.jar

hadoop-client-2.2.0.jar

2013-12-01

jsp分页技术jsp分页技术jsp分页技术jsp分页技术

jsp分页技术jsp分页技术jsp分页技术jsp分页技术jsp分页技术jsp分页技术jsp分页技术jsp分页技术

2010-09-23

java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949

java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949java版mysql管理器 4.10.25.949

2010-09-23

eclipse快捷键eclipse快捷键eclipse快捷键

eclipse快捷键eclipse快捷键eclipse快捷键eclipse快捷键eclipse快捷键eclipse快捷键

2010-09-23

[Effective.Enterprise.Java.中文版].Effective.Enterprise.Java.Chinese.eBook

[Effective.Enterprise.Java.中文版].Effective.Enterprise.Java.Chinese.eBook

2010-09-22

javascript王者归来

javascript王者归来,一本不错的书。。。。。。。。。。

2010-09-22

学习JAVA的视频网站资料

学习JAVA的视频网站资料,可以让你更加轻松的学习JAVA

2010-09-22

Android开发教程

Android开发教程,可以帮助你学习,成为你的助手

2010-09-22

JAVAJSP的聊天室Java源码

这里面是关于JAVAJSP的聊天室Java源码!相信对很多人是比较有用的!大家可以参考下!

2009-05-29

struts2的rar 下载

这是有关struts2的相关文档资料!希望对你的学习有所帮助!

2009-04-25

struts2v3.0

这是关于struts2的有关学习资料!希望可以对你有所帮助!

2009-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除