数据挖掘(一):一点看法

  这两周开始学习数据挖掘了。看了一周的《数据挖掘:概念与技术》(作者:韩家炜 ),总算有所心得。 在此写写自己的感想。

  首先,对数据挖掘的理解。看完书以后,我认为应该有两个部分,一部分是从一组无序数据中,如何整理出数据之间的关系。另一部分则是,已经数据之间的关系,如何分析表达。

  对于,数据之间的关挖掘。可能跟我目前的关系不是很大。尽管我看的这本书,大部分的内容是讲如果从一组无序的数据中,找到数据之间的关系的。还是先回顾一下吧,从一组元序的数据中,找出数据之间的关系,第一步是数据的预处理。即数据清理、数据集成和变换、数据归约。第二步,数据泛化。可用的方法有 数据方(OLAP)和面向属性归纳法。最终整理出一些有意义的属性。第三步,数据关联分析。就如从购物栏中找到顾客买电脑和买软件关系一样,分析出各种属性之间的关系。到这里,介绍Apriori算法,以及统计学的相关性验证。第四步,分类和预测。对得到的相关性进一步分类,做性线回归分析、多元回归分析等。分类方法比较多:判定树归纳分类法、贝叶斯分类、后向传播分类、基于关联规则的分类等等。第五步,聚类分析。(这个比较复杂,还没看懂。-_-')

  对于已知关系的之间的数据分析,相对比较简单,主要讲究的是分析方法,即OLAP(online analyse process)。面对多元数据型,其模型有,星形、雪花和事实星座等三种。对于具体的概念,是有一定的层次结构的.由此,在多维数据模型上,一般就有上卷(上钻)、下卷(下钻)、切片和切块、转轴等分析方法。

  对于数据挖掘,跟公司中,做过BI的同事聊了一下。基本上是使用以在多维数据模型上,使用上卷(上钻)、下卷(下钻)、切片和切块、转轴等分析方法。现在的基本观点是,做BI,一般来讲,只要能达到用一些开源的工具,把客户要求的那些指标,适当的表现出来就可以了。因此,现在的关注点应该是上网学些学源的BI工程为主。

下面列出相对成熟和完整,并且有借鉴意义的开源BI套件
  (1)Bizgres
  为GreenPlum公司主导的开源项目,和Sun公司达成合作关系。BizgresBI应用而对PostgreSQL做了优化,提高了大负荷的并行计算能力,在BI环境中,相对于普通的关系型数据库具有卓越的数据处理性能。Bizgres的数据库平台可以和KETLJasperReports进行整合,从而形成一个BI套件。

(2)Openi
  是一个Java开发的Web应用,能对OLAP服务器、关系数据库和数据挖掘服务器进行分析和报表展示,非常易于使用和部署,界面美观友好,后续还将支持数据挖掘和ETL等。

(3)Pentaho
  是一个以工作流为核心的、强调面向解决方案而非工具组件的BI套件,整合了多个开源项目,目标是和商业BI相抗衡。它包括。由上可见Pentaho是一个很完善的BI解决方案。Pentaho偏向于与业务流程相结合的BI解决方案,侧重于大中型企业应用。

(4)SpagoBI
  SpagoBI 集成了MondrainJProvit,能够通过OpenLaszlo产生实时报表。SpagoBI使用java开发,不依赖于具体的操作系统,有很强的扩展能力。根据其Roadmap可以看出,SpagoBI将融入更多的BI功能,甚至BI之外的功能。

(4)、servicemix

servicemix是一个ESB(Enterprise Service Bus) ,Apache公司做的开源项目。但是里面集成了一个BI通道。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值