数据挖掘（一）：一点看法

最新推荐文章于 2022-05-10 15:07:07 发布

陀罗犬穆

最新推荐文章于 2022-05-10 15:07:07 发布

阅读量1.9k

点赞数

文章标签：数据挖掘 bi postgresql greenplum 数据库企业应用

本文链接：https://blog.csdn.net/wurenhai/article/details/1954187

版权

　　这两周开始学习数据挖掘了。看了一周的《数据挖掘：概念与技术》（作者：韩家炜），总算有所心得。在此写写自己的感想。

　　首先，对数据挖掘的理解。看完书以后，我认为应该有两个部分，一部分是从一组无序数据中，如何整理出数据之间的关系。另一部分则是，已经数据之间的关系，如何分析表达。

　　对于，数据之间的关挖掘。可能跟我目前的关系不是很大。尽管我看的这本书，大部分的内容是讲如果从一组无序的数据中，找到数据之间的关系的。还是先回顾一下吧，从一组元序的数据中，找出数据之间的关系，第一步是数据的预处理。即数据清理、数据集成和变换、数据归约。第二步，数据泛化。可用的方法有　数据方（ＯＬＡＰ）和面向属性归纳法。最终整理出一些有意义的属性。第三步，数据关联分析。就如从购物栏中找到顾客买电脑和买软件关系一样，分析出各种属性之间的关系。到这里，介绍Apriori算法，以及统计学的相关性验证。第四步，分类和预测。对得到的相关性进一步分类，做性线回归分析、多元回归分析等。分类方法比较多：判定树归纳分类法、贝叶斯分类、后向传播分类、基于关联规则的分类等等。第五步，聚类分析。（这个比较复杂，还没看懂。-_-')

　　对于已知关系的之间的数据分析，相对比较简单，主要讲究的是分析方法，即ＯＬＡＰ（online analyse process)。面对多元数据型，其模型有，星形、雪花和事实星座等三种。对于具体的概念，是有一定的层次结构的．由此，在多维数据模型上，一般就有上卷（上钻）、下卷（下钻）、切片和切块、转轴等分析方法。

　　对于数据挖掘，跟公司中，做过ＢＩ的同事聊了一下。基本上是使用以在多维数据模型上，使用上卷（上钻）、下卷（下钻）、切片和切块、转轴等分析方法。现在的基本观点是，做ＢＩ，一般来讲，只要能达到用一些开源的工具，把客户要求的那些指标，适当的表现出来就可以了。因此，现在的关注点应该是上网学些学源的ＢＩ工程为主。

下面列出相对成熟和完整，并且有借鉴意义的开源BI套件。
　　(1)、Bizgres
　　为GreenPlum公司主导的开源项目，和Sun公司达成合作关系。Bizgres为BI应用而对PostgreSQL做了优化，提高了大负荷的并行计算能力，在BI环境中，相对于普通的关系型数据库具有卓越的数据处理性能。Bizgres的数据库平台可以和KETL和JasperReports进行整合，从而形成一个BI套件。

(2)、Openi
　　是一个Java开发的Web应用，能对OLAP服务器、关系数据库和数据挖掘服务器进行分析和报表展示，非常易于使用和部署，界面美观友好，后续还将支持数据挖掘和ETL等。

(3)、Pentaho
　　是一个以工作流为核心的、强调面向解决方案而非工具组件的BI套件，整合了多个开源项目，目标是和商业BI相抗衡。它包括。由上可见Pentaho是一个很完善的BI解决方案。Pentaho偏向于与业务流程相结合的BI解决方案，侧重于大中型企业应用。

(4)、SpagoBI
　　SpagoBI 集成了Mondrain和JProvit，能够通过OpenLaszlo产生实时报表。SpagoBI使用java开发，不依赖于具体的操作系统，有很强的扩展能力。根据其Roadmap可以看出，SpagoBI将融入更多的BI功能，甚至BI之外的功能。

（４）、servicemix

servicemix是一个ＥＳＢ(Enterprise Service Bus) ，Apache公司做的开源项目。但是里面集成了一个ＢＩ通道。

陀罗犬穆

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘（一）：一点看法

　　这两周开始学习数据挖掘了。看了一周的《数据挖掘：概念与技术》（作者：韩家炜），总算有所心得。在此写写自己的感想。　　首先，对数据挖掘的理解。看完书以后，我认为应该有两个部分，一部分是从一组无序数据中，如何整理出数据之间的关系。另一部分则是，已经数据之间的关系，如何分析表达。　　对于，数据之间的关挖掘。可能跟我目前的关系不是很大。尽管我看的这本书，大部分的内容是讲如果从一组无序的数据
复制链接

扫一扫