DM入门知识

数据与知识的关系:
客观世界->(收集)->数据->(分析)->信息->(深入分析)->知识

数据仓库(data warehousing)用于解决海量数据、多数据源的数据格式的不相容,它讲整个机构的数据以统一形式集成存储在一起,它不同于数据库,它是针对特定主题的集成的、时变的数据,这些数据一旦存入就不在变化

OLAP(online analytical processing在线事物处理)建立在用户对深藏在数据中的知识有某种感知的前提下,是用户指导的信息分析和知识发现,它不能分析出深藏在海量数据中国的不为用户认识感知的有用信息和知识。

所以应该存在某种工具,这种工具不在基于用户假设,而是其自身能生成假设,再用数据仓库中的海量数据进行检验和验证,最终返回有价值的检验结果

数据挖掘用于解决“数据丰富,知识贫乏”的现象,它的发展得益于全球的海量数据资源和将这些数据资源转换为信息和知识的巨大需求

数据挖掘 = 数据库中知识发现(knowledge discovery from database)

“数据坟墓”,数据很少用于决策

步骤:数据清洗 数据集成 数据转换 数据挖掘 模式评估 知识表示
组成:数据库、数据仓库等信息库 数据库或数据仓库服务器 知识库 数据挖掘引擎 模式评估模块  可视化用户界面

数据挖掘处理的是海量数据,其挖掘算法应该是高效的和可扩展的,一些所谓的数据挖掘工具实际上只能算是基于统计的数据分析工具,或者机器学习工具


与机器学习的区别:DM用于提取知识的数据是现实世界存在的,而ML使用的数据是专门为ML特别准备的,这些数据也许在现实世界中并无用处

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值