数据分析和数据挖掘概述

1.含义:

数据挖掘:指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。

数据分析:可分为广义的数据分析和狭义的数据分析。广义的数据分析就是包括狭义的数据分析和数据挖掘。而我们常说的数据分析指的是狭义的数据分析。它指根据分析目的,用适当的统计分析方法与工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。

2.区别:

(1)“数据分析”的重点是观察数据,而“数据挖掘”的重点是从数据中发现“知识规则”(KDD);

(2)“数据分析”得出的结论是人的智力活动结果,而“数据挖掘”得出的结论是机器从学习集(或训练集、样本集)发现的KDD,可以直接用于预测;

(3)“数据分析”不能建立数学模型,需要人工建模,而“数据挖掘”直接完成了数学建模,可通过机器学习自动建立输入与输出的函数关系,根据KDD得出的“规则”,给定一组输入参数,就可以得出一组输出量。

(4)“数据分析”主要采用对比分析、分组分析、交叉分析、回归分析等分析方法,通过得到的指标统计量结果,如总和、平均值等,而这些指标数据都需要与业务结合进行解读才能发挥出数据的价值和作用。而“数据挖掘”主要侧重解决分类、聚类、关联和预测四类问题,通过采用决策树、神经网络、关联规则、聚类分析、机器学习等方法进行挖掘,输出模型或规则并且可相应得到模型得分或标签。

3.联系:

从两者的理论来源来看,它们都来源于统计基础理论,因此它们的很多方法在很多情况下都是同根同源的。例如,概率论和随机事件是统计学的核心理论之一,统计分析中的抽样估计需要应用该理论,而数据挖掘技术的朴素贝叶斯分类就是这些统计理论的发展和延伸。

有的时候两者的一些方法还会出现混淆的情况,例如,主成分分析和回归分析。从严格意义上讲,这两种分析方法都属于数理统计分析方法,但在数据挖掘实战应用中也常常会用到这种方式,从这个角度讲,主成分分析和回归分析也是数据挖掘商业实战中常用的一种分析技术和数据处理技术。

4.工具:

数据分析:

  • Hadoop:能够对大量数据进行分布式处理的软件框架。它假设计算元素和存储会失败,会维护多个工作数据副本,以确保能够针对失败的节点重新分布处理,并且并行处理来加快处理速度,能够处理PB级数据。
  • Spark:在Hadoop的基础上进行了一些架构上的改良,采用内存来存储数据,可提供超过Hadoop100倍的运算速度。但由于内存断电后数据会丢失,因此不能处理需要长期保存的数据。
  • Storm:Twitter主推的分布式计算系统。在Hadoop的基础上提供了实时运算的特性,可实时地处理大数据流。但是它不进行数据的收集和存储工作,它是直接通过网络实时地接收数据并实时地处理数据,然后直接通过网络实时地传回结果。

数据挖掘:

  • SAS:S完全以统计理论为基础,功能强大,有完备的数据探索功能。但难以掌握,要求高级统计分析专业人员。
  • SPSS:一个开放式数据挖掘工具、资料探勘工具。不但支持整个数据挖掘流程,还支持数据挖掘的行业标准--CRISP-DM。相对于SAS易于掌握,要求有一定的统计分析基础。
  • MATLAB:主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将数值分析矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中。

5.过程

整个广义的数据分析过程包括:数据获取-->探索分析与可视化-->预处理-->分析建模-->模型评估

侵删

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值