第1章 大数据挖掘及应用概论

《大数据挖掘及应用》学习笔记。

第1章 大数据挖掘及应用概论

在这里插入图片描述
数据挖掘是数据分析的提升。

1.1 大数据智能分析处理的普及和应用
1.1.1 云计算(cloud computing)
云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快捷提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

1.1.2 大数据(big data)
或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工或者计算机在合理的时间内达到截取、管理、处理并整理成为人类所能解读的形式的信息。

1.2 大数据的发展及挑战
1.2.1 大数据的发展催生三元空间世界
一元:物理空间
二元:社会空间
三元:数据空间

何为5V:
velocity—实时性
variety—多样性
value—价值大
veracity—真实性
volume—体量大

具体表现在数据量巨大、种类繁多、变化速度快、价值密度低(处理前)、对准时性要求高等方面。

1.2.2 大数据智能分析处理面临的挑战
-1. 系统平台方面

  • 大数据处理与硬件协同
  • 大数据集成
  • 大数据隐私
  • 大数据能耗
  • 大数据管理

-2. 分析处理方面

  • 大数据质量
  • 大数据实时性
  • 大数据采样
  • 大数据不一致性
  • 大数据超高维性
  • 大数据不确定性

1.3 数据挖掘概述
1.3.1 基本步骤:
前期准备:定义目标、获取数据、数据探索

  • 1.数据清理
  • 2.数据集成
  • 3.数据选择
  • 4.数据变换
  • 5.数据挖掘
  • 6.模式评估
  • 7.知识表示

1.3.2 数据挖掘的功能
数据挖掘分为描述性任务和预测性任务。
描述性任务:

  • 聚类:把数据对象划分成子集(分成差异明显的群组)。
  • 关联分析:找出数据中值的关联和相关性。
  • 数据总结:对数据进行浓缩,给出紧凑描述。
  • 偏差检测:寻找观测结果与参照值之间有意义的差别,对少数极端的分析对象进行描述和解释原因。

预测性任务:

  • 分类:提取刻画重要数据类的模型。
  • 预测:把握分析对象发展的规律,对未来的趋势做出预见。

1.3.3 数据挖掘运用的技术

  • 统计学
  • 机器学习
  • 数据库和数据仓库
  • 信息检索
  • 可视化

1.4 大数据挖掘的计算框架
1.4.1 大数据挖掘计算框架(主流架构和核心组件)
目前,在大数据处理领域形成了以Hadoop、Spark等为代表等大数据生态圈。
Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供存储,而MapReduce为海量的数据提供计算。Hadoop可以在相同的数据上同时运行不同类型的分析工作。

Spark提供的基于RDD的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、 Graph Processing等模型统一到一个平台上,以一致的API公开,并提供相同的部署方案,使得Spark的工程应用领域变得更加广泛。

MapReduce和Spark计算框架简单对比:
在这里插入图片描述

1.4.2 大数据挖掘处理基本流程
(数据挖掘过程与工具结合)
(1)数据采集:
接收来自客服端(Web、App或者传感器形式等)的数据,在采集端部署大量数据库才能支撑。代表工具:Flume、Kafka等。
(2)数据存储:
通过扩展和封装Hadoop来实现对互联网大数据存储、分析。代表工具:HDFS文件系统、Hbase列数据库等。
(3)ETL:
将来自前端的数据导入到一个集中到大型数据库,或者分布式存储集群,并且在此基础上做一些简单的清洗和预处理工作。代表工具:Sqoop、Data X等,可以满足不同平台的数据清洗、导入导出等需求。
(4)数据计算
利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等。代表工具:MapReduce分布式并行计算框架、Spark内存计算模型、Impala大数据交互查询分析框架等。
(5)数据分析与挖掘
在现有数据上面进行基于算法等计算,从而起到预测的效果,实现一些高级别数据分析的需求。代表工具:Mahout、MLlib等数据挖掘和机器学习工具。
(6)数据可视化
解读数据之间的关系,清晰有效地传达并且沟通数据信息。数据可视化已经融入到大数据分析处理的全过程中,形成了基于数据特点、面向数据处理过程、针对数据分析结果等多方面的大数据可是分析理论。代表工具或组件:D3.js、ECharts等。

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据与数据挖掘 作者:张婧 来源:《科教导刊·电子版》2016年第11期 摘 要 本文从大数据与数据挖掘的概念入手,阐述了大数据与数据挖掘的来源、方法及技术体 系。并从数据和使用工具方面比较了大数据与数据挖掘的异同,最后归纳总结了大数据 时代数据挖掘的发展趋势及重要意义。 关键词 大数据 数据挖掘 数据分析 中图分类号:TP391. 7 文献标识码:A 1引言 自2012年3月奥巴公布了美国《大数据研究和发展计划》以来,大数据如浪潮般席 卷着全世界,冲刷着地球的各个角落。从政府到商业科技、教育、医疗、经济、人文还 有社会的其他各个领域都无时不能看到大数据的影子。于是各个领域各个专家开始如火 如荼地讨论研究大数据的相关理论及技术。数据由数据挖掘时代过渡到大数据时代。 2数据挖掘 数据挖掘开始于上世纪70年代,经历了电子邮件时代、信息发布时代、电子商 务时代、全程电子商务时代,是指从海量的、不完整的、模糊的实际应用数据中提取隐 含在其中的人们事先不知道的但又可能有用的信息和知识的过程。通俗地讲,数据挖掘 就是利用各种分析方法和工具,对数据库中积累的大最繁杂的历史数据进行分析、归纳 与整合的工作,以发现数据内部的信息和关系的过程,提供企业管理层在进行决策时的 参考依据。 数据挖掘一般经历如图1所示:数据准备-数据挖掘- 知识发现与表示的三个过程。成熟的数据挖掘经典算法有决策树算法、聚类算法、神经 网络算法、遗传算法等。 3大数据 大数据是指数据量特别大、数据类别特别复杂的数据集,这些数据集无法用传 统的数据库进行存储,管理和处理,其具有Volume(数据量大),Velocity(数据处理 速度快)、Variety(数据具有多样性)和Value(数据价值密度低)的4V特点。大数据 是继云计算、物联网之后数据行业又一大颠覆性的技术革命。大数据时代的到来颠覆了 工业界、学术界对传统数据的认知,同时也引起了数据获取、存储、分析、挖掘以及可 视化等技术的变革。 根据大数据处理的生命周期,大数据的技术体系有大数据的采集与预处理、大 数据存储与管理、大数据计算模式与系统、大数据分析与挖掘大数据分析与挖掘、大 数据可视化分析及大数据隐私与安全等几个方面,如图2所示。 4大数据与数据挖掘的关系 大数据与数据挖掘既有不同之处,又可互相关联。 4.1 数据挖掘大数据的相同点 都有以海量数据为基础,通过某种或几种工具或算法,挖掘出供人们利用的知 识发现和规律,供人们使用,为人们服务。在挖掘知识表示及规律方面,它们用的方法 是大同小异的。 4.2大数据与数据挖掘的不同点 在数据方面:数据挖掘一般基于某个或几个数据库中的数据,数据规模相对较 小,基本以为MB处理单位;数据类型种类单一,往往是一种或少数几种,而且以结构化 数据为主;因为数据挖掘往往使用的是常规数据库,因此先有模式再有数据;数据仅作 为处理对象。而大数据数据规模很大,以GB,甚至TB、PB为基本处理单位;数据种类繁 多,而这些数据中又包含着结构化、半结构化以及非结构化的数据,而且占据着越来越 多的份额;大数据时代很多情况下很难预先确定模式,模式只有在数据出现之后才能确 定,且模式随着数据量的增长处于不断的演变之中;大数据时代的数据将作为一种资源 来辅助解决其他诸多领域的问题;而且大数据由于其数据量太大因此还要考虑存储数据 的问题。 在处理工具方面:数据挖掘一般应用一种工具或少数几种工具就可以处理得到 发现的知识并加以应用,也就是所谓的One size fits all;大数据时代不可能存在一种工具就能解决问题,得出有用的结论,即No size fits all。 5总结 总之,大数据时代的数据利用云存储已渐成一个趋势,数据挖掘是其关键的一 环,大数据的分析处理可以把海量数据分成几块利用数据挖掘技术进行挖掘,也可以将 数据挖掘技术加以整合,研发出更高效、更准确的平台或算法对大数据直接进行挖掘, 得出蕴含在海量数据中的规律或商机,如此才能让大数据真正切实地为人们服务。因此 数据挖掘大数据时代的数据分析和挖掘过程中具有重要的意义。 参考文献 [1] HU H,WEN Y G,CHUA T S,LI X L.Toward scalable system for big data analyties:a technology tutorial[J].IEEE Access,2014(2):652-687. [2] 冯登国,张敏.李昊大数据安全与隐私保护[J].计算机学报,2014. [3] 孟小峰.慈祥大数据管理:概念技术与挑战[J].计算机研究与发展,2013. ----------------------- 大数据与数据挖掘全文共4页,当前为第1页。 大数据与数据挖掘全文共4页,当前为第2页。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值