云计算与大数据

第五章
数据概念和分类
数据概念和分类
数据分析是指收集,处理数据并获取数据隐含信息的过程。大数据具有数据量大,数据结构复杂,数据产生速度都快,数据价值密度低的特点,增加了对大数据进行有效分析的难度,大数据分析成为了当前探索大数据发展的核心内容。
数据分析主要包括:
推测或解释数据并确定如何使用数据;
检测数据是否合法;
给决策设定合理的建议;
诊断或推测错误的原因;
预测未来将要发生的事情;
数据分析的类型
根据数据分析深度,可将数据分析分为丧鹅层次,描述性分析,预测性分析和规则性分析
在数据统计=学中,数据分析可划为描述性统计分析,探索性数据分析及实验性统计分析三种类型。
在人类探索自然的过程中,通常将数据分析的方法分为定性数据分析和定量数据分析两打类。
数据分析的实时性,一般将数据分析分为实时数据分析和离线数据分析
数据分析的方法
数据分析的方法概述:数据分析是指数据收集、处理并获取数据信息的过程。通过数据分析,人们可以从杂乱无章的数据当中获取有用的信息,从而找出研究对象的内在规律。

数据来源:数据作为第四次工业革命的战略资源,全球各国都在大力发展数据基础信息平台的建设,用以改善数据的采集、存储、传输及管理的效率,从而提升信息服务水平。

数据分析活动步骤:大数据分析包括五个阶段,T)数据获取及储存2) 数据信息抽取及无用信息的清洗3)数据整合及表示4)数据模型的建立和结果分析5)结果阐释

分析数据:在完成对数据的处理之后,最重要的就是根据既定目标需求对处理结果进行分析。目前,主要依靠四项技术:统计分析、数据挖掘、机器学习和可视化分析。
数据分析的三种体系
面向数据视角:面向数据视角的大数据分析方法主要是以大数据分析处理的对象”数据”为依据,从数据本身的类型、数据量、数据处理方式以及数据能够解决的具体问题等方面对大数据分析方法进行分类。

面向流程视角:面向流程视角的大数据分析方法主要关注大数据分析的步骤和阶段。一般而言,大数据分析是一个多阶段的任务循环执行过程。

面向信息技术视角:面向信息技术视角的大数据分析方法强调大数据本身涉及到的新型信息技术,从大数据的处理架构、大数据系统和大数据计算模式等方面来探讨具体的大数据分析方法。
数据的来源
1巨量的各类机器产生的数据
2人为产生的大量的数据‘=
3企业数据
数据的分析方法
由于大数据复杂的多变的特殊属性,不同的学者对大数据分析的方法的看法各异。总结起来,包括三种体系,分别是面向数据视角,面向流程视角和面向信息视角的分析方法。
1数据获取和储存
2数据抽取及无用的信息的清洗
3数据整合
4数据模型的建立
5结果阐述
4大必要活动步骤
(1)识别目标的需求
首先必须明确数据分析的目标需求,从而为数据的收集和分析提供清晰的方向,该步骤是是数据分析有效的首要条件。
(2)采集数据
数据采集就是运用合适的方法来有效收集尽可能多的相关数据,从而为数据分析的过程中顺利的打下基础。常用的数据采集的方法包括:系统日志采集方法,这是目前广泛的使用的一种数据采集的方法。
(3)数据预处理
对数据进行必要的预处理,常用的是数据预处理的方法包括:数据集成,数据清洗,数据冗余。
(4)数据挖掘
数据挖掘的目的是在现有的数据的基础之上利用各类有效的算法挖掘出数据隐含的有机质信息,从而达到分析推理和预测的效果,实现预定的高层次的数据分析需求。

统计分析:统计分析基于统计理论,属于应用数学的一个分支。在统计理论中,随机性和不确定性由概率理论建模。统计分析分析技术可以分为描述性统计和推断性统计。

数据挖掘:数据挖掘可以认为是发现大数据集中数据模式的一种计算过程。许多数据挖掘算法已经在机器学习、人工智能、模式识别、统计和数据库领域得到了应用。

机器学习:机器学习算法从数据中自动分析获得规律,并利用规律对未知数据进行预测。高性能的以机器学习算法为核心的数据分析,为实际业务提供服务和指导,进而实现数据的最终变

可视化分析:可视化分析与信息绘图学和信息可视化相关。数据可视化的目标是以图形方式清晰有效地展示信息,从而便于解释数据之间的特征和属性情况。
数据挖掘
数据挖掘的基本概念
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。
陈述问题 数据收集 进行预处理 挖掘数据 解释模型得出结论

数据挖掘是创建数据挖掘模型的一-组试探法和计算方法,通过对提供的数据进行分析,查找特定类型的模式和趋势,最终形成创建模型。
分类一-种重要的数据分析形式,根据重要数据类的特征向量值及其他约束条件,构造分类函数或分类模型,目的是根据数据集的特点把未知类别的样本映射到给定类别中。
朴素贝叶斯算法支 持向量机SVM算法AdaBoost算法C4.5算法CART算
聚类目的在于将数据集内具有相似特征属性的数据聚集在一起,同-一个数据群中的数据特征要尽可能相似,不同的数据群中的数据特征要有明显的区别。
BIRCH算法K-Means算法期望最大化算法(EM算 法)K近邻算法
关联规则索系统中的所有数据,找出所有能把-组事件或数据项与另-组事件或数据项联系起来的规则,以获得预先未知的和被隐藏的,不能通过数据库的逻辑操作或统计的方法得出的信息。
Apriori算法FP-Growth算法
大数据挖掘工具如此复杂和庞大的数据集面前,传统的数据挖掘分析工具已经不能胜任大数据的挖掘分析。针对大数据庞大的规模以及复杂的结构,目前业界已开发了众多的大数据挖掘分析工具。
HadoopMahoutSpark ML libApache
数据挖掘的常用算法
分类 聚类 回归分析 关联规则 特征分析 web页挖掘 神经网络等智能算法
分类
分类就是通过学习得到一一个目标函数,根据目标数据的不同特点按照分类模式将其划分为不同的类别,其作用是通过分类模型,将目标数据映射到某个特定的类别。
聚类
聚类分析是把一-组数据按照差异性和相似性分。为几个类别,使得属于同类的数据之间相似性尽可能大,不同类之间的相似性尽可能小,跨类的数据关联性尽可能低。
回归分析
回归分析是确定两种或两种以.量相互之间依赖性关系的一种统计分析方法,用以分析数据的内在规律,常用于数值预报、系统控制等|问题。
关联分析
关联分析最主要的目的就是找出隐藏在数据之间的相互关系和关联性,即可以根据一个数据项的出现推导出其他相关数据项的出现。
Web网页挖掘
Web网页挖掘涉及Web技术、计算机语言、信息学等多个领域,是一个综合性过程。
特征分析 特征分析是指从数据库中的一-组数据中提取出关于这些数据的特征式,这些特征式即为此数据集的总体特征。
人工神经网络
人工神经网络是一种模拟大脑神经突触联接结构来进行信息处理的数学模型,具有强大的自主学习能力和联想存储功能并具有高度容错性,非常适合处理非线性数据以及具有模糊性、不完整冗余性特征的数据。
Hadoop是-种能够对大数据进行并行分布式处理的计算框架,以一种可靠、可伸缩、高效的方式对海量数据进行处理。
Hadoop实现了一个分布式文件系统(Hadoop Distributed FileSystem),简称HDFS。HDFS具 有高容错性的特点,并且设计用来部署在低廉硬件.上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
Mahout
Mahout的主要数据目标集是大规模数据,因此Mahout能够建立运行在Apache Hadoop平台上的可伸缩的机器学习算法,这些算法通过
Mapreduce模式实现,但并不局限于Hadoop平台。
Spark MLlib
ML lib是构建在Apache Spark.上的-一个可扩展的分布式机器学习库,充分利用了Spark的内存计算和适合迭代型计算的优势,将性能大幅度提升。MLIib支 持的分类算法主要有:朴素贝叶斯、逻辑回归、决策树和支持向量
机.MLlib支持的回归算法主要有: Lasso、 线性回归、决策树和岭回归。聚类算法属于非监督式学习,MLlib目 前支持广泛使用的Kmeans算法。ML lib也支持基于模型的协同过滤,其中用户和商品通过一小组隐语义因子进行表达,并且这些因子也用于预测缺失元素。
Storm
Storm是一个开源的、分布式的具有高容错性的实时计算系统。Storm能够十分可靠地处理庞大的数据流,能够用来处理Hadoop的批量数据。Storm应用领域广泛,包括:在线机器学习、实时分析、分布式RPC (远过程调用)、持续计算、ETL等等。Storm的处理速度非常迅速,每个节点每秒可以处理上百万个数据元组,Storm支持多种语言编程,具有容错性高、可扩展、易于设置和操作的特点。
Apache
Apache Ditl在基于SQL的数据分析和商业智能(BI). 上引入了 JSO(JavaScript Object Notation, JS对象标记)文件模型,使得用户能查询固定架构、演化架构以及各种格式和数据存储中的模式(columnar -free)无关数据。
RapidMiner是德国多特蒙德工业大学于2007年推出的世界领先的数据挖掘工具,能够完成的数据挖掘任务涉及范围广泛,并且能够简化数据挖掘过程的设计积评价Miner
数据挖掘的应用
利用贝叶斯网络进行分析病情
k-均值聚类
衣均值聚类常用来对异常对象进行检测,如垃圾信息、欺诈性行为等。K均值算法通过对数据集的聚类分析,找出数据集合中远离集聚簇的那些稀疏数据,再通过相应的处理方法作进一步处理,能够有效清洗不干净的数据,剔除恶意用户。
关联规则
关联规则常用于发现事物之间的相关关系,通过一种属性的出现来推断很可能出现的其他属性,能够起到一种预测作用。通过发现这种关联关系能够指导用户合理安排事物处理规则。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值