Hadoop day01(入门概念)

一、背景认识

      1.  数据是什么?

            数据是对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相关关系等进行记载的物理符号或者这些物理符号的组合,它是可识别的、抽象的符号。(不是狭义上的数据,可以是具有一定意义的文字、字母、数字符号的组合、图像、图形、视频、音频等。

       2. 数据如何产生?

         对客观事物的计量和记录产生数据

      3. 企业数据分析方向

        把隐藏在数据背后的信息集中和提炼出来,总结处所研究对象的内在规律,帮助管理者进行有效的判断和决策。

         数据分析在企业日常经营分析中主要有三大方向:

               现状分析--------原因分析---------预测分析

               现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动;

                原因分析(分析过去的数据):某一现状为什么发生,确定原因,做出调整优化

                    1)离线分析:面向历史,分析已有数据;在时间维度明显成批次性变化。一周一分析(T+7),一天一分析(T+1),所以也叫做批处理。

                    2)实时分析(也叫流式处理):面向当下,分析师是产生的数据;所谓的实时是指从数据产生到数据分析到数据应用的时间间隔很短,可细分秒级、毫秒级。

                    3)机器学习:基于历史数据和当下产生的实时数据预测未来发生的事情;侧重与数学算的运用,如分类、聚类、关联、预测。

                预测分析(结合数据预测未来):结合已有数据预测未来发展趋势。

二、数据分析的基本步骤

概述:数据分析步骤重要性:对如何开展数据分析提供了强有力的逻辑支撑。

          数据分析六部曲(张文霖):

          明确分析目的和思路---数据采集----数据处理----数据分析----数据展现---报告编撰

      1、名确分析目的和思路

         目的是整个分析流程的七点,为数据的收集、处理及分析提供清晰的指引方向;

         思路是使分析框架体系化,比如先分析什么,后分析什么,使个分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;

          数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法(p:政治,s:学术,e:教育,t:科技)、5W2H分析法等。

       2、数据采集

          数据从无到有的过程:传感器收集气象数据、埋点收集用户行为数据

          数据传输搬运过程:采集数据库数据到数据分析平台

         业务数据(RDBMS关系型数据库管理系统)--日志数据服务器、应用日志--爬虫数据(爬虫数据库)--互联网公开数据(行业、政府网站)

       3、数据处理(数据预处理)

          数据预处理需要对收集到的数据进行加工整理,形成合适数据分析的样式,主要包括数据清洗、数据转化、数据提取、数据计算

          数据预处理可以保证数据的一致性和有效性干净规整的结构化数据(当下企业中用于数据分析的数据是侧重于文本数据多一些,干净规整的结构化数据:二维表的数据,行列对应,格式清晰,利于解读的数据。         

      4、数据分析

          用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;

          需要掌握各种数据分析方法,还要熟悉数据分析软件的操作。    

      5、数据展现

         数据展现又称为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;

         数据可视化属于数据应用的一种;

         注意:数据分析的结果不只有可视化展示,黑可以继续数据挖掘、即席查询等。

三:大数据时代

   最早提出”大数据时代“是全球知名咨询公司麦肯锡,

   2019年央视推出国内首部大数据产业题材记录片《大数据时代》,讲述了大数据技术在政府治理、民生服务、数据安全、工业转型、未来生活等方面给我们带来的改变和影响。

概念:指无法在一定时间范围内常用规范软件工具捕捉、管理和处理的数据集合。需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。   

特征(五个)

      数据体量大(volume)、种类、来源多样化(variety)、低价值密度(value)、速度快(velocity)、数据的质量(veracity)

       volume:采集数据量大、存储数据量大、计算数据量大、TB、PB级别起步

       variety:种类:结构化、非结构化、半结构化。来源:日志文本、如片、音频、视频

       value:海量信息但价值密度低、深度复杂的挖掘分析需要机器学习参与

       velocity:数据增长速度快、获取数据速度快、数据处理速度快

       veracity:数据的准确性、数据的可依赖度

四、分布式和集群

分布式:多台机器且每台机器上部署不同组件

集群:多台机器且每台机器上部署相同组件  

 应用:

如何存储:多台机器分布式存储(单机存储有瓶颈)

如何计算:多台机器分布式计算(单机计算能力有限)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值