大数据概述

大数据概述

什么是大数据

    对于“大数据”(Big data)研究机构Gartner给出了定义,“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

    从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘,但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

    大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

    最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它们按照进率1024(2的十次方)来计算。

大数据产生的背景

基于海量的存储与处理面临挑战:

    1.数据量大,数据种类多。
    2.海量数据的高存储成本,大数据两下数据处理性能不足,流式数据处理缺失。
    3.优先的扩展能力,单一数据源。
    4.数据资产对外增值。

起源

    2008年9月,美国《自然》杂志,正式提出“大数据”概念

    2011年2月1日,美国《科学》杂志,通过社会调查的方式,第一次分析了大数据对人们生活的影响

    2011年5月,麦肯锡研究院分布报告。大数据是指其大小超出了常规数据库工具获取,存储,管理和分析能力的数据集。

数据类型

    1.结构化数据:

        是指可以存储在数据库里,可以用二维表结果来逻辑表达实现的数据。

    2.非结构化数据:

        不方便用二维表结果来逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像、音频、视频信息等等。

    3.半结构化数据:

        介于结构化数据和非结构化数据之间的数据。HTML文档就属于半结构数据。

    分析当代的数据集合,由25%的结构化数据和75%的非结构化和半结构数据构成。

大数据的特征(4V)

    一、数据体量巨大(Volume)。
    二、数据类型繁多(Variety)。
    三、价值密度低(Value)。
    四、处理速度快(Velocity)。

大数据带来的挑战

    1.传统网络架构不适用大数据时代。

    从垂直访问到水平访问。

    传统网络架构对南北向的网络流量需求支持良好,但不适应大数据映月宫对东西流量的需求。为了满足对东西流量的传输需求,要对传统网络架构进行重构。

    2.数据中心将面临巨大挑战。

    同时访问子系统压力大。

    传统数据中心,计算、存储等各个子系统相对独立。用于大数据处理的数据中心,需要更高的资源利用率、自动化,需要使用虚拟化、云计算等技术对这些子系统进行整合和拉通。在重构过程中,增加了技术上的复杂性,给规划、建设、运维带来的压力和新的挑战。

    3.数据仓库架构不适用高速反应的要求。

    非结构化数据无法处理。

    传统数据仓库对各类结构化关系型数据库支持良好,但不适应非结构化数据和半结构数据在数据处理上的需求。无法高效、迅速处理非结构化和半结构化的数据。同时,在存储非结构和半结构化数据的原始数据上,数据仓库也面临挑战。

大数据与云计算之间的关系

  • 大数据是需求,云计算是解决之道。
  • 云计算是平台,大数据是应用。

    云计算之于大数据,云计算是底层平台,大数据是应用。云计算作为底层平台整合计算、存储和网络等资源,同时提供基础脚骨资源弹性伸缩的能力。大数据在云计算平台的支撑下,调度下层资源,进行数据源加载,计算和最终结果输出等动作。

大数据趋势

    趋势一:数据的资源化

    何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。

    趋势二:与云计算的深度结合

    大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。

    趋势三:科学理论的突破

    随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。

    趋势四:数据科学和数据联盟的成立

    未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。

    趋势五:数据泄露泛滥

    未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。

    趋势六:数据管理成为核心竞争力

    数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。

    趋势七:数据质量是BI(商业智能)成功的关键

    采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是,很多数据源会带来大量低质量数据。想要成功,企业需要理解原始数据与数据分析之间的差距,从而消除低质量数据并通过BI获得更佳决策。

    趋势八:数据生态系统复合化程度加强

    大数据的世界不只是一个单一的、巨大的计算机网络,而是一个由大量活动构件与多元参与者元素所构成的生态系统,终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今,这样一套数据生态系统的基本雏形已然形成,接下来的发展将趋向于系统内部角色的细分,也就是市场的细分;系统机制的调整,也就是商业模式的创新;系统结构的调整,也就是竞争环境的调整等等,从而使得数据生态系统复合化程度逐渐增强。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值