大数据 Big Data 学习笔记 大数据框架

一、Big Data名字由来

  • 20世纪九十年代,数据仓库之父Bill lnmon就经常提及Big Data。
  • 2011年5月,在“云计算相遇大数据”为主题的会议中抛出了Big Data的概念,重点是如何管理PB级数据量,通过分析挖掘这些数据的价值,确保及时向相关人员提供信息。

二、Big Data定义

1.定义

  • 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据结合。
  • 通俗来讲,就是数据存储,数据管理,数据计算与数据分析。

2.本质

  • 物理世界在数字世界的映像。

3.目标

  • 更多维度的数据,挖掘事务背后的因果关系。

三、大数据的四个微特征

1.数据量巨大 (Volume)

  • 集中存储/集中计算已经无法处理巨大的数据量

2.种类和来源多样化 (Variety)

  • 日志/图片/视频/文档/地理位置…

3.分析处理速度快(Velocity)

  • 海量数据的及时有效分析。

4.价值密度低,商业价值高(Value)

  • 大量的不相关信息进行复杂深度分析,深挖价值。

四、大数据的结构特征

1.结构化数据

例如关系型数据库中的二维表。这类数据最容易处理。

2.半结构化数据

例如HTML。

3.非结构化数据

例如视频、语音等。这类数据最多,但是最不容易处理。

五、数据处理技术分布式演进趋势

在这里插入图片描述

六、Hadoop大数据处理平台

  • Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

七、华为大数据解决方案(Fusion Insight)

在这里插入图片描述

  • Fusion Insight Miner:数据分析、数据挖掘
  • Fusion Insight HD:数据存储和数据计算
  • Fusion Insight Farmer:应用级的开发容器
  • Fusion Insight LibrA:数据存储(数据库)
    在这里插入图片描述

八、电信级可靠性

1. 系统可靠性

  • 业务无单点
    • 组件采用主备,负荷分担方式实现服务无单点故障
  • 管理节点HA
    • OMS节点及所有街舞组件中心管理节点实现HA
    • HA就是高可用
  • 跨DC容灾/备份
    • HBase集群通过HLOG准实时复制,HDFS/Hive集群通过Backup Admin异步复制实现跨数据中心灾备
    • 备份是数据,容灾是业务
  • 第三方备份系统集成
    • 数据可以灵活的备份在外部系统如NAS、磁带库,只是和NBU等备份软件集成

2. 数据可靠性

  • OS层可靠性加固:
    • RAID/OS写缓存保护实现掉电数据保护。
  • Raid策略:
    • OS,OMS,NameNode,ZK及HDFS数据节点采用不同硬盘分区及Raid策略,兼顾性能情况下保证数据可靠性。
  • 快速故障检测:
    • 结合华为存储产品经验,尽快发现故障硬盘,降低MTTR,提高数据可靠性。
  • 硬盘热插拔:
    • 支持在线集群硬盘更换不影响业务,降低MTTR。
  • 第三方备份系统集成:
    • 数据可以灵活的备份在外部系统如NAS、磁带库,只是和NBU等备份软件集成。
  • 跨数据中心数据备份:
    • HBase 集群通过HLOG准实时复制,HDFS/Hive集群通过BackupAdmin异步复制实现跨数据中心备灾。
  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

张景_

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值