北邮-大数据技术基础复习【概述】

大数据历史

  1. 大数据发展的基石 :goodle,2003-2006,三篇论文:GFS,MapReduce,BigTable。
  2. Hadoop之父Doug Cutting 参考了相关论文,目前开源领域最有影响力之一的Hadoop框架。

大数据带来的思维转变

全样而非抽样,效率而非精确,相关而非因果

大数据4V特征

Volume 大量,Value 价值密度,Velocity 快速,Variety 多样化

大数据的产生阶段

  1. 运营式系统阶段
    数据库管理
    数据由运营活动被动产生

  2. 用户原创内容
    数据爆发的标志:用户原创内容;时间:Web 2.0;
    主动产生数据。

  3. 感知式系统
    VR/AR
    数据第三次大飞跃导致大数据产生

科学研究四范式

经验(实验),理论,计算,数据探索型(第四范式)

大数据的计算模式

不同计算模式对实时性和吞吐量的要求不同

  • 批处理计算

大规模数据批量处理
MapReduce、Spark

  • 流计算

流式数据实时分析
Stream,Storm,Dstream,Flume

  • 图计算

大规模图结构数据的处理
Pregel

  • 查询分析计算

大规模数据存储管理和查询分析
Hive

大数据技术框架——6层结构

从下往上数据收集、数据存储、资源管理与服务协调、数据分析、数据可视化

数据收集
  • 数据源特点
    异构性、多样性、分布式、流式产生

  • 收集系统特点
    可靠性、可扩展性、安全性、低延迟
    可扩展性:适配不同数据源&接受大量数据不产生系统瓶颈
    可靠:数据传输过程中不能丢失
    安全:敏感数据不能泄密

  • 应用
    结构化数据:canal(增量收集),Sqoop(全量收集)
    非结构化数据:flume
    分布式队列(缓存、数据总线):kafka

数据存储
  • 特点
    容错性,可扩展性(数据量是增长的),支持多种数据模型(数据是异构的)

  • 应用
    列簇式:HDFS,HBase(建立在HDFS上的数据库)
    纯列式:Kudu

资源管理与服务协调

资源状态 != 任务状态
引入统一资源管理层的好处:
资源利用率高、运维成本低、资源共享

  • 资源利用率高
    负载均衡

  • 运维成本低
    一管多:一个管理员即可完成多个框架的统一管理

  • 数据共享
    减少数据移动带来的硬件和时间成本

  • 应用
    Zookeeper、Yarn

计算引擎

计算引擎类别VS大数据计算模式
根据对实时性(吞吐量/延迟)的不同要求,(按延迟要求从低到高)分为三类:批处理、交互式、实时处理

  • 批处理
    对响应速度要求最低,追求高吞吐率
    处理时间一般分钟到小时级别,甚至天级别
    应用:构建搜索引擎的索引、数据挖掘、机器学习
  • 交互式
    处理时间一般为秒级别,需要系统与人交互
    应用:数据查询、参数化报表生成、OLAP(联机分析处理Online Analytical Processing)
  • 实时处理
    对响应速度要求最高,处理时间要求在秒级以内
    应用:广告系统、舆情分析、信用卡欺诈检测
  • 应用
    批处理:MapReduce,Spark
    流计算:Spark Streaming,Storm
    图计算:Pregel
数据分析

直接跟用户应用程序对接

数据可视化

利用计算机图形学和图像处理技术
直接面向用户展示结果

GFS(对应的开源实现:HFS)

分布式文件系统,良好的容错性(尤其突出)、可扩展性、可用性。
良好的容错性使其扩展性强:使得文件系统可以构建在大量普通廉价的机器上,便于横向扩展。

BigTable(对应的开源实现:HBase)

构建在GFS上的数据库——本质:稀疏、分布式、持久化的多维度排序映射表

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值