北邮-大数据技术基础复习【概述】

大数据历史

  1. 大数据发展的基石 :goodle,2003-2006,三篇论文:GFS,MapReduce,BigTable。
  2. Hadoop之父Doug Cutting 参考了相关论文,目前开源领域最有影响力之一的Hadoop框架。

大数据带来的思维转变

全样而非抽样,效率而非精确,相关而非因果

大数据4V特征

Volume 大量,Value 价值密度,Velocity 快速,Variety 多样化

大数据的产生阶段

  1. 运营式系统阶段
    数据库管理
    数据由运营活动被动产生

  2. 用户原创内容
    数据爆发的标志:用户原创内容;时间:Web 2.0;
    主动产生数据。

  3. 感知式系统
    VR/AR
    数据第三次大飞跃导致大数据产生

科学研究四范式

经验(实验),理论,计算,数据探索型(第四范式)

大数据的计算模式

不同计算模式对实时性和吞吐量的要求不同

  • 批处理计算

大规模数据批量处理
MapReduce、Spark

  • 流计算

流式数据实时分析
Stream,Storm,Dstream,Flume

  • 图计算

大规模图结构数据的处理
Pregel

  • 查询分析计算

大规模数据存储管理和查询分析
Hive

大数据技术框架——6层结构

从下往上数据收集、数据存储、资源管理与服务协调、数据分析、数据可视化

数据收集
  • 数据源特点
    异构性、多样性、分布式、流式产生

  • 收集系统特点
    可靠性、可扩展性、安全性、低延迟
    可扩展性:适配不同数据源&接受大量数据不产生系统瓶颈
    可靠:数据传输过程中不能丢失
    安全:敏感数据不能泄密

  • 应用
    结构化数据:canal(增量收集),Sqoop(全量收集)
    非结构化数据:flume
    分布式队列(缓存、数据总线):kafka

数据存储
  • 特点
    容错性,可扩展性(数据量是增长的),支持多种数据模型(数据是异构的)

  • 应用
    列簇式:HDFS,HBase(建立在HDFS上的数据库)
    纯列式:Kudu

资源管理与服务协调

资源状态 != 任务状态
引入统一资源管理层的好处:
资源利用率高、运维成本低、资源共享

  • 资源利用率高
    负载均衡

  • 运维成本低
    一管多:一个管理员即可完成多个框架的统一管理

  • 数据共享
    减少数据移动带来的硬件和时间成本

  • 应用
    Zookeeper、Yarn

计算引擎

计算引擎类别VS大数据计算模式
根据对实时性(吞吐量/延迟)的不同要求,(按延迟要求从低到高)分为三类:批处理、交互式、实时处理

  • 批处理
    对响应速度要求最低,追求高吞吐率
    处理时间一般分钟到小时级别,甚至天级别
    应用:构建搜索引擎的索引、数据挖掘、机器学习
  • 交互式
    处理时间一般为秒级别,需要系统与人交互
    应用:数据查询、参数化报表生成、OLAP(联机分析处理Online Analytical Processing)
  • 实时处理
    对响应速度要求最高,处理时间要求在秒级以内
    应用:广告系统、舆情分析、信用卡欺诈检测
  • 应用
    批处理:MapReduce,Spark
    流计算:Spark Streaming,Storm
    图计算:Pregel
数据分析

直接跟用户应用程序对接

数据可视化

利用计算机图形学和图像处理技术
直接面向用户展示结果

GFS(对应的开源实现:HFS)

分布式文件系统,良好的容错性(尤其突出)、可扩展性、可用性。
良好的容错性使其扩展性强:使得文件系统可以构建在大量普通廉价的机器上,便于横向扩展。

BigTable(对应的开源实现:HBase)

构建在GFS上的数据库——本质:稀疏、分布式、持久化的多维度排序映射表

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 对于北邮-2021-软件工程-期末复习.rar,其实际内容应该包含了北邮软件工程课程的期末复习相关资料。这些资料可能包括了课堂讲义、考试重点、习题解答、历年试卷等内容,有助于帮助学生复习和准备考试。此外,该压缩文件可能也包含了一些软件工程方面的技术文献、著作或工具等资源,供学生自行查阅和学习。 软件工程是计算机科学的一个重要分支,旨在研究关于软件的开发、管理和维护等方面的最佳实践和方法。在学习软件工程的过程中,需要不断运用各种工具和技术,例如需求分析、设计模式、测试驱动开发、代码版本管理等。因此,掌握软件工程技能对于未来从事软件开发的工程师和研究者来说都是非常重要的。 总之,北邮-2021-软件工程-期末复习.rar是一个包含了软件工程课程复习相关资料的压缩文件,对于学习软件工程的同学们来说,它是一份宝贵的资源。在复习过程中,我们需要认真审核其中的内容,结合课堂实际情况,制定个人化的复习计划,不断加强基础知识的掌握,并结合实际应用,提高自己的软件开发能力。 ### 回答2: 北邮-2021-软件工程-期末复习.rar文件是北邮2021年软件工程课程的期末复习资料压缩包。其中包含了软件工程课程相关的学习资料和复习材料。在这个压缩包中,可能包括课件、PPT、习题和答案、教材、参考书籍、课程大纲等等。这些材料都是为了帮助学生进行软件工程课程的有效学习和备考复习所准备的。 该压缩包的目的是为学生提供一个集中、整理好的资源库,方便学生在期末复习阶段能够迅速找到所需资料。通过使用该压缩包,学生可以更加高效地进行软件工程知识的巩固和回顾,更好地理解和掌握课程中的关键概念和技术。 对于学生而言,打开这个压缩包后,可以根据自己的需要选择具体的学习材料进行查阅和使用。同时,也可以根据课程大纲或者考试的重点,有针对性地进行复习,并通过做习题巩固知识。 总之,北邮-2021-软件工程-期末复习.rar是一份为学生提供软件工程课程复习资料的压缩包,通过使用其中的学习资料,学生可以更加高效地进行软件工程知识的复习和巩固,为期末考试做好准备。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值