大数据与云计算知识点总结

11 篇文章 0 订阅

1.什么是云计算

  • 云计算(Cloud Computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。

  • 云计算是一种按使用量付费的模式,这种模式是提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池,这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

2.云计算的产生背景

  • 云计算是继20世纪80年代大型计算机到客户/服务器的大转变的又一种巨变。

  • 云计算是分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负荷均衡(Load Balance)、热备份冗余(High Available)等传统计算机和网络技术发展融合的产物。

3.云计算的发展历史

  • P2

4.分布式计算(定义/优点)

  • 定义:

    分布式计算是一种计算方法,和集中式计算是相对的。

    分布式计算将应用分解为许多更小的部分,分配到多台计算机进行处理,这样可以节省整体计算时间,大大提高计算效率。

  • 优点:

    发挥“集体的力量”,将大任务分解成小任务,分配给多个计算节点同时去计算。

5.云计算的关键技术

  • 分布式海量数据存储
  • 虚拟化技术
  • 云平台技术
  • 并行编程技术
  • 数据管理技术

6.虚拟化技术(定义/优点)

  • 定义:

    虚拟化技术是云计算系统的核心组成部分之一,是将各种计算及存储资源充分整合和高效利用的关键技术。

  • 优点:

    资源共享

    资源定制

    细粒度资源管理

7.云交付模型

  • 软件及服务(Software as a Service,SaaS)

  • 平台及服务(Platform as a Service,Paas)

  • 基础设施服务(Infrastructure as a Service,IaaS)

  • 基本云交付模型的比较

    云交付模型服务对象使用方式关键技术用户的控制等级
    IaaS需要硬件资源的用户使用者上传数据、程序代码、环境配置虚拟化技术、分布式海量数据存储等使用和配置
    PaaS程序开发者使用者上传数据、程序代码云平台技术、数据管理技术等有限的管理
    SaaS企业和需要软件应用的用户使用者上传数据Web服务技术、互联网应用开发技术等完全的权限

8.云部署模式

  • 公有云

    为外部客户提供服务的云,它所有的服务是供别人使用,而不是自己使用

  • 私有云

    指企业自己使用的云,它所有的服务不是供别人使用,而是供自己内部人员或分支机构使用

  • 混合云

    指供自己和客户共同使用的云,它所提供的的服务既可以供别人使用,也可以供自己使用

9.云计算的优势与挑战

  • P14

10.典型云应用

  • 云存储
  • 云服务
  • 云物联

11.什么是虚拟化

  • 虚拟化是指计算机软件在虚拟的基础上而不是在真实的,独立的物理硬件基础上运行。

12.虚拟化带来的好处

  • 提高资源利用率
  • 降低成本,节能减排
  • 统一管理
  • 提高安全性

13.虚拟化的分类

  • 服务器虚拟化
  • 网络虚拟化
  • 存储虚拟化

14.虚拟化与云计算

  • 云计算将是下一代计算模式的演变方向,而虚拟化则是实现这种转变的最为重要的基石。虚拟化技术与云计算几乎是相辅相成的,在云计算涉及的地方,都有虚拟化的存在,可以说,虚拟化的技术是云计算实现的关键,没有虚拟化技术,谈不上云计算的实现。所以虚拟化与云计算有着紧密的关系,有了虚拟化的发展,使云计算成为可能,而随着云计算的发展,带动虚拟化技术进一步的成熟和完善。

15.云计算的特点

  • 跨平台性
  • 易用性
  • 轻量性

16.大数据的特点

  • Volume(体量)
  • Variety(多样)
  • Velocity(速率)
  • Value(价值)

17.大数据存储的问题

  • 容量
  • 延迟
  • 安全
  • 成本
  • 灵活性

18.HDFS(分布式文件系统)

  • 优点:

    HDFS是一个高度容错性的系统,适合部署在廉价的机器上

    HDFS能够提供高吞吐量的数据访问,非常适合大规模数据集上的应用

  • 客户端访问HDFS中文件的流程:

    (1)从NameNode获取组成这个文件的数据块位置列表

    (2)根据位置列表得到储存数据块的DataNode

    (3)访问DataNode获取数据

  • 分块的原因:

    • HDFS将文件数据分割成若干数据块(Block),每个DataNode存储

    一部分数据块,这样文件就分布存储在整个HDFS服务器集群中

    • 应用程序客户端(Client)可以并行地对这些数据块进行访问,极大

    地提高了访问速度

19.列式数据库

  • HBase以表的形式存放数据。表由行和列组成,每个列属于某个列簇,由行和列确定的存储单元称为元素,每个元素保存了同一份数据的多个版本,由时间戳来表示区分。

  • BigTab——分布式数据存储系统

    特点:

    广泛应用性、可扩展性、高性能、高可用性

  • HBase——非关系型分布式数据库

    **特点:**高可靠、高性能、面向列、可伸缩

    **优点:**存储非结构化和半结构化的数据

20.分布式处理

  • CPU多核

    多任务能力强

  • MPI并行计算框架

    是一个标准且可移植的消息传递系统,服务于大规模的并行计算。广泛采用的实现有 MPICH

  • Hadoop MapReduce

    Hadoop框架最核心的设计就是HDFS和MapReduce,HDFS为海量的数据提供存储,而MapReduce为海量的数据提供计算。

  • Spark

    Spark是一个高性能的内存分布式计算框架,具备扩展性、任务容错等特性。

    Spark 基于 map-reduce 算法实现的分布式计算,拥有 Hadoop MapReduce 所具有的优点。

21.Hadoop MapReduce架构

  • MapReduce是一种分布式计算框架,能够处理大量数据,并提供容错,可靠等功能,运行在大规模计算集群中。
  • MapReduce计算框架采用主从架构,由Client、JobTracker、TaskTarcker组成。

22.MapReduce工作机制

  • MapReduce计算模式的功能原理是把计算任务拆解成Map和Reduce两个过程来执行。
  • 一个MapReduce程序一般分为Map和Reduce两个阶段,中间可能会有combine。在数据被分割后通过Map函数的程序将数据映射成不同的区块,分配给计算机集群处理达到分布式运算的效果,再通过Reduce函数的程序将结果汇整,最后输出运行计算结果。
  • Map
  • Reduce
  • Combine
  • Shuffle

23.Spark与MapReduce对比

  • 在计算中间结果方面:

    Spark要求计算结果快速返回、处理任务低延迟,因此Spark基本把数据存放在内存中。

    MapReduce计算过程把Map任务产生的计算结果放到本地磁盘。

  • 在计算模型方面:

    Spark采用DAG描述计算任务,所有的RDD操作最后都采用DAG描述,然后优化分发到各个计算节点上运行,因此Spark拥有更丰富的功能。

    MapReduce只采用Map( )和Reduce( )两个函数,计算功能比较简单。

  • 在计算速度方面:

    Spark采用内存作为计算结果的主要存储介质,速度更快。

    MapReduce用本地磁盘作为中间结果存储介质。

  • 在容错方面:

    Spark采用和MapReduce类似的方式。针对丢失和无法引用的RDD:Spark采用记录的transformation,采取重新过已做过的transfromation。

  • 在计算成本方面:

    Spark需要高容量的内存。

    MapReduce是面向磁盘的分布式计算框架。

    因此Spark的计算成本高于MapReduce计算框架。

  • 在简单易管理方面:

    Spark在同一个集群上运行流处理、批处理和机器学习,同时Spark也可以管理不同的负载。MapReduce都做不到。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 大数据云计算是相互关联的概念。大数据指的是海量、高增长率和多样化的数据,而云计算则提供了存储和处理这些数据的基础设施和平台。通过云计算,可以更有效地存储和处理大数据,并允许用户在互联网上访问这些数据。 ### 回答2: 大数据云计算是两个相互关联且互相促进的概念。 首先,大数据是指在传统数据处理工具无法处理的数据规模、复杂性和多样性下所产生的数据集合。大数据的处理需要更强大的计算能力和存储空间,这就引出了云计算的概念。 云计算提供了弹性的计算和存储资源,可以根据需求快速调整资源规模。这意味着企业或个人可以在需要时快速扩展计算和存储能力,从而更好地处理大数据云计算通过虚拟化技术将计算和存储资源分布在全球范围的数据中心,用户通过互联网即可获取这些资源。这样一来,大数据的处理不再依赖于本地的硬件设备,而是可以利用云计算的资源进行分析和挖掘。 此外,云计算也可以提供大数据分析的工具和平台。云计算场景下的大数据分析可以利用分布式计算和分布式存储的优势,实现对海量数据的高效处理和分析。云计算提供的高性能计算能力和弹性资源配置可以大幅提升大数据分析的效率,加快业务决策的速度。 总结起来,大数据云计算之间的关系是相辅相成的。大数据需要云计算的弹性资源和高性能计算能力,而云计算又为大数据的处理和分析提供了便利的环境和工具。随着大数据规模的不断增长,云计算将发挥越来越重要的作用,促进大数据的应用和发展。 ### 回答3: 大数据云计算是紧密相互关联的两个概念。大数据指的是海量、高速、多样的数据集合,通过采集、存储、处理和分析这些数据,可以获得有价值的信息和洞察。 而云计算是指通过互联网将资源(如计算、存储、数据库等)提供给用户使用的一种计算模式。云计算提供了弹性、灵活和高效的资源共享方式,可以根据用户需求进行资源规模的调整。 大数据云计算的关系主要体现在以下几方面: 1. 存储和处理能力:大数据需要海量的存储和高速的处理能力来应对数据的规模和速度。云计算提供了弹性的存储和计算资源,可以满足大数据处理的需求。 2. 弹性和灵活性:大数据通常是海量和不确定的,因此需要根据需求来动态调整资源规模。云计算提供了按需分配和弹性扩缩容的能力,可以根据数据量和处理需求来灵活调整资源。 3. 成本效益:大数据的存储和处理需要大量的硬件设备和软件工具,对企业来说投入较大。云计算提供的资源共享和按需使用可以减少硬件设备的投资和维护成本,提高资源利用率。 4. 数据安全和隐私:大数据的处理与存储涉及到数据的安全和隐私保护。云计算提供了多层次的安全措施和隔离机制,可以保障大数据的安全性和隐私性。 综上所述,大数据云计算是相辅相成的关系。大数据需要云计算提供的弹性资源来处理和存储数据,而云计算也可以通过大数据的分析和挖掘来提供更加智能和定制化的服务。大数据云计算的集成将为企业和个人带来更多的商业价值和便利。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值