大数据与云计算学习（1）

最新推荐文章于 2024-01-16 14:59:42 发布

永远不要低估自己的能力

最新推荐文章于 2024-01-16 14:59:42 发布

阅读量1.8w

点赞数 22

分类专栏：知识学习文章标签：知识图谱

本文链接：https://blog.csdn.net/zhangzhongyanting/article/details/105402501

版权

知识学习专栏收录该内容

10 篇文章 5 订阅

订阅专栏

大数据学习

一、大数据概述：
1、大数据概念和特征。
正确答案：
大数据意指一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集
数据量大（Volume）：存储的数据量巨大，PB级别是常态，因而对其分析的计算量也大。
数据类型繁多（Variety）：数据的来源及格式多样，数据格式除了传统的结构化数据外，还包括半结构化或非结构化数据，比如用户上传的音频和视频内容。而随着人类活动的进一步拓宽，数据的来源更加多样。
处理速度快（Velocity）：数据增长速度快，而且越新的数据价值越大，这就要求对数据的处理速度也要快，以便能够从数据中及时地提取知识，发现价值。
价值密度低（Value）：在成本可接受的条件下，通过快速采集、发现和分析，从大量、多种类别的数据中提取价值的体系架构。
复杂度（Complexity）：对数据的处理和分析的难度大。

2、试述大数据时代的“数据爆炸”的特性
正确答案：
人类社会产生的数据以每年50%速度增长，即每两年增加一倍。

3、试述大数据对思维方式的重要影响？你如何理解数据思维？

正确答案：
三种思维的转变：全样而非抽样，效率而非精确，相关而非因果

具备数据思维，能帮助创业者抓住商业机会。

生活中的大部分数据，数据思维都可以给你启发。

像AlphaGo 一样思考、学习、挑战、迭代

AlphaGo= 大数据 + 人工智能 + 大规模计算
4、举例说明大数据的应用领域
正确答案：
金融行业：大数据在高频交易、社区情绪分析和信贷风险分析三大金融创新领域发挥重要作用。
汽车行业：利用大数据和物联网技术的五人驾驶汽车，在不远的未来将走进我们的日常生活。
互联网行业：借助于大数据技术，可以分析客户行为，进行商品推荐和有针对性广告投放。
个人生活：利用与每个人相关联的“个人大数据”，分析个人生活行为习惯，为其提供更加周全的个性化服务。
5、云计算长定义和短定义：
正确答案：
长定义：云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务。
短定义：云计算是通过网络按需提供可动态伸缩的廉价计算服务。
6、大数据与云计算、物联网的关系
正确答案：
云计算、大数据和物联网代表了IT领域最新的技术发展趋势，三者相辅相成，既有联系又有区别。
大数据技术继承自云计算。
在这里插入图片描述
大数据与互联网、云计算、移动计算、物联网、智慧城市等重大信息技术，将不断相互融合和叠加，形成很多创新技术和应用。
云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力，用户只需要在具备网络接入条件的地方，就可以随时随地获得所需的各种IT资源。
物联网是物物相连的互联网，是互联网的延伸，它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起，形成人与物、物与物相联，实现信息化和远程管理控制。
1.大数据、云计算和物联网的区别
大数据侧重于海量数据的存储、处理与分析，海量数据中发现价值，服务于生产和生活；云计算本质上皆在整合和优化各种IT资源并通过网络已服务的方法，廉价地提供给用户；物联网的发展目标是实现呜呜向量，应用创新是物联网的核心
2.大数据、云计算和物联网的联系
从整体来看，大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算，大数据分析的很多技术都来自于云计算，云计算的分布式存储和管理系统提供了海量数据的存储和管理能力，没有这些云计算技术作为支撑，大数据分析就无从谈起。物联网的传感器源源不断的产生大量数据，构成了大数据的重要数据来源，物联网需要借助于云计算和大数据技术，实现物联网大数据的存储、分析和处理。

1、就数据的量级而言,1PB数据是多少TB?
A、1024
B、512
C、2048
D、1000
正确答案： A
2、以下关于云计算、大数据和物联网之间的关系,论述错误的是:
A、云计算、大数据和物联网三者紧密相关,相辅相成
B、物联网可以借助于大数据实现海量数据的分析
C、云计算侧重于数据分析
D、物联网可以借助于云计算实现海量数据的存储
正确答案： C
3、以下哪个不是大数据时代新兴的技术:
A、Spark
B、Hadoop
C、MySQL
D、HBASE
正确答案： C
4、每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:
A、S4
B、GraphX
C、Impala
D、Hive
正确答案： A
针对流数据的实时计算:Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等
5、每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:
A、Cassandra
B、Storm
C、Flume
D、Pregel
正确答案： D
答案解析：
Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等针对大规模图结构数据的处理
二.多选题
1、大数据的4V特性包括:
A、数据量大
B、处理速度快
C、数据类型繁多
D、数据新颖
正确答案： ABC

2、图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历了四种范式,具体包括:
A、计算科学
B、实验科学
C、猜想科学
D、理论科学
正确答案： ABD
3、大数据带来思维方式的三个转变是:
A、效率而非精确
B、精确而非全面
C、相关而非因果
D、全样而非抽样
正确答案： ACD
4、大数据的四种主要计算模式包括:
A、流计算
B、框计算
C、批处理计算
D、图计算
正确答案： ACD
答案解析：
查询分析计算;Dremel、Hive、Cassandra、Impala等
5、云计算的典型服务模式包括三种:
A、SaaS
B、PaaS
C、IaaS
D、MaaS
正确答案： ABC
Software as a Service;Platform as a Service;Infrastructure as a Service 基础设施
二、大数据处理架构Hadoop
1、试述hadoop和谷歌的mapreduce、gfs等技术之间的关系
正确答案：
Hadoop的核心是分布式文件系统HDFS和MapReduce，HDFS是谷歌文件系统GFS的开源实现，MapReduces是针对谷歌MapReduce的开源实现。
2、试述Hadoop具有哪些特性。
正确答案：
高可靠性，高效性，高可扩展性，高容错性，成本低，运行在Linux平台，支持多种编程语言
3、试述Hadoop在各个领域的应用情况。
正确答案：
2007年，雅虎在Sunnyvale总部建立了M45——一个包含了4000个处理器和1.5PB容量的Hadooop集群系统；Facebook主要将Hadoop平台用于日志处理，推荐系统和数据仓库等方面；百度主要使用Hadoop于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等。
4、试述Hadoop的项目结构以及每个部分的具体功能。（至少列举出5项）
正确答案：
Commeon是为Hadoop其他子项目提供支持的常用工具，主要包括文件系统、RPC和串行化库
Avro是为Hadoop的子项目，用于数据序列化的系统，提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持续性数据的文件集、远程调用的功能和简单的动态语言集成功能。HDFS是Hadoop项目的两个核心之一，它是针对谷歌文件系统的开源实现。HBase是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库，一般采用HDFS作为其底层数据存储。MapReduce是针对谷歌MapReduce的开源实现，用于大规模数据集的并行运算。Zoookepper是针对谷歌Chubby的一个开源实现，是高效和可靠的协同工作系统，提供分布式锁之类的基本服务，用于构建分布式应用，减轻分布式应用程序所承担的协调任务。Hive是一个基于Hadoop的数据仓库工具，可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分布存储。Pig是一种数据流语言和运行环境，适合于使用Hadoop和MapReducce平台上查询大型半结构化数据集。Sqoop可以改进数据的互操作性，主要用来在H大哦哦哦配合关系数据库之间交换数据。Chukwa是一个开源的、用于监控大型分布式系统的数据收集系统，可以将各种类型的数据收集成适合Hadoop处理的文件，并保存在HDFS中供Hadoop进行各种 MapReduce操作。

1.启动hadoop所有进程的命令是
A、start-hdfs.sh
B、start-dfs.sh
C、start-hadoop.sh
D、start-all.sh
正确答案： D
2.以下对Hadoop的说法错误的是
A、Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性
B、Hadoop是基于Java语言开发的,只支持Java语言编程
C、Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算
D、Hadoop的核心是HDFS和MapReduce
正确答案： B
3.以下哪个不是hadoop的特性
A、高容错性
B、高可靠性
C、成本高
D、支持多种编程语言
正确答案： C
答案解析：
成本低
4.以下名词解释不正确的是
A、HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现
B、Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统
C、Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储
D、HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现
正确答案： A
Google GFS
二.多选题
1
以下哪个命令可以用来操作HDFS文件
A、hdfs dfs
B、hdfs fs
C、hadoop fs
D、hadoop dfs
正确答案： ACD
答案解析：
hadoop fs适用于任何不同的文件系统,比如本地文件系统和HDFS文件系统 hadoop dfs只能适用于HDFS文件系统 hdfs dfs跟hadoop dfs的命令作用一样,也只能适用于HDFS文件系统
三、分布式文件系统HDFS
1、试述HDFS中的名称节点和数据节点的具体功能。
正确答案：名称节点负责管理分布式文件系统系统的命名空间，记录分布式文件系统中的每个文件中各个块所在的数据节点的位置信息；数据节点是分布式文件系统HDFS的工作节点，负责数据的存储和读取，会根据客户端或者是名称节点的调度来进行数据的存储和检索，并向名称节点定期发送自己所存储的块的列表。hadoop fs -ls 显示指定的文件的详细信息hadoop fs -cat 将指定的文件的内容输出到标准输出hadoop fs -mkdir 创建指定的文件夹hadoop fs -get [-ignorecrc] [-crc] 复制指定的文件到本地文件系统指定的文件或文件夹。-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。hadoop fs -put 从本地文件系统中复制指定的单个或多个源文件到指定的目标文件系统中。也支持从标准输入(stdin)中读取输入写入目标文件系统。hadoop fs -rmr 删除指定的文件夹及其的所有文件
2、分布式文件系统是如何实现较高水平扩展的？
正确答案：分布式文件系统在物理结构上是由计算机集群中的多个节点构成的，这些节点分为两类，一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode)，另一类叫“从节点”（Slave Node）或者也被称为“数据节点”(DataNode)。
3、HDFS只设置唯一一个名称节点，在简化系统设计的同时也带来了一些明显的局限性，请阐述局限性具体表现在哪些方面？
正确答案：
（1）命名空间的限制：名称节点是保存在内存中的，因此，名称节点能够容纳的对象（文件、块）的个数会受到内存空间大小的限制。
（2）性能的瓶颈：整个分布式文件系统的吞吐量，受限于单个名称节点的吞吐量。
（3）隔离问题：由于集群中只有一个名称节点，只有一个命名空间，因此，无法对不同应用程序进行隔离。
（4）集群的可用性：一旦这个唯一的名称节点发生故障，会导致整个集群变得不可用。
4、HDFS针对宕机问题提供了哪些有效的保护措施？
正确答案：

冗余备份：对每个数据块进行副本备份，副本个数可以自行设置。
副本存放：用机架感知（Rack-aware)的策略来改进数据的可靠性、可用性和网络带宽的利用率。通过机架感知，NameNode可以确定每个DataNode所属的机架ID.
副本选择：尽量选择离程序最近的副本来满足用户请求，这样可以减少总带宽消耗和读延时。

1.HDFS的命名空间不包含
A、文件
B、字节
C、目录
D、块

正确答案： B
2.对HDFS通信协议的理解错误的是
A、HDFS通信协议都是构建在IoT协议基础之上的
B、客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的
C、客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互
D、名称节点和数据节点之间则使用数据节点协议进行交互
正确答案： A
TCP/IP协议
3.采用多副本冗余存储的优势不包含
A、保证数据可靠性
B、节约存储空间
C、容易检查数据错误
D、加快数据传输速度
正确答案： B
4.假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是
A、start-dfs.sh,stop-hdfs.sh
B、start-hdfs.sh,stop-dfs.sh
C、start-dfs.sh,stop-dfs.sh
D、start-hdfs.sh,stop-hdfs.sh
正确答案： C
5.分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫 ,另一类存储具体数据叫
A、名称节点,数据节点
B、数据节点,名称节点
C、名称节点,主节点
D、从节点,主节点
正确答案： A
答案解析：
NameNode、DataNode
6.下面关于分布式文件系统HDFS的描述正确的是:
A、分布式文件系统HDFS是Google Bigtable的一种开源实现
B、分布式文件系统HDFS比较适合存储大量零碎的小文件
C、分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现
D、分布式文件系统HDFS是一种关系型数据库
正确答案： C
二.多选题
1.以下对名称节点理解正确的是
A、名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问
B、名称节点的数据保存在内存中
C、名称节点用来负责具体用户数据的存储
D、名称节点通常用来保存元数据
正确答案： ABD
2.以下对数据节点理解正确的是
A、数据节点用来存储具体的文件内容
B、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作
C、数据节点通常只有一个
D、数据节点的数据保存在磁盘中
正确答案： ABD
3.HDFS只设置唯一一个名称节点带来的局限性包括
A、隔离问题
B、命名空间的限制
C、集群的可用性
D、性能的瓶颈
正确答案： ABCD
4.以下HDFS相关的shell命令不正确的是
A、hadoop dfs mkdir :创建指定的文件夹
B、hdfs dfs -rm :删除路径指定的文件
C、hadoop fs -ls :显示指定的文件的详细信息
D、hadoop fs -copyFromLocal :将路径指定的文件或文件夹复制到路径指定的文件夹中
正确答案： AD