大数据处理技术考试题库（自主整理）

最新推荐文章于 2024-08-14 22:29:49 发布

不会写代码！！

最新推荐文章于 2024-08-14 22:29:49 发布

阅读量824

点赞数 22

分类专栏：题库文章标签：人工智能 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xty123abc/article/details/135924220

版权

本文详细介绍了大数据的4V特性：大量、多样、高速、价值密度低，并探讨了大数据思维方式的转变。文章重点讲解了Hadoop的两大关键技术——分布式存储和分布式计算，以及HDFS和MapReduce的工作原理。同时，分析了Hadoop的高稳定性、高效性、高扩展性和低成本性的特点，并讨论了HDFS中名称节点和数据节点的角色。此外，还对比了HDFS与其他技术如云计算、物联网的关系，以及HDFS和MapReduce在大数据处理中的应用和局限性。

摘要由CSDN通过智能技术生成

解释大数据？（（4V特性））大量、多样、高速、价值密度低（展开论述）

（1）数据量大（Volume）：大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。

（2）类型繁多（Variety）：有大量的结构化和非结构化数据

（3）价值密度低（Value）：信息感知无处不在，存在信息海量，但价值密度较低。

（4）时效高（Velocity）：从数据生成到消耗的时间窗口非常少，可用于决策的时间非常少，这是大数据区分于传统数据挖掘最显著的特征。

大数据思维方式转变？

（全样而非抽样，效率而非精确，相关而非因果）

大数据的两大关键技术：

分布式存储、分布式计算

物联网+大数据+云计算三者之间的关系？

（1）云计算为大数据提供了技术基础

（2）物联网是大数据的重要来源，大数据技术为物联网分析提供支撑

（3）云计算为物联网提供了海量数据的存储能力，物联网为云计算技术提供了广阔的应用空间

为什么Hadoop具有高稳定性、高效性、高扩展性和低成本性特点？

（1）稳定性：多台机器构成集群，部分机器发生故障，剩余机器可以继续对外提供服务

（2）高效性：成百上千台机器一起计算

（3）高扩展性：可以不断往集群中增加机器

（4）低成本性：可以采用普通PC来构成集群，对硬件要求不高

（5）支持多种编程语言：支持C/C++,python ,java

mapreduce基于磁盘（几次的IO读写，在哪发生），spark基于内存计算

（1）输入读取（Input Read）:Map阶段的输入读取：在这个阶段，系统从磁盘读取输入数据。数据通常存储在分布式文件系统中，比如HDFS。这里的I/O操作是读取输入文件。

（2）映射（Mapping）:Map阶段的写入：Map函数处理输入数据，并产生中间键值对。这些中间结果通常会先写入到本地磁盘，而不是直接发送到Reduce节点，这涉及到磁盘写操作。

（3）排序和/或洗牌（Shuffle and Sort）:读取Map输出：Reduce节点从各个Map节点读取中间结果，这通常涉及网络I/O和磁盘I/O，因为数据需要从Map节点的磁盘传输到Reduce节点的磁盘。排序：在Reduce节点上，数据会被排序以便于后续处理，这个过程可能涉及到磁盘读写，尤其是当数据量大到内存无法一次性处理时。

（4）归约（Reducing）:Reduce阶段的输出写入：Reduce函数处理排序后的中间数据，并产生最终输出。最终输出通常会被写回到分布式文件系统中，这涉及到磁盘写操作。

（5）输出写入（Output Write）:最终结果的写入：作业的最终结果被写入到磁盘中，通常是分布式文件系统，例如HDFS。

名称节点和数据节点的功能？

名称节点是整个HDFS集群的管家，负责记录信息和数据目录

数据节点负责存储实际数据

名称节点的内容？

Fsimage:保存系统树

Eidtlog：记录对数据进行的诸如创建、删除、重命名等操作

在HDFS中的元数据保存什么内容？

文件和目录信息：包括文件名、目录结构、权限、修改时间等。

块信息：每个块的位置、大小等。

数据节点信息：系统中的健康状况、存储容量等。

副本策略：文件的副本数及其分布情况。

命名空间配额和存储配额：对文件系统中目录可以包含的文件和子目录数量的限制，以及它们可以使用的存储空间限制。

现有1000人，每人需要1M空间存储数据，请问在HDFS系统中，需要多大的存储空间存储上述人员的数据?

如果每个人需要1M的空间来存储数据，那么1000人总共需要的空间是1000MB。在HDFS中，这些数据默认复制因子是3，另外还需要30%的冗余存储。

所需总存储空间=数据总量×复制因子×（1+冗余比例）=1000MB×3×（1+30%）=3900MB

Hadoop 的两大核心组件是什么?并简要说明其各自的功能?

两大核心技术是HDFS和Mapreduce；HDFS用于对大规模数据集的分布式存储；MapRedcue用于对大规模数据的分布式计算和分析

请简要介绍HDFS中，名称节点的硬件配置要求及原因?

（1）内存（RAM）:

要求:16-72GB——足够大的RAM来存储整个文件系统的命名空间和文件块信息。

原因: 名称节点需要在内存中维护文件系统的元数据，包括文件名、权限、文件与块的映射关系等。对于大型文件系统，这可能需要大量内存。

（2）处理器（CPU）:

要求: 2-8核CPU

原因: 名称节点需要处理来自文件系统客户端的大量并发请求，包括文件的打开、关闭、重命名等操作。

（3）存储（硬盘）:

要求: 快速的本地存储，通常是使用RAID配置的企业级硬盘。

原因: 虽然元数据存储在内存中，但也会定期写入磁盘以保证系统的持久性和恢复能力。快速可靠的存储可以确保元数据的安全和快速恢复。

（4）网络:

要求:万兆光纤网络。

原因: 名称节点需要与集群中的其他节点（如数据节点）频繁通信，处理大量的数据传输和管理消息。

H

最低0.47元/天解锁文章

不会写代码！！

关注

22
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
大数据处理技术考试题库（自主整理）

大数据处理技术题库
复制链接

扫一扫

专栏目录

不会写代码！！ CSDN认证博客专家 CSDN认证企业博客

码龄3年

63: 原创

2万+: 周排名

3万+: 总排名

11万+: 访问

: 等级

1176: 积分

4050: 粉丝

410: 获赞

111: 评论

745: 收藏

私信

关注

热门文章

分类专栏

最新评论

YOLOv8+swin_transfomerv2
念晴雨: /opt/conda/envs/yolov8/lib/python3.8/site-packages/torch/functional.py:478: UserWarning: torch.meshgrid: in an upcoming release, it will be required to pass the indexing argument. (Triggered internally at /opt/conda/conda-bld/pytorch_1659484810403/work/aten/src/ATen/native/TensorShape.cpp:2894.) return _VF.meshgrid(tensors, **kwargs) # type: ignore[attr-defined] 你好你好，请问一下这是什么原因啊，我按照步骤替换进去后，python train.py就会直接卡住
人工智能导论题库
秋ccc: 这是哪个学校的题库呀
人工智能导论题库
2301_79366710: 最后这个题库考的多吗
lightning-hydra-template框架使用
普通网友: 代码不全，ImportError: Error loading 'src.models.vit_module.VITLitModule':
YOLOv8+swin_transfomerv2
ZMQWD: 我花钱在autodl租卡跑

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。