项目and专业技能

最新推荐文章于 2024-07-25 15:50:18 发布

爱喝咖啡的Tomcat

最新推荐文章于 2024-07-25 15:50:18 发布

阅读量72

点赞数

分类专栏：保研复习文章标签： linux

本文链接：https://blog.csdn.net/weixin_44627672/article/details/119753292

版权

保研复习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

大数据面试题MapReduce
https://blog.csdn.net/sun_0128/article/details/108564793https://blog.csdn.net/sun_0128/article/details/108564793
2. ajax实现异步传输数据局部刷新页面
https://blog.csdn.net/chaopingyao/article/details/106481895
3.大数据方向面试题
https://wenku.baidu.com/view/aae34df8d3f34693daef5ef7ba0d4a7302766c31.html

4.Hdfs

单机容量往往无法存储大量数据，需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中，引入网络，就不可避免地引入了所有网络编程的复杂性，例如挑战之一是如果保证在节点不可用的时候数据不丢失
Hdfs设计目标

存储大文件
流式数据访问
收集到部分数据就开始处理，不是收集到全部数据再处理。如果一个文件太大，我不需要把一个文件全部读到内存中，然后再做计算，我只需要一小块一小块的读。 ( 通过分块机制解决 ) 如果是全部收到数据以后再处理，那么延迟会很大，而且在很多场合会消耗大量内存。
商业硬件
不能做到低延迟数据访问：由于hadoop针对高数据吞吐量做了优化，牺牲了获取数据的延迟，所以对于低延迟访问数据的业务需求不适合HDFS。
不适合大量的小文件存储：由于namenode将文件系统的元数据存储在内存中，因此该文件系统所能存储的文件总数受限于namenode的内存容量。根据经验，每个文件、目录和数据块的存储信息大约占150字节。因此，如果有一百万个小文件，每个小文件都会占一个数据块，那至少需要300MB内存。如果是上亿级别的，就会超出当前硬件的能力。
修改文件：。HDFS适合一次写入，多次读取的场景。对于上传到HDFS上的文件，不支持修改文件。Hadoop2.0虽然支持了文件的追加功能，但不建议对HDFS上的文件进行修改。因为效率低下.
不支持用户的并行写：同一时间内，只能有一个用户执行写操作。

Hadoop HDFS分布式文件系统

5. Hadoop

Hadoop
大数据

数据量大
数据种类多
价值密度低
处理速度快
1 . Hadoop1 2 3 区别：

Hadoop平台各个节点的作用

6. MapReduce

并行计算：它的基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。
MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数：Map和Reduce。它采用“分而治之”策略，一个存储在分布式文件系统中的大规模数据集，会被切分成许多独立的分片（split），这些分片可以被多个Map任务并行处理.
MapReduce
从问题切入

爱喝咖啡的Tomcat

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
项目and专业技能

大数据面试题MapReducehttps://blog.csdn.net/sun_0128/article/details/108564793https://blog.csdn.net/sun_0128/article/details/108564793
复制链接

扫一扫

专栏目录