大数据面试题MapReduce
https://blog.csdn.net/sun_0128/article/details/108564793https://blog.csdn.net/sun_0128/article/details/108564793
2. ajax实现异步传输数据 局部刷新页面
https://blog.csdn.net/chaopingyao/article/details/106481895
3.大数据方向面试题
https://wenku.baidu.com/view/aae34df8d3f34693daef5ef7ba0d4a7302766c31.html
4.Hdfs
单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失
Hdfs设计目标
-
存储大文件
-
流式数据访问
收集到部分数据就开始处理,不是收集到全部数据再处理。如果一个文件太大,我不需要把一个文件全部读到内存中,然后再做计算,我只需要一小块一小块的读。 ( 通过分块机制解决 ) 如果是全部收到数据以后再处理,那么延迟会很大,而且在很多场合会消耗大量内存。 -
商业硬件
-
不能做到低延迟数据访问:由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟访问数据的业务需求不适合HDFS。
-
不适合大量的小文件存储 :由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存容量。根据经验,每个文件、目录和数据块的存储信息大约占150字节。因此,如果有一百万个小文件,每个小文件都会占一个数据块,那至少需要300MB内存。如果是上亿级别的,就会超出当前硬件的能力。
-
修改文件:。HDFS适合一次写入,多次读取的场景。对于上传到HDFS上的文件,不支持修改文件。Hadoop2.0虽然支持了文件的追加功能,但不建议对HDFS上的文件进行修改。因为效率低下.
-
不支持用户的并行写:同一时间内,只能有一个用户执行写操作。
5. Hadoop
Hadoop
大数据
- 数据量大
- 数据种类多
- 价值密度低
- 处理速度快
1 . Hadoop1 2 3 区别:
Hadoop平台各个节点的作用
6. MapReduce
并行计算:它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。
MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce。它采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理.
MapReduce
从问题切入