项目and专业技能

大数据面试题MapReduce
https://blog.csdn.net/sun_0128/article/details/108564793https://blog.csdn.net/sun_0128/article/details/108564793
2. ajax实现异步传输数据 局部刷新页面
https://blog.csdn.net/chaopingyao/article/details/106481895
3.大数据方向面试题
https://wenku.baidu.com/view/aae34df8d3f34693daef5ef7ba0d4a7302766c31.html


4.Hdfs

单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。而一旦在系统中,引入网络,就不可避免地引入了所有网络编程的复杂性,例如挑战之一是如果保证在节点不可用的时候数据不丢失
Hdfs设计目标

  1. 存储大文件

  2. 流式数据访问
    收集到部分数据就开始处理,不是收集到全部数据再处理。如果一个文件太大,我不需要把一个文件全部读到内存中,然后再做计算,我只需要一小块一小块的读。 ( 通过分块机制解决 ) 如果是全部收到数据以后再处理,那么延迟会很大,而且在很多场合会消耗大量内存。

  3. 商业硬件

  4. 不能做到低延迟数据访问:由于hadoop针对高数据吞吐量做了优化,牺牲了获取数据的延迟,所以对于低延迟访问数据的业务需求不适合HDFS。

  5. 不适合大量的小文件存储 :由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存容量。根据经验,每个文件、目录和数据块的存储信息大约占150字节。因此,如果有一百万个小文件,每个小文件都会占一个数据块,那至少需要300MB内存。如果是上亿级别的,就会超出当前硬件的能力。

  6. 修改文件:。HDFS适合一次写入,多次读取的场景。对于上传到HDFS上的文件,不支持修改文件。Hadoop2.0虽然支持了文件的追加功能,但不建议对HDFS上的文件进行修改。因为效率低下.

  7. 不支持用户的并行写:同一时间内,只能有一个用户执行写操作。

Hadoop HDFS分布式文件系统

5. Hadoop

Hadoop
大数据

  1. 数据量大
  2. 数据种类多
  3. 价值密度低
  4. 处理速度快
    1 . Hadoop1 2 3 区别:
    在这里插入图片描述
    Hadoop平台各个节点的作用
    在这里插入图片描述
6. MapReduce

并行计算:它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。
MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce。它采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理.
MapReduce
从问题切入

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值