大数据面试部分：部分面试题汇总

最新推荐文章于 2024-04-06 01:10:15 发布

道法—自然

最新推荐文章于 2024-04-06 01:10:15 发布

阅读量581

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wyqwilliam/article/details/80961883

版权

1.

一个数组快可以对应很多个，或者一个切片

一个split对应一个map

一个map对应一个或者n个reduce

Map的输出正好是reduce的输入。

Shuffer：洗牌

数据向计算移动。

如何让shuffer的效率最高。

split一条一条，以一条记录为依据，也就是换行符。

映射成key -value的形式。

相同的key为一组。

面试的时候，buffer额调优，会是加分项。

有很多的机械读写，线性读写。

相同的key，具有相同的哈希值，就会去到相同的分区里。

排序的顺序是：先按分区排序，先按P排序，再按K排序

P .K排序。

相同分区排在一起，分区内相同的key排在一起。

2.

Shuffer是数据向计算的移动的过程

Map的输出是reduce的输入。

shuffer的过程，从哪里开始，到哪里结束。

Shuffer：map输出——p（计算key，value）的计算——>buffer————>sort————>reduce

不好意思，我看的源码，没想到您的理解层次很深。

Map易于程序人员开发分布式开发技术

3.hdfs的读写流程

4.

把新用户模块和活跃用户模块去实现

关于架构图的设计：

那个为什么要放在这个位置

为什么要这么设计

Hbase在选择节点的时候，应该怎么搭建

原因在于缓存和内存

最好应该把hbase集群单独拿出来，因为hbase很耗费内存

Hadoop，hbase，hive

版本选择很重要，因为有版本的兼容性。是一套，这几个版本是最稳定，最安全的版本，比较老。

Hive和hbase在整合的时候容易出现问题，

Spark：在2.2之前，最高支持的hive是1.2，而2.3刚出，这就意味着hive不能动，所以hbase就不能动。

因此在公司做软件版本的时候，要有一个取舍，具体要去官网上找。

Cloudera,cdh,

搭建cdh平台，自己建立文件部署。

Cdh支持的hive版本是1.2，

版本的选择很关键，新版本肯定有新特性，但是要考虑版本的兼容性。

面试题：你们公司spark用的是几？为什么不用最新的版本。

因为版本的兼容性。

面试题：本项目中，怎么介绍。

之前做过大型项目，也有日志，和之前项目挂钩，问道前边的东西的时候，也会。

Hadoop：

Spark：

机器学习：

可以做总结，但是不需要复习。

道法—自然

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。