【面经】Thoughtworks 大数据开发面经

和风与影

于 2022-09-02 19:20:15 发布

阅读量470

点赞数

分类专栏：面试文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45545090/article/details/126669192

版权

面试专栏收录该内容

46 篇文章 8 订阅

订阅专栏

1.自我介绍

2.结对编程

面试之前会给一个 GitHub 仓库，需要提前下载，配置环境，运行代码，熟悉代码。

2.1 讲一下代码是干什么的

提前熟悉理解即可。

2.2 知道 TDD 吗

测试驱动开发。建议提前学习 B 站视频。

2.3 重构代码，实现三个需求

按照测试驱动开发的方法：

先写测试样例并运行-不通过；
修改业务逻辑代码；
运行测试代码，不通过返回第二步骤，直到通过测试。

3.介绍简历上的项目

项目中用到了 Elasticsearch、ClickHouse、Spark，后面的问题基于自己的项目。

4.ES 和 CH 有什么区别

都可以用于复杂查询，实时计算返回结果。

Elasticsearch 提供全文检索功能，最擅长的主要是完全搜索场景（where过滤后的记录数较少），在内存富裕运行环境下可以展现出非常出色的并发查询能力。但是在大规模数据的分析场景下（where过滤后的记录数较多），ClickHouse 凭借极致的列存和向量化计算会有更加出色的并发表现，并且查询支持完备度也更好。ClickHouse 的并发处理能力立足于磁盘吞吐，而 Elasticsearch 的并发处理能力立足于内存 Cache，这使得两者的成本区间有很大差异，ClickHouse 更加适合低成本、大数据量的分析场景，它能够充分利用磁盘的带宽能力。数据导入和存储成本上，ClickHouse 更加具有绝对的优势。

项目中 ES 用来点查，CH 查时间区间，实时计算。

5.Spark 的数据倾斜怎么判断

6.怎么区分数据节点故障和数据倾斜

即：分布式计算，某个节点故障，例如千兆带宽变成百兆导致某个节点上的 task 执行缓慢，怎么区分这种情况。

7.Spark 的架构、任务提交的流程

8.Spark 调优用过哪些

9.笛卡尔积是什么，笛卡尔积的 MapReduce 过程是怎么样的，Shuffle 过程是怎么样的

笛卡尔积通俗点说就是指包含两个集合中任意取出两个元素构成的组合的集合。

Map-only：笛卡尔积只有 Map 阶段。

在这里插入图片描述

图片摘自 MapReduce Design Patterns。公众号回复 806 获取 PDF。

点击此处关注微信公众号。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【面经】Thoughtworks 大数据开发面经

面经
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。