2020大数据开发实习面经(阿里 360 腾讯 字节)

我是末流985本科大三生,找一个大数据方向的实习。因为没有课了,所以可以实习六个月左右。

阿里

时间: 2020年3月26日

一面

阿里一面的时候,刚刚开始复习。Python Java等等都还没看。只看了下大数据相关的知识。凉的明明白白。

  1. 写一道算法题,旋转数组求最小值(剑指offer面试题11)。当时只记得是二分查找,没写出来。
  2. 问下Java GC (不会)
  3. 问下Python GIL(不会)

非常感谢这位老师,面试之后就不再觉得自己很厉害了。我知道自己还有太多要复习的了。自己还是把面试想得太简单,周围牛人太多了。

360

一面 43min:

2020年4月8日

  1. 自我介绍
  2. 问了两个项目, 问了下项目中如何实现的Mysql和hdfs数据同步
  3. 讲一下对Hadoop的了解
    讲了下HDFS原理、MapReduce的过程,想讲HDFS检查点机制没让讲。
  4. Spark和MapReduce的区别?是不是用了Spark就不需要MapReduce了?(答得不太好)
  5. 问对Hive的了解? 自己提了下数据倾斜
  6. 如果有海量数据,如何求Top10?(说错了一块,后来又改过来了)
  7. Linux平常用的指令?说了 ls 、 ll 、 df 、 nohup & 、ps 、 kill 等等
    Hadoop用到的指令 Hadoop fs -ls 、 mkdir、 hdfs fsck(查看块信息)
  8. 用什么语言比较多? (我用的py比较多) Python常用的数据类型? list 和 tuple的区别?
    回答了下 不可变对象和可变对象
  9. 常用的python库(requests 、bs4 、keras 等等)如何安装包
  10. 算法题:数组去重 上台阶、动态规划和递归的区别
  11. 还有什么问题要问我吗?(问了下缺不缺hc、主要工作内容)

二面 23min

2020年4月15日
全程问项目,同时问了很多有没有看过Spark 源码 ES源码 Flask源码(都没看过)。
各个项目问的比较深,算法模型等等。

HR面 30min

2020年4月20日

  1. 可以实习多久
  2. 如何解决做项目和社团和日常生活的平衡问题
  3. 简单介绍下流计算的spark streaming storm flink的优缺点
  4. 未来发展等等

腾讯

腾讯是找了内推,后台开发,但是与大数据相关。面试都在腾讯会议,一面手撕代码是屏幕共享,二面手撕代码在腾讯文档。

一面

2020年4月23日

  1. 自我介绍。
  2. Spark和Hadoop的区别
  3. MR流程、RDD流程
  4. new malloc区别 epoll原理看过吗? 讲一下多态
  5. 写到算法题吧:二分查找,写一下旋转数组最小值(又是这道题。我说这道题之前做过,面试官没再让我写)。

二面

2020年4月28日

  1. 自我介绍、在家里?没开学?
  2. 学过Hadoop,讲一下MR流程。说一下Partition分区的优化是怎么做的(Partition没答出来)
    MR会有数据倾斜,讲一下如何解决(说了一些方法,被要求说的更详细一些。比如为什么增加Reduce数量就可以提高效率,如何自定义分区,如何重新设计key)
  3. 然后问的是Hadoop Streaming (没听说过,讲了下spark streaming)
  4. 看简历上有个socket项目,问如何讲一下流程,问如何从socket中提取数据(时间太长,完全记不清了)
  5. 写个算法题。 给一个树,每个节点的val都有取或不取两种状态。限定条件是,直接连接的节点不能同时取或者不取(比如父子节点) 想的是分成四次递归。问如何剪枝。没答出来
  6. 上面那个题没想法了。那咱们换个,给一个二叉树和两个节点 a ,b 找出二叉树的最近公共祖先。(剑指offer原题 最后一题)

平时大部分都是Py Java Scala开发,很少用C++,就很难受。还需要多学习啊。后来腾讯又捞过我,不过当时已经有字节的offer,就没有再耽误双方的时间

字节跳动

一面

自我介绍

介绍项目:详细项目中介绍下深度协同过滤算法,和mysql与hdfs同步的策略

写两个Mysql
① 给出两个表,计算left join的结果
② 一个广告的表,包含广告的id,广告的开始时间,广告的结束时间,给出一个时间(比如2020-03-02 —— 2020-04-02)。所有与这个日期有交集的广告id.

写两个算法题
①写个层次遍历
②写个排序数组中查找k这个数出现的个数 (我用了二分查找,然后向前向后搜索)

Spark会吧。介绍下宽窄依赖。(从action 讲到 shuffle ,讲了Aggregator,讲了下DAG解析的阶段划分)

Hive会用吧。讲一下内表和外表的区别

学过Mysql,讲一下索引的数据结构吧(自己说了下聚集索引和非聚集索引)

还有 sql 各种join之间的不同

二面

  1. 自我介绍
  2. 写个题目吧 把一个数字转换成汉字 比如1001 “一千零一" 用了递归但是写的太复杂,有点拉分
  3. 讲一下你觉得最难的两个项目
  4. Spark cache和 persite的区别(讲了下广播机制,没回答好)
  5. 你未来想学些什么(简单说了下Flink 、 Spark源码和参数服务器)
  6. 还有什么问我吗

HR面

  1. 自我介绍
  2. 想实习多久
  3. 未来读研吗
  4. 来北京租房吗
  5. 父母对来北京的意见
  6. 你觉得自己有什么缺点 (最后说了个自己熬夜多 )

其他

也投了很多其他的公司,比如蘑菇街、百度、知乎等等,现在还没有消息,可能是不太匹配吧。

总结

感觉自己的技术还是有很大不足啊。自己的复习的路线是:

  1. 语言: Python、Java、scala面试题
  2. 计算机基础:计算机网络、操作系统和数据库(索引是重点)
  3. 大数据相关:Hadoop、Spark、hive、hbase、flume、kakfa、storm等
  4. 算法:主要是刷了一下剑指offer。

大家也可以关注下我的公众号大数据成长笔记:

image-20210121202901757

  • 6
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
大数据开发中,Shell脚本是非常常用的工具。以下是一些常见的面试问题和答案: 1. 问: 如何执行一个已经创建的Sqoop job? 答: 可以使用以下命令执行Sqoop job: sqoop job -exec job名称 。 2. 问: 你使用过哪些Shell脚本? 答: 我使用过awk、sed、cut和sort等命令来处理文本数据。我还写过一些用于集群启动、脚本分发、数据导入导出以及数仓层级内部导入的Shell脚本 。 3. 问: 如何通过Shell脚本杀死远程服务器上的进程? 答: 有两种方法可以杀死远程服务器上的进程。一种是使用以下命令: ssh $i “ps -ef | grep 进程名 | grep -v grep |awk ‘{print $2}’ | xargs -n1 kill”。另一种是使用以下命令: ps -ef | awk ‘/进程名/ && !/awk/ {print $2}’ | xargs -n1 kill -9 。 4. 问: Shell中单引号和双引号有什么区别? 答: 在Shell脚本中,双引号可以保留变量的值并将其扩展,而单引号则会将变量视为普通的字符串。双引号内的特殊字符会被解释,而单引号内的特殊字符会被视为字符串的一部分。此外,双引号内可以使用转义字符来表示特殊字符,而单引号不支持转义字符 。 希望以上回答对你有所帮助。如果你有其他问题,请随时提问。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [shell编程之大数据面试题](https://blog.csdn.net/qq_27924553/article/details/111938876)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [大数据高频面试题——linux&shell-详解](https://blog.csdn.net/zlmldylinke/article/details/113886037)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AntiTopQuark

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值