部门与岗位:阿里集团 - 通义实验室 - 大语言模型
一面
- 首先自我介绍和过项目,因为之前在阿里系实习,用过 Qwen 做业务,面试官就很感兴趣,问为什么选 Qwen,Qwen 落地的实际效果怎么样等等
- Qwen 的模型结构是怎么样的,相比于 LLaMA,DeepSeek 有什么区别
- 对于超长上下文业界一般是怎么做的,你知道 Qwen 是怎么做的吗
- 大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方,DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点
- 怎么缓解大模型的幻觉问题
- 讲一下 RLHF 的流程,PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式
- 代码:Transformer Encoder
- 代码:152. 乘积最大子数组
一面整体难度我感觉还是比较大的,考察的内容更加注重对大模型整体的理解,面的时间也比较久,通义 bar 还是高呀
二面
- 自我介绍和过项目,项目这里还是类似的,问 Qwen,为什么用 Qwen,相比于其他开源模型好在哪里
- 除了 Qwen 还了解哪些模型,LLaMA、DeepSeek、GLM……
- 你觉得 DeepSeek 做的好的有哪几个点,讲讲 DeepSeekMoE 和 MLA
- 说一下 LoRA 是什么原理
- 了解 DeepSpeed 吗,ZeRO-1,ZeRO-2 和 ZeRO-3 分别做了哪些优化
- 知道 FP16 和 BF16 有什么区别吗,包括 FP32 和 INT8 这些,在训练大模型的时候,应该怎么选择
- 除了 DeepSpeed,在训练和推理的时候,显存不足还有什么优化方法吗,FlashAttention 具体是怎么做的
- 代码:200. 岛屿数量
二面问的模型结构方面的内容比较少,更多的是训练推理优化方面的内容,更偏底层一些。从 DeepSeek 的动向来看,降低大模型的时间复杂度和空间复杂度应该也是接下来一段时间的重点
三面
- 自我介绍,过项目,还是重点问了 Qwen,在过程中还一起讨论了当前做法的优缺点,是否调研过其他方案等
- 开放题:站在你的视角,Qwen目前还存在哪些问题
- 开放题:你觉得目前大模型的上限在哪里
- 假如给你发了 Offer,会来吗
三面还是常规的大老板面,相对气氛比较轻松,会更加看重自己对于大模型的思考
总结
整体面下来感觉难度还是蛮大的,几乎各个方面都被考察到了,通义目前应该算是阿里系 bar 最高的一个部门了吧,之前面达摩院压力都没有这么大