最近开始集中校招提前批和人才计划面试,偶尔也穿插着社招的面试,根据目前的简历和面试情况,跟大家汇报一下一线大模型技术方向的人才风向标。
总结几个关键结论和要点放在前面:
1.有大模型方向论文的硕博很少,大部分论文还是在模型架构排列组合,屎上雕花。
2.有大模型训练经验简历的很少,有65B以上大模型全量训练的更少,有预训练的经验就像捡到了宝。
3.模型评测和强化学习方面经验很稀缺。
4.大模型选型上一定要紧跟行业主流认知。
5.成功落地的场景稀少,目前都在探索阶段。
6.大模型需求依然很旺盛,优秀简历很抢手
7.大模型八股文的频率高吗?
下面就这几个点展开说一下:
1.有大模型方向论文的硕博很少,大部分论文还是在模型架构排列组合,屎上雕花。
这个无可厚非,每一次技术革新都意味代价,大家搞论文也不一定是为了影响力这么远大的目标,很多时候是为了混口饭吃。
在本来就价值不大的领域方向上,针对只会有1%发生频率的特定问题,进行了过度网络结构优化,最后取得几个点的提升,这类典型的比较水的工作太多了,现在已经无法吸引面试官眼球了。
首先这部分工作有两个问题,第一是真的没有太大的作用了,可能还比不过chagpt zeroshot直接来解决这些的水平,另外,往往有更简单的方法其实明明也可以做的很好,但可惜就是想做的胡哨。
在大模型时代,大力出奇迹和朴素简单有用都是有价值的,唯一没太大用处的就是稀奇古怪的方法组合起来,解决了一个不太经常出现的问题。
这时候如果你有一篇大模型相关的录用的研究,会让面试官眼前一亮。
2.有大模型训练经验简历的很少,有65B以上大模型全量训练的更少,预训练的经验就像捡到了宝。
这个更无可厚非,毕竟整个行业大家都买不到卡了,大部分人手中的卡可能还是32GB的V100,也还没有多少张。
大部分人的简历还是围绕大模型做一些边角工作,或者注定天花板不是很高的方法,比如lora,ptuning等。
7B全量微调的起步的8张40GB的A100,这个储备也不是那么好弄了现在。65B全量微调的起步得上百张卡了。
预训练更别提了,简单算下,8张A100 每天可以过个位数GB数据,假设要跑GB数据的话,几个月就没了。
另外做大模型训练的更像是一个团队的工程活,每个人负责拧一个螺丝。有完整的从0起步的经验也是各家的香饽饽,简历已经在猎头那一端被抢爆了。
3.模型评测和强化学习方面经验很稀缺。
模型评测和强化学习算是大模型目前的黑科技了,谁能做的又快又准又好,就能和同行显著拉开差距。
强化学习要求的训练资源也不低,经典的