今天上午已收到意向书,岗位算法工程师-机器学习,地点杭州。
一面(简历面 半小时)
当时在过马路时收到了电话,站在人行道上面试了半小时…
1.询问基本情况(研究方向及实习)
2.就实习阶段所做的超分辨率算法工作进行了详细的询问:数据如何生成,从概率的角度解释网络为何能够学到LR和SR的映射关系,如何搭建和训练网络,如何解决模型落地问题
3.了解到答主在做超分时遇到的问题后,对业界前沿的技术做了相关询问,用了哪些GAN模型,GAN模型的loss函数如何设计,为什么这么设计
4.询问答主为什么要从深度学习方向转到机器学习方向,以及约定了两天后的详细面试;
二面(视频面 四十分钟)
1.介绍一个机器学习项目后就项目的pipeline和相关知识点进行了询问
2.介绍随机森林和GBDT的区别,为什么Bagging降方差,Boosting降偏差
3.介绍XGB对GBDT的提升,LGB对XGB的提升,以及既然使用了LGB为什么还要使用XGB
4.介绍stacking的模型融合方式,以及模型融合为什么有效
5.编程题:找到一个无序数组里面连续的最长整数数组长度。顺带考察了基数排序和快速排序
三面(P9交叉面 一小时)
1.了解答主的两段实习经历,分别承担怎样的角色,具体做什么,简单考察了如何解决实际问题
2.就项目中数据处理方式做了详细的询问,生成的多张数据集如何使用,缺失值的处理需要考察到哪些问题,均值填充是否科学等
3.特征工程中具体衍生出来的特征进行了详细的询问,为什么要生成这样的特征,依据是什么,为什么要使用PCA进行降维,如何存在多个特征高度共线会有什么问题
4.为什么要大量使用树模型,有什么优势
5.XGB如何处理缺失值,LGB的差加速和直方图算法的底层代码是否有过了解
6.开放题:双十一时向用户发放优惠券,希望在成本一定的前提下,使得盈利最大化,该如何建模发放给用户?用户无法做AB测试,该怎样划定正负样本?
7.数学题:长度为1的线段,随机地取两点A和B,求AB长度的概率密度函数
四面(四十分钟):
1.是否做过机器学习算法上的性能优化,介绍了项目中超分算法优化的内容
2.为什么要对连续型数值进行离散化,这样做有什么优势
3.stacking模型最后一层用于二分类的LR是用离散型的数据还是连续型的数据,有什么区别
4.详细解释了弱模型特征的生成方法和思考角度
五面(主管面 现场面 一小时五十分钟):
四面当晚收到去现场面试的通知,经历了春招和秋招以来时间最久和最紧张的一场面试,所幸面试官人很好,缓和了一些
1.详细介绍了第一段实习的个性化推荐的项目,以及团队内的分工合作,自己负责什么领域。生成的模型方案如何评价和测试,处理样本时是否遇到样本不均衡的问题,如何解决
2.分别解释分层采样和蓄水池采样
3.就第二段实习经历询问了GAN模型和多帧模型以及loss设计
4.就机器学习项目的pipeline进行了详细的介绍,询问的问题部分重复,在此不述
5.开放题:就之前的面试记录来看,想继续询问优惠券发放的问题,你是否有了更深入的了解和更好的思路
6.编程题:有log日志,每行有两列(用户ID,访问的商品ID),若两个用户均有访问一个商品ID的记录,则两个用户关系指数加一,求所有用户对中关系指数最大的TopK;如果内存中无法存入全部数据,该如何解决。能否使用hadoop的方式解决,原理和思路?能否使用合理的切片方式,使得分布式的机子上的排序结果汇总后就是最终结果?
7.思维题:有一座桥,A通过需要25分钟,B通过需要20分钟,C通过需要10分钟,D通过需要5分钟,一个桥同时只能走两人,且快的人需要等慢的人到达才能一起到达。走桥时必须要有手电筒才能经过,且手电筒只有一个,问如何在60分钟内使得四人均通过
HR面(三十分钟):
现场面结束后主管告诉我本轮已经是最后一场技术面,如何有后续面试就是HR面,在返程地铁上就收到了第二天的电话面试通知,非常高兴
1.简单自我介绍
2.讲述自己的特点和所擅长做的事
3.就两段实习经历讲讲自己对于两家公司的看法
4.讲讲自己对于一个公司的期望
5.认为自己在工作中最有优势的事情是什么
6.自己希望从事怎样方向的工作,是科研型的还是工程型的
7.自己的兴趣爱好是什么
8.有什么想问的
来自:https://mp.weixin.qq.com/s/fIHUOyK8KIyuPjGGOMoubQ
个人微信公众号,专注于学习资源、笔记分享,欢迎关注。我们一起成长,一起学习。一直纯真着,善良着,温情地热爱生活,,如果觉得有点用的话,请不要吝啬你手中点赞的权力,谢谢我亲爱的读者朋友。