携程机器学习实习面试

2018/08/04 更新:最近在复习功课,为了秋招做准备,一些新的知识总结也会穿插进来。

2018.02.06-携程面试问题:

(1) 决策树的节点划分准则:

1、信息熵的前后变化-信息增益,ID3算法用的就是该准则 2、信息增益率 :克服计算信息增益过程中,由于某特征取值种类过多(具体参考信息增益计算公式),计算出的信息增益大,造成有偏,故引入信息增益率计算来克服该类问题,算法是C4.53、基尼系数:反应样本集合纯度,基尼指数越小,样本集合纯度越高,Cart决策树算法;论文指出,三个准则的选择对结果不会有太大影响;

(2) 学习率问题:

学习率设定,太大导致跳过最优点,太小导致迭代过程时间较长,改进的办法是变长度迭代:即在最开始的时候增加步长,往后减小步长,这个在梯度下降里面使用的非常多;

(3) Xgboost和文本是否了解:

随机森林更加熟悉,Xgboost是GBDT的一种改进版,由陈天奇大神开发的,相比于GBDT,主要引入了正则项,二阶泰勒展开,和非线性分类器,也支持特征层面的并行(区别于bagging的分类器并行),16年微软又开源了一个lightbgm算法,速度比xgboost还要更快,精度差不多;文本相关的知识知识了解过一些,没有过多的深入研究,主要还是做数据挖掘,XGBOOST和LIGHTGBM很不,这两个boost算法在业界用的非常多,想从事数据挖掘、算法岗位的同学需要深入了解一下,或者打打比赛;bagging和stacking这一类集成算法也是

(4) 随机森林调参问题:

一般是用实验法,迭代到满足性能的棵树,并且取最小值,以减少计算代价损耗;并且,随机森林可以用于包裹式的特征选择,即贪心搜索,依靠降序oob_score特征排列,进行最佳特征组合选择,比较消耗资源(数据过大的话),具体的代码可以参考我之前写的博文。

(5)SQL左连接和右连接区别:

左连接以左表为主表,将右表中与左表字段相同的数据,形成映射,并保留在左表中,右连接反之,一般都用左连接就可以了,只是换个表顺序,就能很好的解决;内连接就是找到两张表公共的部分,在Hive里面感觉还是用内连接比较多,因为碰到大表小表关联的话,很容易就造成倾斜了,具体的Hive调优,可以参考博文《Hive调优》

(6)是否有过机器学习项目:

这里没答好,应该准备充分,把简历里面KAGGLE比赛的所有过程所做的东西,讲得更加具体,其他公司实习的项目讲得细致一点,自己的论文也是,自己三言两语带过,给了第二面技术官一种没有实践经验的感觉。反思!

(7)样本数据不平衡处理方法:

因为我的第二篇小论文就是这个,所以答的比较好。因为在不平衡数据集上训练模型,将导致其对小样本类的识别精度和准确率低、但是小样本类往往又是及其重要的,例如短信欺诈等;处理方法一般是用SMOTE、过采样、欠采样技术在数据集上进行相应处理,减少数据集的倾斜率;在算法层面一般可以用级联、代价敏感转化和集成学习(adboost)等;

总结

这次面试的问题不难,但是感觉自己准备不够充分、对面试还是缺乏经验、没有达到个人的最佳水平,引以为鉴,下次再接再厉!结果还未知,但是我认为每次面试都是一次学习的过程,特此分享,希望对大家有所帮助!

最后面试官问你有什么问题,这个怎么问?我只是问了公司主要在做什么,我应该还需要问什么?当然,突然想到,可以问面试官,我在面试中有什么不足,帮助下次提高!

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值