携程机器学习实习面试

最新推荐文章于 2024-07-24 10:43:57 发布

三印

最新推荐文章于 2024-07-24 10:43:57 发布

阅读量3.3k

点赞数 5

分类专栏：机器学习面试文章标签：携程机器学习实习面试面试问题

本文链接：https://blog.csdn.net/zehui6202/article/details/79276828

版权

机器学习面试专栏收录该内容

4 篇文章 0 订阅

订阅专栏

2018/08/04 更新：最近在复习功课，为了秋招做准备，一些新的知识总结也会穿插进来。

2018.02.06-携程面试问题：

(1) 决策树的节点划分准则：

1、信息熵的前后变化-信息增益，ID3算法用的就是该准则 2、信息增益率：克服计算信息增益过程中，由于某特征取值种类过多（具体参考信息增益计算公式），计算出的信息增益大，造成有偏，故引入信息增益率计算来克服该类问题，算法是C4.53、基尼系数：反应样本集合纯度，基尼指数越小，样本集合纯度越高，Cart决策树算法；论文指出，三个准则的选择对结果不会有太大影响；

(2) 学习率问题：

学习率设定，太大导致跳过最优点，太小导致迭代过程时间较长，改进的办法是变长度迭代：即在最开始的时候增加步长，往后减小步长，这个在梯度下降里面使用的非常多；

(3) Xgboost和文本是否了解：

随机森林更加熟悉，Xgboost是GBDT的一种改进版，由陈天奇大神开发的，相比于GBDT，主要引入了正则项，二阶泰勒展开，和非线性分类器，也支持特征层面的并行（区别于bagging的分类器并行），16年微软又开源了一个lightbgm算法，速度比xgboost还要更快，精度差不多；文本相关的知识知识了解过一些，没有过多的深入研究，主要还是做数据挖掘，XGBOOST和LIGHTGBM很不，这两个boost算法在业界用的非常多，想从事数据挖掘、算法岗位的同学需要深入了解一下，或者打打比赛；bagging和stacking这一类集成算法也是；

(4) 随机森林调参问题：

一般是用实验法，迭代到满足性能的棵树，并且取最小值，以减少计算代价损耗；并且，随机森林可以用于包裹式的特征选择，即贪心搜索，依靠降序oob_score特征排列，进行最佳特征组合选择，比较消耗资源（数据过大的话），具体的代码可以参考我之前写的博文。

(5)SQL左连接和右连接区别：

左连接以左表为主表，将右表中与左表字段相同的数据，形成映射，并保留在左表中，右连接反之，一般都用左连接就可以了，只是换个表顺序，就能很好的解决；内连接就是找到两张表公共的部分，在Hive里面感觉还是用内连接比较多，因为碰到大表小表关联的话，很容易就造成倾斜了，具体的Hive调优，可以参考博文《Hive调优》

(6)是否有过机器学习项目：

这里没答好，应该准备充分，把简历里面KAGGLE比赛的所有过程所做的东西，讲得更加具体，其他公司实习的项目讲得细致一点，自己的论文也是，自己三言两语带过，给了第二面技术官一种没有实践经验的感觉。反思！

(7)样本数据不平衡处理方法：

因为我的第二篇小论文就是这个，所以答的比较好。因为在不平衡数据集上训练模型，将导致其对小样本类的识别精度和准确率低、但是小样本类往往又是及其重要的，例如短信欺诈等；处理方法一般是用SMOTE、过采样、欠采样技术在数据集上进行相应处理，减少数据集的倾斜率；在算法层面一般可以用级联、代价敏感转化和集成学习(adboost)等；

总结

这次面试的问题不难，但是感觉自己准备不够充分、对面试还是缺乏经验、没有达到个人的最佳水平，引以为鉴，下次再接再厉！结果还未知，但是我认为每次面试都是一次学习的过程，特此分享，希望对大家有所帮助！

最后面试官问你有什么问题，这个怎么问？我只是问了公司主要在做什么，我应该还需要问什么？当然，突然想到，可以问面试官，我在面试中有什么不足，帮助下次提高！