前情
投递时间:3.9
笔试:3.13
一面:3.28
流程结束邮件:3.30
面试官简单介绍了部门情况,广告投放部门,普通的数据分析工作(通过数据分析找问题–> 归因–>问题优先级排序–>解决办法)。
流程
主要是在深挖简历
- 自我介绍(教育经历 -> 项目经历 -> 实习经历)
- 介绍一个做过的数据分析case(持续问细节)
- 算法题
- 业务问题
- 编程题
- 统计问题
- 反问环节
数据分析case
介绍了基于RFM模型的电商平台的用户价值分析
面试官提问:
- 数据预处理做了哪些?
删除重复值、缺失值 - 为什么选择删除缺失值?有其他的处理方法吗?
数值型:均值、中位数、拟合值;缺失太多直接删除该列
非数值型:邻近的 - RFM三个值的得分怎么计算的?
- 如何根据得分划分出的八类用户?
- 为什么打分标签用0-1二值标签,而不是更多的值?
- 为什么要和每组的平均值比较打标签?
- 划分出的八类用户有给出具体的营销方案吗?
算法题
- 介绍一个有监督学习和无监督学习的算法,比较一下二者的优缺点。
有监督与无监督的对比 - 整理常见的机器学习算法
GitHub上别人整理的算法 - 常见的分类评价指标
precision、recall、accuracy、f1-score
分类指标详解 - 分类问题样本不均衡怎么解决?
(1)用f1-score权衡precision和recall
(2)扩大数据集
(3)小类过采样or大类欠采样or both
(4)换算法(SVM、决策树往往在类别不均衡数据上表现不错)
(5)用代价函数学习得到每个类的权值,大类的权值小,小类的权值大。刚开始,可以设置每个类别的权值与样本个数比例的倒数,然后可以使用过采样进行调优。
更多…… - 非分类问题,如何评价逻辑回归效果?
业务问题
- 字节的商业变现模式是什么?
- 以头条为例,用户看到一定的新闻数量后会插入一条广告,这个数量怎么确定?(提示:一般来说广告投放数量与盈利成正比,但投入越多越好吗?)
编程题
SQL中rank()和row_number()的区别
统计问题
多重共线性问题以及解决办法。
反问环节
- 岗位职责:与产品对接的数据分析
- 编程要求:SQL必须熟练