刘丽娟的面试总结

复习计划:
一、HMM隐马尔可夫模型,最大熵模型,CRF条件随机场
2017.11.21-2017.11.30 (两周时间)
1、CRF原理,公式推导
2、CRF源代码阅读
3、CRF实体标注、词性标注、句法分析的应用
4、熟悉之前的项目工程

二、RNN神经网络扩展
2017.12.1-2017.12.16(两周时间)
1、RNN基本原理
2、CNN文本分类
3、word2vec原理及其源码阅读
4、智能对话和阅读理解系统,论文和代码理解

三、句法分析
1、双向传播抽取属性词

四、分词程序
1、源码阅读:斯坦福分词,结巴分词

五、textrank,pagerank
1、关键词抽取过程优化
2、情感词扩展过程

六、LDA
1、话题跟踪的过程

七、聚类算法,kmeans,层次聚类、密度聚类
1、专家观点聚类的过程

八、mapreduce原理理解及其spark源码阅读

九、GBDT和xgboost

穿插复习之前讲过的内容
1、各种优化算法,公式推导,代码实现。
2、线性回归和逻辑回归,公式推导,代码实现或源代码阅读。
3、SVM和SVR,公式推导,代码实现或源代码阅读。
3、分类决策树,公式推导。
4、二分查找

如何准备机器学习工程师的面试 ?
https://www.zhihu.com/question/23259302

数据结构和算法:
1、百度面试一面
作者:AngelCJ
链接:https://www.nowcoder.com/discuss/30547?type=2&order=3&pos=10&page=1
来源:牛客网

1.字符串移位,给出字符串abc##dfg##gh,实现将所有#移至字符串串头。输出####abcdfggh(个人认为可以用后向移位,减少移位次数)
2.给出一个二维矩阵,从(0,0)出发走到右下角,只能向右或向下走,找到一条路径,是这条路径上的总和最大。(个人认为使用动态规划或深度遍历)
3.给出一颗二叉树,两个叶节点,找到这两个叶节点互连通的一条最短路径。(个人认为主要是找两个叶节点的最近公共祖先)
其实考点不难,主要是基础,做到有思路,会写代码。
最大的遗憾是思路知道,但是代码不清晰,写的不好。

2、搜狗面试经验

n个苹果放入m个盒子

https://www.zhihu.com/question/51448931

经验分享:
海波面试经验分享:
三大块:数据结构,机器学习算法、项目经验
1、数据结构:手写代码是基础,需要多练练,面试的时候写不出来,挺吃亏的。看《剑指offer》这本书,也在leetcode上刷了一些题。代码熟悉之后,可以在纸上抄抄,毕竟键盘上打字符和在纸上写,还是有区别的。
2、机器学习算法:算法的用途,目标函数,如何求参数,基本模型要写能写出python代码。
3、项目经历:项目中用到的算法模型,进行提炼。

16年开始断断续续的准备,今年1月份开始正儿八经的弄了,过完年回来,又复习了一下,就开始面试了
让我手写过朴素贝叶斯和k均值,还好我之前都写过。
项目中用到的算法,你要知道这个算法的目标函数,原理,和其他算法对比的优缺点,以及一些重要的trick,比如svm中核函数。
周海波-数据挖掘工程师-工作3.5
年.pdf
213.19KB

2017年度面试总结–zh
b.pdf
599.17KB
杭州天猫电话面试 问的几个问题
1、线性回归
2、逻辑回归
3、分类:决策树分类、建立决策树的过程,信息熵和信息增益比较,ID3和C45区别
GBDT
解释朴素贝叶斯分类
3、SVM是如何用核函数把样本映射到高维空间的
4、HMM的思想

豆瓣自然语言处理笔试和面试题目
笔试题目:
1、扑克牌A-K,有放回随机抽样,至少抽多少次才能把所有花色的扑克牌抽全。
2、SVM优化目标函数,约束条件。
w,b的推导过程(拉格朗日函数及其约束)。
解释支持向量。
3、快速排序算法,quick_sort(list,size,reverse)
reverse==0降序, reverse==1升序
4、解释以下现象的原因并提出解决方案。
(1)训练误差小。
(2)训练误差大。
(3)训练误差减小慢。
(4)训练误差减小慢,在一个时刻突然急速增大。
(5)在训练集上误差小,验证集上误差大。
(6)训练集上和验证集上误差都小,在测试集上误差大。
(7)训练集,验证集,测试集误差都小,但产品经理不满意。
面试总结:
1、经典算法的代码实现。比如LDA,SVM,Kmeans聚类算法。
2、经典算法的公式推导和核心思想的解释。
优化目标,参数求解,自己能独立的纸上推导出来,比如SVM。
3、经典度量公式能立马写出来。
比如,熵:已知P1+P2+….+Pn=1,求这些p的熵的和
新词发现:互信息,左右信息熵的公式。
分类的准确率,召回率的公式和理解。
4、了解数据的分布,比如解释正态分布。
抽样概率如上题1。
随机数的生成。
5、经典算法存在的问题:
如kmeans算法有什么优缺点,如何改进。

小米面试题目:
1、求两个字符串的最大公共子串
2、写出二分查找算法

面试复习计划:
复习知识:
1、概率图模型HMM、CRF(原理和应用)
2、分类算法:SVM、朴素贝叶斯、K近邻、决策树、集成学习(原理和应用)
3、聚类算法:kmeans、层次聚类、密度聚类(原理和应用)
4、LDA、PLSA、LSA(原理和应用)
5、半监督学习(算法思想)
6、新词发现(技术实现细节)
7、词语度量标准:频率、tfidf;
距离计算公式:欧氏距离、余弦距离;
特征选择算法:卡方统计、互信息、信息增益;
8、文本表示方法:向量空间模型、word2vec、doc2vec
9、深度学习算法CNN,RNN,LSTM,seq2seq(原理和应用)
10、关键词抽取pageRank、TextRank(方法和原理)
11、句子相似度simhash(方法和原理)
12、关系抽取(原理和应用)
13、大数据ETL的过程

基础知识:
1、数据结构和算法:动态规划
2、概率论:随机数的生成、数据分布
3、高等数学
4、最优化理论

刷题计划:
2017.3.10-2017.5.10
每天花两个小时时间刷两道题。
来源:leetcode,剑指offer,其他的大公司面试经历中提到的编程题目。

2017.4.7小米面试:
1、一面:SVM分类原理(推导,目标函数,优化),SVM是如何实现多分类的,多分类的评价。LDA话题模型原理。
2、编程题,字符串全排列(回溯思想)。过拟合的解决方法。
3、CRF原理。RNN的LSTM的三个门哪个重要,哪个不太重要。深度学习做分类,CNN是否用过。incoding,decoding原理。机器翻译是否做过。
总结:(1)知识面太窄了,对文本相关的理论和算法以及调优,要广而深。广:比如深度学习的分类运用,以及文本机器翻译相关。深:对于已做过项目,要深入理解原理,比如LSTM的原理。(2)对于编程和算法的知识盲点要勇于探索,比如回溯思想,深度学习的优化思路和LSTM原理理解。(3)对于各个算法的推导要非常熟练,比如SVM。(4)要深入理解各个概念,比如F值的计算。

2017.4.17美团面试总结:
只有一面 ,感觉挂了,主要原因分析:
1、问是否了解GBDT,说不是很了解。问是否了解排序(应该是用来做推荐的)

2017.4.18滴滴研究院面试总结:
同样顺利的挂了。
1、python语言相关的,比如xxx这种函数是什么。
2、是否会用C/C++,让写一个程序,不会写退缩了。
3、深度学习相关的,问是否懂attention机制。
4、问是否看过word2vec的源代码。
5、正则表达式写规则,还需再熟练一下。
6、算法相关的:问是否懂分治算法、动态规划。

2014.4.11
1、文本特征选择方法
卡方统计,信息增益,互信息
http://blog.sina.com.cn/s/blog_6622f5c30101datu.html

接下来一年的计划:
1、每天写一个程序,分别用python和C/C++。每天穿插看python和C/C++语法。
2、接下来把自己做的东西再捋一遍,按照简历。
3、按照研究结论的程序,熟练GBDT,包括调优。

搜狗面试总结:
一面,一个女生面的
问题:
问CRF怎么推理的,说没关注
Textrank里做关键词其实还有许多需要调整的地方,自己不知道
出了大数据的程序,需要规约的思想,不清楚
对话系统那个神经网络结构说的不清不楚。

三轮leader面:
Rnn进行实体标注说的不好
问CNN分类求解参数的反向传播过程不清楚
LDA主题模型没说清楚
智能对话那个神经网络结构不清不楚
说CRF的基本思想说的不好
写逻辑回归的优化参数的过程写的嗑磕趴趴
随机森林和GBDT没关注过

总结:自己其实用到的东西特别多,知道的也很多,但都不清不楚,迷迷糊糊,感觉涉及的面很广了,下一步需要深入进去每一个小点,把模型各个击破,全面透彻了解各个方面,深入进去,一定要钻进去。

抓住重点,各个击破。
首先回去先看一下那个CNN做股价涨跌的模型。
然后再看一下CRF

自然语言处理面试题汇总:
1、快速排序
2、归并排序
3、外排序
4、二分查找法
5、随机数生成(如下所示)
6、树的层级遍历
7、二叉树查找
8、如何进行词性标注(如下所示)

各个监督学习非监督学习算法
海量数据处理题,怎么求两个大文件的交集
(1)如何看判断两个词的相关度 (2)如果两个词没有共现过呢
项目中有没有用到聚类分类的方法
如果SVM线性不可分了怎么办?
平衡二叉树、ROC曲线、现场写层次遍历还有分治算法题
L1范数和L2范数区别

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值