二、embedding | |||||
NNLM->Word2vec->Doc2vec->FastText->ELMO ->GPT->Bert | |||||
1. word2vec的原理,为何使用哈夫曼树,如何构建哈夫曼,负采样的原理; word2vec的CBOW与skipGram模型及两种训练方式(负采样\层级softmax),两种训练方式的区别和应用场景。 | |||||
2. 对于一个取值较多的类别变量,在不能进行onehot的情况下如何使用 | |||||
写个tf-idf | |||||
CountVectorizer | |||||
3. 预训练向量模型的理解,从word2vec到bert,到ERNIE与XLNET,Bert与ERNIE和Xlnet需要有所了解 | |||||
4. 常见的语言模型有哪些; | |||||
5. Glove与word2vec的比较;Glove如何训练的,用的多少维; | |||||
6. 如何计算两个句子相似度; | |||||
7. 词袋模型; | |||||
7. fasttext。 讲一下fasttext,说一下与word2vec的联系与区别,训练word2vec有哪些重要参数;word2vec是哪个包下面的模型,自己怎么训练的,有哪些参数可以设置,参数是怎么设置的,为什么这么设置; | |||||
三、建模 | |||||
1. 解释textCNN,讲一下cnn,为什么cnn中要padding、池化呢;卷积的意义 | 池化的意义:一种降采样技术,目标就是要减少后面进行全连接的数据量 | 卷积的意义:衡量输入和核函数的匹配度,一各卷积核可以提取图片中特定的特征 | |||
2. 解释下textRNN与lstm的联系与区别 | 13. RNN以及RNN的初始化; | ||||
3. RNN与lstm有什么区别,lstm解决了RNN的什么问题,如何解决的,写下解决的原理,lstm解决梯度消失的本质原因(方向更新参数时RNN的激活函数f为指数次,lstm变成了求和的形式)。LSTM的图,GRU的图; rnn、lstm、gru的区别,LSTM的单元结构图和6个公式要记住 | |||||
4. bi-lstm | |||||
bi-lstm-attention | |||||
LSTM+attention机制是如何做句子分类的。 | |||||
5. attention机制: | |||||
1) attention为什么比RNN、CNN好 | |||||
2) attention序列的对齐机制; | |||||
3)有几种attention,Attention和self-attention具体是怎么实现的,对应什么场景; | |||||
7. 解释下seq2seq模型,如果用seq2seq进行embedding,做相似度计算,会如何(替代Glove的话) | |||||
6. transoformer的整体架构,transofmer提出的Q、K、v,多头的理解、position embedding位置编码、Mask操作。transormfer的encoder和decoder有哪些不同; | |||||
encoder-decoder attention与self-attention 的mechanism有哪些不同? | |||||
mult-head self attention具体的计算过程是怎样的? | |||||
5.2 Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的?有什么变化? | |||||
5.3 muti-head attention和scaled dot-product attention:为什么是缩放点积,而不是点积模型,相较于加性模型,点积模型具备哪些优点? | |||||
多头机制为什么有效; | |||||
5.6. transformer为什么比lstm好 | |||||
17. 解释bert,bert的模型架构,多少层、什么任务适合bert,什么任务不适合。 BERT和GPT的区别; | |||||
12. 常见的分词算法,词袋模型(tfidf,textrank) | |||||
13 解释下textrank,pagerank,doc2vec | |||||
14. 简历上项目如何设计的,遇到过哪些印象深刻的问题; | |||||
15. HMM过程是怎样的,对HMM,CRF的理解,CRF的损失函数是什么,维特比算法的过程 | |||||
16. 怎么调试tensorflow; | |||||
18. tensorflow手写一个卷积代码 | |||||
19. 项目中遇到了哪些困难,如何解决的; | |||||
6. bi_lstm+crf的损失函数,损失函数中的max有什么作用,为什么要减去这个max。实体抽取的项目中,bilstm是如何与crf链接的?bi-lstm起的作用是啥,能否用cnn代替 | |||||
六、tensorflow的使用 | |||||
1)tf如何加入L2正则; | |||||
七、一套文本分类的框架 | |||||
八、项目 | |||||
数据预处理: | |||||
正则表达式去除标点 | |||||
停用词去去除没有用的词 | |||||
提取词干 | |||||
字母大写转小写 | |||||
按照单词创建词表 | |||||
数据量多少 | |||||
最后结果是什么 | |||||
网络输入的tensor是什么样的,最终输出是多少 | |||||
项目细节:比如清洗流程、Embedding的维度之类 | |||||
模型的参数要记一记 | |||||
深度学习面试题 | 刷面经 | ||||
1. 简单实现bp算法或者梯度下降 | |||||
2. 池化层如何反向传播 | |||||
3. 上采样有哪些方法 | |||||
4. 激活函数与损失函数,用到了什么激活函数,怎么选择激活函数的使用; | |||||
5. 梯度消失、梯度爆炸的原因和解决方法 | |||||
6. 说说BN层的作用,加在激活函数前与后效果有何不同; | |||||
7. 如何理解dropout机制,dropout机制在解决一个什么问题,其中的原理 | |||||
8. L1正则与L2正则的作用 | |||||
11. 讲一下高方差和高偏差; | |||||
12. 在项目中使用到了f1, 为什么不用precision、recall | |||||
14、模型过拟合了怎么处理 | |||||
1)加入L2正则 | |||||
2)early stopping | |||||
3)dropout | |||||
4)简化模型结构; | |||||
写个快排、几个简单的数据结构算法 | |||||
1. 笔试全是跟pandas相关的,复杂点的用apply、groupby、agg | |||||
2. tensorflow面试题 | |||||
3. numpy面试题 | |||||
大数据 | |||||
1. 阐述Hadoop与Spark的区别 | |||||
2. Spark的工作原理是什么 | |||||
机器学习面试题 | |||||
1. 特征工程如何做的,有哪些特征 | |||||
2. 单模型与模型融合的结果差距多少,如何进行的融合 | |||||
3. 阐述SVM原理,为何使用对偶性以及对偶性原理,SVM如何解决多分类,SVM与LR对比 | |||||
4. 二分类,多分类,ovr ov? | |||||
5. 阐述GBDT、xgboost、lightGBM的异同,xgb的优势,lgb的优势 | |||||
6. 写公式:交叉熵、softmax | |||||
7.写公式并说一下KNN、kmeans、朴素贝叶斯的原理 | |||||
8.在分类任务中,会用到哪些loss function | |||||
9. 监督与无监督的区别 | |||||
10. 机器学习和深度学习过拟合问题以及解决方法 | |||||
11. GBDT和randomforest介绍,xgboost的节点是如何分裂的 | |||||
12. 推导LR, 逻辑回归的优缺点 | |||||
13. 讲讲randomforest,决策树,ID3,C4.5, CART,写出公式 | |||||
五、性能评估 | |||||
评估方法 | |||||
recall | |||||
acc:解释下acc和precision | |||||
precision | |||||
有什么区别,都是越高越好吗 | |||||
一、数据预处理:(1天)
正则表达式去除标点
停用词去去除没有用的词
提取词干
字母大写转小写
按照单词创建词表
二、embedding:(2天)
1. word2vec的原理,为何使用哈夫曼树,如何构建哈夫曼,负采样的原理; word2vec的CBOW与skipGram模型及两种训练方式(负采样\层级softmax),两种训练方式的区别和应用场景。
2. 对于一个取值较多的类别变量,在不能进行onehot的情况下如何使用
写个tf-idf
CountVectorizer
3. 预训练向量模型的理解,从word2vec到bert,到ERNIE与XLNET,Bert与ERNIE和Xlnet需要有所了解
4. 常见的语言模型有哪些;
5. Glove与word2vec的比较;Glove如何训练的,用的多少维;
6. 如何计算两个句子相似度;
7. 词袋模型;
三、建模:(4天)
1. 解释textCNN
2. 解释下textRNN与lstm的联系与区别
3. RNN与lstm有什么区别,lstm解决了RNN的什么问题,如何解决的,写下解决的原理,lstm解决梯度消失的本质原因(方向更新参数时RNN的激活函数f为指数次,lstm变成了求和的形式)。LSTM的图,GRU的图; rnn、lstm、gru的区别,LSTM的单元结构图和6个公式要记住
4. bi-lstm
bi-lstm-attention
LSTM+attention机制是如何做句子分类的。
5. attention机制:
1) attention为什么比RNN、CNN好
2) attention序列的对齐机制;
3)有几种attention,Attention和self-attention具体是怎么实现的,对应什么场景;
6. transoformer的整体架构,transofmer提出的Q、K、v,多头的理解、position embedding位置编码、Mask操作。transormfer的encoder和decoder有哪些不同;
encoder-decoder attention与self-attention 的mechanism有哪些不同?
mult-head self attention具体的计算过程是怎样的?
5.2 Transformer在GPT和Bert等词向量预训练模型中具体是怎么应用的?有什么变化?
5.3 muti-head attention和scaled dot-product attention:为什么是缩放点积,而不是点积模型,相较于加性模型,点积模型具备哪些优点?
多头机制为什么有效;
5.6. transformer为什么比lstm好
6. bi_lstm+crf的损失函数,损失函数中的max有什么作用,为什么要减去这个max。实体抽取的项目中,bilstm是如何与crf链接的?bi-lstm起的作用是啥,能否用cnn代替
7. fasttext。 讲一下fasttext,说一下与word2vec的联系与区别,训练word2vec有哪些重要参数;word2vec是哪个包下面的模型,自己怎么训练的,有哪些参数可以设置,参数是怎么设置的,为什么这么设置;
7. 解释下seq2seq模型,如果用seq2seq进行embedding,做相似度计算,会如何(替代Glove的话)
12. 常见的分词算法(tfidf,textrank)
13 解释下textrank
14. 简历上项目如何设计的,遇到过哪些印象深刻的问题;
15. HMM过程是怎样的,对HMM,CRF的理解,CRF的损失函数是什么,维特比算法的过程
16. 怎么调试tensorflow;
17. 解释bert,bert的模型架构,多少层、什么任务适合bert,什么任务不适合。 BERT和GPT的区别;
18. tensorflow手写一个卷积代码
19. 项目中遇到了哪些困难,如何解决的;
五、性能评估(0.5天)
评估方法
recall
acc:解释下acc和precision
precision
有什么区别,都是越高越好吗
六、tensorflow的使用
1)tf如何加入L2正则;
七、一套文本分类的框架
八、项目(2day)
数据量多少
最后结果是什么
网络输入的tensor是什么样的,最终输出是多少
项目细节:比如清洗流程、Embedding的维度之类
模型的参数要记一记
机器学习面试题(2day)
1. 特征工程如何做的,有哪些特征
2. 单模型与模型融合的结果差距多少,如何进行的融合
3. 阐述SVM原理,为何使用对偶性以及对偶性原理,SVM如何解决多分类,SVM与LR对比
4. 二分类,多分类,ovr ov?
5. 阐述GBDT、xgboost、lightGBM的异同,xgb的优势,lgb的优势
6. 写公式:交叉熵、softmax
7.写公式并说一下KNN、kmeans、朴素贝叶斯的原理
8.在分类任务中,会用到哪些loss function
9. 监督与无监督的区别
10. 机器学习和深度学习过拟合问题以及解决方法
11. GBDT和randomforest介绍,xgboost的节点是如何分裂的
12. 推导LR, 逻辑回归的优缺点
13. 讲讲randomforest,决策树,ID3,C4.5, CART,写出公式
深度学习面试题(2day)
1. 简单实现bp算法或者梯度下降
2. 池化层如何反向传播
3. 上采样有哪些方法
4. 激活函数与损失函数,用到了什么激活函数,怎么选择激活函数的使用;
5. 梯度消失、梯度爆炸的原因和解决方法
6. 说说BN层的作用,加在激活函数前与后效果有何不同;
7. 如何理解dropout机制,dropout机制在解决一个什么问题,其中的原理
8. L1正则与L2正则的作用
10. 讲一下cnn,为什么cnn中要padding、池化呢;卷积的意义
11. 讲一下高方差和高偏差;
12. 在项目中使用到了f1, 为什么不用precision、recall
13. RNN以及RNN的初始化;
14、模型过拟合了怎么处理
1)加入L2正则
2)early stopping
3)dropout
4)简化模型结构;
写个快排(2day)
1. 笔试全是跟pandas相关的,复杂点的用apply、groupby、agg
2. tensorflow面试题
3. numpy面试题
3. 数据结构面试题
大数据
1. 阐述Hadoop与Spark的区别
2. Spark的工作原理是什么