算法工程师面试题目分享
1.GBDT和Xgboosting的区别,bagging和boosting的区别
(1)参考答案详见:https://blog.csdn.net/jackmcgradylee/article/details/77778001
(2)参考答案详见:https://blog.csdn.net/qq_23418043/article/details/82686117
2.词嵌入层原理
词向量也称为词嵌入,是指将词转换成为向量的形式。
word2vec从实现方法来看分为两个大的框架:一、Hierarchical Softmax模型框架;二、Negative Sampling模型框架。
3.过拟合处理办法
a.Early stopping
b.Dropout
c.正则化
d.数据集扩增
https://blog.csdn.net/heyongluoyao8/article/details/49429629
4.逻辑回归损失函数
https://blog.csdn.net/weixin_41537599/article/details/80585201
5.lstm和gru的区别
https://blog.csdn.net/lreaderl/article/details/78022724
GRU作为LSTM的一种变体,将忘记门和输入门合成了一个单一的更新门。同样还混合了细胞状态和隐藏状态,加诸其他一些改动。最终的模型比标准的 LSTM 模型要简单,也是非常流行的变体。
使用LSTM的原因之一是解决RNN Deep Network的Gradient错误累积太多,以至于Gradient归零或者成为无穷大,所以无法继续进行优化的问题。GRU的构造更简单:比LSTM少一个gate,这样就少几个矩阵乘法。在训练数据很大的情况下GRU能节省很多时间。
6.激活函数有哪些?
sigmoid, tanh, Relu ,swish(性能优于Relu),softmax等
http://www.360doc.com/content/17/1102/21/1489589_700400500.shtml
7.word2vec了解吗
有三层网络:Input层,一层隐藏层,output输出层
8.词向量编码
9.聚类算法如何确定聚类个数,以及选取聚类方法
https://www.jianshu.com/p/79bd982ea6c4?from=timeline
10.标准归一化的作用
a.加快收敛速度
b.提高预测精度