AI/机器学习（计算机视觉/NLP）方向面试复习4-CSDN博客

    def minCostClimbingStairs(self, cost: List[int]) -> int:
        dp = [0,0]
        n = len(cost)
        for i in range(2,n+1):
            dp.append( min(dp[i-2]+cost[i-2],dp[i-1]+cost[i-1]))
        return dp[n]

7. KL散度是什么

KL散度的理论意义在于度量两个概率分布之间的差异程度，当KL散度越大的时候，说明两者的差异程度越大；而当KL散度小的时候，则说明两者的差异程度小。

KL散度具备非负性，KL散度不具备对称性。

KL散度公式：

最后得到的第一项称作P和Q的交叉熵（cross entropy），后面一项就是熵。

8. LSTM是什么

LSTM是一种循环网络，和RNN差不多，RNN的变种有Elman Network和Jordan Network，两者区别为：一个输入的是隐藏层，另一个是直接把网络输出结果连接到每一层。

LSTM long-short term memory。他包含三个门，门由信号控制什么时候打开和关闭，控制是由网络学习得到的。

输入4个input：3个门信号，一个输入。输出是一个。中间使用了sigmoid作为激活函数，让门信号的数值在0-1之间，表示门打开的程度。

9. LSTM与GRU的区别？

1. LSTM 有 3 个门控单元(遗忘门、输入门、输出门),而 GRU 只有 2 个门控单元(重置门、更新门)。LSTM 有独立的cell状态,而 GRU 没有独立的cell状态。

2. LSTM 对长期依赖问题更擅长,可以更好地捕捉长期依赖特性。GRU 计算速度更快,对于某些任务可能会得到更好的效果。

3. LSTM 在需要长期记忆的应用场景中表现更好,如语言模型、机器翻译等。GRU 在一些对时间效率要求较高的应用中可能会更合适,如实时语音识别等。

9. 网络early stopping是什么？

网络 early stopping 是一种常用的机器学习模型训练技术,主要用于防止模型过拟合。它的工作原理如下:

将原始数据集划分为训练集、验证集和测试集。
在训练过程中,除了监控训练集的损失函数,还会监控验证集的损失函数。
当验证集的损失函数开始上升时,说明模型开始过拟合训练集。这个时候就可以停止训练,即"early stopping"。
最终选择在验证集上表现最好的那个模型参数作为最终模型。

early stopping 的优点包括:

可以防止模型过拟合,提高泛化能力。
可以减少训练时间,降低训练成本。
无需人为设置训练轮数,可自动确定最佳训练轮数。
对于不同的模型和数据集,能够自适应地确定最佳的停止时机。

10. RANSAC 随机抽样一致算法

针对数据拟合问题，是对最小二乘法的改善，能够剔除有缺陷的数据，得到干净、正确的拟合结果。

如图，左边是最小二乘法的结果，右边是RANSAC结果。一般这个算法会用在相机的位姿估计，特征点匹配。

具体流程是：所有观测中随机找到几个尽可能少的点去拟合模型，拟合后依次计算模型和所有观测数据的残差，当残差小于给定的阈值时，就将其判断为内点，大于给定的阈值时，就判断为外点，并统计内点的数量，然后再次随机选取几个点拟合模型迭代。如果本次拟合内点数量大于先前的模型，就将旧模型迭代为新的模型。

11. quadratic spline（二次样条插值）算法

一种插值方法，插值节点为网格节点。

12. BERT模型

BERT模型的结构就是transformer的Encoder结构。它是一个self-supervised学习方法。自监督任务是属于无监督任务的一种。它的具体做法就是：将输入文本中随机选择一些词，掩盖住。掩盖的方法有两种：（1）直接用其他随机词替换（2）用一个特殊符号替换。然后，将掩盖后的文本输入到BERT中。BERT的输入和输出都是向量，维度也一样。输出只看被掩盖部分的输出，将输出做Linear和softmax，得到一个输出。将这个输出与没掩盖的原本词汇做loss来训练。

这样的训练就能得到一个pre-trained model。这个model就可以被用到下游任务中，通过fine-tune+一些少量的标签就能得到好的结果。注意，微调（finetune）是有监督的。

他可以做的任务有以下几个例子：

（1）情感分析。输入一个句子，句子前加上CLS。将CLS的输出做分类。finetune的核心在于，BERT模型是通过pretrain训练好的参数，不需要初始化。而Linear是需要随机初始化的。

（2）做词性标注。判断一句话每个单词的词性。就是每个词输出一个class。

（3）NLI neural language Inference。就是判断两个句子是否矛盾。输入两个句子，中间用sep表示间隔。输出CLS的结果，判断。一般会用来做立场分析等。

（4）问答系统。输入文章和问题，输出两个数值s，e。s和e表示在文章的第s到e个字符就是答案。这个系统要保证答案一定在文章里。

13. 引导滤波和双边滤波

双边滤波：同时考虑邻域像素值和距离对该数值的影响

在高斯滤波的基础上加入了像素值权重项，也就是说既要考虑距离因素，也要考虑像素值差异的影响，像素值越相近，权重越大。

为什么双边滤波可以保边？因为在处理边缘信息时，由于边缘与邻居像素值差异很大，导致他们的权重降低，对边缘的滤波作用也会降低。

复杂度显然与窗口大小有关。

引导滤波：复杂度与窗口大小无关。

14. 矩阵置0

如果矩阵某个数为0，就把这个数所在行列所有数都置0

没想出来看的题解，估计后面也会忘。主要思路就是要建立两个标记数组，如果数为0，就把它行列对应标记数组置0。真的很巧妙。

15. pytorch 和tensorflow的区别，计算图

Pytorch的计算图就是动态的，几乎每进行一次运算都会拓展原先的计算图。最后生成完成，进行反向传播，当反向传播完成，计算图默认会被清除，即进行前向传播时记录的计算过程会被释放掉。所以，默认情况下，进行一次前向传播后最多只能用生成的计算图进行一次反向传播。

TensorFlow最初采用的是静态计算图，即需要在构建阶段定义完整的计算图，然后才能执行。这种方式可以进行更多的优化，提高性能，但在调试和开发过程中较为繁琐。

pytorch一个tensor的属性有：

data：用于存放tensor，是数据本体。

grad：存放data的梯度值。

grad_fn：记录生成该张量时所用的方法（函数——如乘法：grad_fn = < MulBackward0 >,加法：grad_fn = < AddBackward0 >），用于反向传播自动求梯度时选择求导方式。

requires_grad：指示该是否需要梯度，对于需要求导的tensor，其requires_grad属性必须为True，这样自动求导时才会对该张量求梯度。自己定义的tensor的requires_grad属性默认为False。神经网络层中的权值w的tensor的requires_grad属性默认为True，求导对象与被求导对象之间的中间变量也默认True。

is_ leaf : 指示是否是叶子结点（张量），用户创建的结点称为叶子结点（张量）如X与 W，运算生成的则不是。梯度计算时的值来源于叶子节点，即求各节点的梯度值时，都要带入叶子结点的值进表达式，所以在一次反向传播完成前叶子结点的值不能在原地址上被修改（In-place operation）（修改会报错）。is_leaf为True的时候是叶子节点。叶子节点在经过反向传播之后梯度值能够得以保留，非叶子节点的梯度值则为：None，中间虽然算过，但是最后默认都释放了。

计算图就是这个东西：方便链式法则算梯度的，自下而上就能算出梯度。torch要记得每轮梯度清零，叶子节点也就是x和w在算梯度的时候不能修改。