面经
文章平均质量分 88
菜菜雪丫头
这个作者很懒,什么都没留下…
展开
-
【无监督学习和有监督学习的区别】
1、有监督学习:通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测和分类的目的,也就具有了对未知数据进行预测和分类的能力。就如有标准答案的练习题,然后再去考试,相比没有答案的练习题然后去考试准确率更高。又如我们小的时候不知道牛和鸟是否属于一类,但当我们随着长大各种知识不断输入,我们脑中的模型越来越准确,判断动物也越来越准确。有监督学习可分为回归和分类。回归:即给出一堆自变量X和因变量Y,拟合出一个函数,这些自变量X就是特征向量,因变量Y转载 2022-03-31 21:51:54 · 11100 阅读 · 0 评论 -
【相似性度量中用到的一些距离函数】
1.欧氏距离(欧几里得距离 Euclidean Distance)最常见的距离度量,即欧几里得距离。它是一种距离度量,直观解释为连接两点的线段的长度。公式:优点低维数据并且向量的大小对于测量很重要时,欧几里德距离效果很好。缺点虽然它是一种常见的距离度量,但欧几里德距离不是尺度不变的,这意味着计算的距离可能会根据要素的单位而发生偏斜。通常,在使用此距离度量之前需要对数据进行归一化。此外,随着数据维度的增加,欧几里得距离变得越来越没有用,另外高维下距离非常不直观。2.余弦相似度 Cosine原创 2022-03-30 21:25:51 · 1744 阅读 · 1 评论 -
【KL散度原理与实现】
1. 定义KL散度( Kullback–Leibler divergence),又称相对熵(relative entropy),是描述两个概率分布P和Q差异的一种方法。2. 特点它是非对称的,这意味着D(P||Q) ≠ D(Q||P)。3. 意义特别的,在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。KL散度在信息论中有自己明确的物理意义,它是用来度量使用基于Q分布的编码来编码来自P分布的样本平均所需的额外的Bit个数。而其原创 2022-03-30 15:51:43 · 1642 阅读 · 0 评论 -
【常见的损失函数总结】
损失函数的定义损失函数,又叫目标函数,是编译一个神经网络模型必须的两个要素之一。另一个必不可少的要素是优化器。损失函数用来评价模型的预测值和真实值不一样的程度,损失函数越好,通常模型的性能越好。不同的模型用的损失函数一般也不一样。损失函数分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别,结构风险损失函数是指经验风险损失函数加上正则项。损失Loss必须是标量,因为向量无法比较大小(向量本身需要通过范数等标量来比较)。损失函数一般分为4种,平方损失函数,对数损失函数原创 2022-03-30 15:28:18 · 27129 阅读 · 0 评论 -
【ResNet残差网络解析】
深度残差网络(Deep residual network, ResNet)的提出是CNN图像史上的一件里程碑事件。论文:Deep Residual Learning for Image Recognition思想作者根据输入将层表示为学习残差函数。实验表明,残差网络更容易优化,并且能够通过增加相当的深度来提高准确率。核心是解决了增加深度带来的副作用(退化问题),这样能够通过单纯地增加网络深度,来提高网络性能。深度网络的退化问题1️⃣ 网络的深度为什么重要?因为CNN能够提取low/mid/原创 2022-03-27 18:00:08 · 4436 阅读 · 0 评论 -
【梯度消失和梯度爆炸问题详解】
1.为什么使用梯度下降来优化神经网络参数?目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。这样做是有一定原因的,首先,深层网络由许多非线性层堆叠而来,每一层非线性层都可以视为是一个非线性函数 (非线性来自于非线性激活函数),因此整个深度网络可以视为是一个复合的非线性多元函数。我们最终的目的是希望这个非线性函数很好的完成输入到输出之间的映射,也就是找到让损失函数取得极小值。所以最终的问题就变成了一个寻找函数最小值的问题,在数学上,原创 2022-03-26 20:56:37 · 1804 阅读 · 0 评论 -
【Attention机制讲解】
Attention机制讲解attention是一种能让模型对重要信息重点关注并充分学习吸收的技术,它不算是一个完整的模型,应当是一种技术,能够作用于任何序列模型中。Seq2Seq在开始讲解Attention之前,我们先简单回顾一下Seq2Seq模型,传统的机器翻译基本都是基于Seq2Seq模型来做的,该模型分为encoder层与decoder层,并均为RNN或RNN的变体构成,如下图所示:该模型对于短文本的翻译来说效果很好,但是其也存在一定的缺点,如果文本稍长一些,就很容易丢失文本的一些信息,为了原创 2022-03-24 15:15:18 · 6575 阅读 · 1 评论 -
【常用的激活函数】
一、什么是激活函数?在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数 Activation Function,又称激励函数,如下图所示:二、激活函数的作用(为什么需要激活函数)?如果不用激励函数(其实相当于激励函数是f(x)=x),在这种情况下你每一层节点的输入都是上层输出的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(Perceptron)了,那么网络的逼近能力就相当有限。正因为上原创 2022-03-23 11:23:39 · 5961 阅读 · 0 评论 -
【L1正则化与L2正则化详解及为什么L1和L2正则化可防止过拟合】
一、为什么L1和L2正则化可防止过拟合?线性模型常用来处理回归和分类任务,为了防止模型处于过拟合状态,需要用L1正则化和L2正则化降低模型的复杂度,很多线性回归模型正则化的文章会提到L1是通过稀疏参数(减少参数的数量)来降低复杂度,L2是通过减小参数值的大小来降低复杂度。下面我们从梯度角度进行分析。1、L1正则化L1正则化的损失函数为:上式可知,当w大于0时,更新的参数w变小;当w小于0时,更新的参数w变大;所以,L1正则化容易使参数变为0,即特征稀疏化。2、L2正则化L2正则化的损失函数为:原创 2022-03-22 10:15:24 · 2662 阅读 · 0 评论 -
【防止过拟合的方法】
深度学习有哪些防止过拟合的方法?使用正则化;数据增强;提前终止;加bn层;dropout;参数绑定与参数共享;辅助分类节点;bagging方法;原创 2022-03-21 20:13:08 · 3452 阅读 · 0 评论 -
【面经2.KL散度(相对熵)】
KL散度、JS散度和交叉熵KL散度、JS散度和交叉熵三者都是用来衡量两个概率分布之间的差异性的指标。不同之处在于它们的数学表达。对于概率分布P(x)和Q(x):1. KL散度(Kullback–Leibler divergence)KL散度的定义KL divergence(KL散度又叫相对熵): 它表示用分布 q(x) 模拟真实分布 p(x) 所需要的额外信息。同时也叫KL距离,就是两个随机分布间距离的度量。取值范围: [0,+∞][0, +\infty ][0,+∞],当两个分布接近相同的时候原创 2022-03-18 21:16:18 · 1728 阅读 · 0 评论 -
【面经1:梯度下降】
1. 定义梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。在机器学习中,基于基本的梯度下降法发展了两种梯度下降方法,分别为随机梯度下降法和批量梯度下降法。梯度:就是对f原创 2022-03-17 20:51:02 · 473 阅读 · 0 评论