防止过拟合的方法都有哪些?
1)正则化 2)drop out 3)增加数据 4)提前停止训练 5)Batch Normalization
dropout为什么可以防止过拟合?
dropout是指在模型训练的过程中,将神经元按一定的概率进行从网络中丢弃,即置零,对于梯度随机下降来说,因为是随机丢弃,所以是每一个mini-batch都在训练不同的网络。所以可以看成是一个ensemble的过程。有助于防止过拟合。
dropout也能达到同样的效果,它强迫一个神经单元,和随机挑选出来的其他神经单元共同工作,达到好的效果。消除减弱了神经元节点间的联合适应性,增强了泛化能力。
方差和均值对模型的影响?
方差就是所有可能的数据训练出的模型输出的平均值和真实模型的差距
偏差是不同的训练数据集训练出的模型”的输出值之间的差异
方差偏大即模型过拟合,输入很小的变化就会引起模型输出很大的变化,模型越复杂,方差越大
偏差偏大即模型欠拟合,不论什么输入模型的输出都和真实的值差距很大,模型越复杂,偏差越小
离群点对SVM的影响?
离群点是指一个时间序列中,远离序列一般水平的极端大值和极端小值。离群点是一个数据对象,它显著不同于其他对象,但是离群点并不是异常值。概括的来说,离群点是由于系统受到外部干扰而造成的,有可能是采样误差,也有可能是研究对象本身受各种偶然因素引起的。
在SVM模型中,如果支持向量包含了离群点,那么对模型的影响就会很大了。
这是可以使用软间隔最大化,对每一个样本引入一个松弛变量。这样离群点加上松弛变量到分离间隔的距离大于 1 ,就可以了,同时,在目标函数中,加入对松弛变量的规则化因子,防止松弛变量任意大。
SVM中函数间隔和几何间隔?
γ^=y(i)(wTx(i)+b) ,函数间隔,表示分类的正确性和确信度,函数间隔大于零则分类正确,最大化函数间隔,但是函数间隔在分离超平面不变的情况下可以任意大。
几何间隔表示点x到分离超平面的距离,是对函数间隔的规范化。
sigmod对逻辑斯蒂回归的作用?
特征值和奇异值的关系?
矩阵的乘法对应于一个变换(平移,旋转,缩放),从特征值和特征变量的定义来看,Ax=λx,对特征向量 x 进行 A变换,实质为对 x 进行缩放,缩放因子为特征值 λ,所以特征向量的几何含义为,通过方阵 A变换,只进行伸缩变换。特征值表示的是这个特征有多重要,类似于权重,特征向量就是基,可以理解成坐标系的轴。
总结来说,特征值分解可以得到特征值与特征向量,特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么
PCA降维即是保留特征值大的特征向量方向的信息。
但是特征值和特征向量都是针对的方阵而言,奇异值分解类似于特征值分解,不过奇异值分解适用于任意矩阵,
为什么ssd对小物体精确度不高,为什么ssd快?
SSD对图像进行了缩放,小目标的信息很少,Faster RCNN 是将短边设为 600。
SSD相对于Faster RCNN,直接对提取的 proposal 进行预测。
传统图像处理方法
数学优化方法比如牛顿法
Selective Search work