- 博客(75)
- 收藏
- 关注
原创 深度学习之Dropout
dropout一大缺点就是代价函数J不再被明确定义,每次迭代,都会随机移除一些节点,如果再三检查梯度下降的性能,实际上是很难进行复查的。我通常会关闭dropout函数,将keep-prob的值设为1,运行代码,确保J函数单调递减。 直观上理解:不要依赖于任何一个特征,因为该单元的输入可能随时被清除,因此该单元通过这种方式传播下去,并为单元的四个输入增加一点权重,通过传播所有权重,dropout将产生收缩权重的平方范数的效果,和之前讲的L2正则化类似;
2024-11-04 14:39:44
852
原创 深度学习之学习率
在梯度下降法中,都是给定的统一的学习率,整个优化过程中都以确定的步长进行更新, 在迭代优化的前期中,学习率较大,则前进的步长就会较长,这时便能以较快的速度进行梯度下降,而在迭代优化的后期,逐步减小学习率的值,减小步长,这样将有助于算法的收敛,更容易接近最优解。 分段常数衰减需要事先定义好的训练次数区间,在对应区间置不同的学习率的常数值,一般情况刚开始的学习率要大一些,之后要越来越小,要根据样本量的大小设置区间的间隔大小,样本量越大,区间间隔要小一点。容易训练的网络,便于较快的收敛,其更新规则如下。
2024-11-01 14:01:38
1184
2
原创 深度学习之权重、偏差
将偏差初始化为零是可能的,也是很常见的,因为非对称性破坏是由权重的小随机数导致的。:因为并不知道在训练神经网络中每一个权重最后的值,但是如果进行了恰当的数据归一化后,我们可以有理由认为有一半的权重是正的,另一半是负的。 另一种解决未校准方差问题的方法是把所有的权重矩阵都设为零,但是为了打破对称性,每个神经元都是随机连接地(从如上面所介绍的一个小的高斯分布中抽取权重)到它下面的一个固定数量的神经元。把后两个公式代入,可以看出所得到的梯度下降法的偏导相同,不停的迭代,不停的相同,不停的迭代,不停的相同…
2024-11-01 13:55:19
1050
原创 深度学习之预训练与微调
用别人的参数、修改后的网络和自己的数据进行训练,使得参数适应自己的数据,这样一个过程,通常称之为微调(fine tuning). 我们知道,CNN 在图像识别这一领域取得了巨大的进步。如果想将 CNN 应用到我们自己的数据集上,这时通常就会面临一个问题:通常我们的 dataset 都不会特别大,一般不会超过 1 万张,甚至更少,每一类图片只有几十或者十几张。这时候,直接应用这些数据训练一个网络的想法就不可行了,因为深度学习成功的一个关键性因素就是大量带标签数据组成的训练集。
2024-10-31 15:47:48
873
原创 深度学习之归一化
以前在神经网络训练中,只是对输入层数据进行归一化处理,却没有在中间层进行归一化处理。要知道,虽然我们对输入数据进行了归一化处理,但是输入数据经过 $ \sigma(WX+b) $ 这样的矩阵乘法以及非线性运算之后,其数据分布很可能被改变,而随着深度网络的多层运算之后,数据分布的变化将越来越大。如果我们能在网络的中间也进行归一化处理,是否对网络的训练起到改进作用呢?答案是肯定的。 这种在神经网络中间层也进行归一化处理,使训练效果更好的方法,就是批归一化Batch Normalization(BN)。
2024-10-31 15:46:00
1346
原创 深度学习之bactch_size
假如每次只训练一个样本,即 Batch_Size = 1。线性神经元在均方误差代价函数的错误面是一个抛物面,横截面是椭圆。此时,每次修正方向以各自样本的梯度方向修正,横冲直撞各自为政,难以达到收敛。因为如果数据集足够充分,那么用一半(甚至少得多)的数据训练算出来的梯度与用全部数据训练出来的梯度是几乎一样的。 既然 Batch_Size 为全数据集或者Batch_Size = 1都有各自缺点,可不可以选择一个适中的Batch_Size值呢?Batch的选择,首先决定的是下降的方向。
2024-10-30 20:34:25
451
原创 深度学习之激活函数
PiexpθiTx∑k1KexpθiTxPi∑k1KexpθiTxexpθiTx 其中,$ \theta_i $ 和 $ x $ 是列向量,$ \theta_i^T x $ 可能被换成函数关于 $ x $ 的函数 $ f_i(x) $ 通过 softmax 函数,可以使得 $ P(i) $ 的范围在 $ [0,1] $ 之间。
2024-10-30 20:33:17
1341
原创 深度学习之超参数
超参数: 在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。1. 定义关于模型的更高层次的概念,如复杂性或学习能力。2. 不能直接从标准模型培训过程中的数据中学习,需要预先定义。3. 可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定。
2024-10-29 07:30:00
394
原创 深度学习之网络与计算
超参数: 在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。1. 定义关于模型的更高层次的概念,如复杂性或学习能力。2. 不能直接从标准模型培训过程中的数据中学习,需要预先定义。3. 可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定。
2024-10-29 07:15:00
1128
原创 深度学习基础概念
参数空间中学习的退化速度减慢,导致减少了模型的有效维数,网络的可用自由度对学习中梯度范数的贡献不均衡,随着相乘矩阵的数量(即网络深度)的增加,矩阵的乘积变得越来越退化。而深度学习可以从大数据中先学习简单的特征,并从其逐渐学习到更为复杂抽象的深层特征,不依赖人工的特征工程,这也是深度学习在大数据时代受欢迎的一大原因。:是一种特殊的机器学习,具有强大的能力和灵活性。梯度消失是指通过隐藏层从后向前看,梯度会变的越来越小,说明前面层的学习会显著慢于后面层的学习,所以学习会卡住,除非梯度变大。
2024-10-28 21:46:42
1068
原创 深度学习之降维和聚类
选取专门用于测试分类、聚类算法的国际通用的UCI数据库中的IRIS数据集,IRIS数据集包含150个样本数据,分别取自三种不同 的莺尾属植物setosa、versicolor和virginica的花朵样本,每个数据含有4个属性,即萼片长度、萼片宽度、花瓣长度、花瓣宽度,单位为cm。 上图所示的只采用2个特征的线性分类器分错了一些训练样本,准确率似乎没有图2.21.1.e的高,但是,采用2个特征的线性分类器的泛化能力比采用3个特征的线性分类器要强。散落在角落的数据要比处于中心的数据难于分类。
2024-10-28 21:41:35
1332
原创 深度学习之EM算法
最大期望算法(Expectation-Maximization algorithm, EM),是一类通过迭代进行极大似然估计的优化算法,通常作为牛顿迭代法的替代,用于对包含隐变量或缺失数据的概率模型进行参数估计。,则第(1)式是我们的包含隐藏数据的对数似然的一个下界。 考虑上一节中的(a)式,表达式中存在隐变量,直接找到参数估计比较困难,通过EM算法迭代求解下界的最大值到收敛为止。 第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值**;Q_i(z^{(i)}) $的期望。
2024-09-30 19:05:42
725
原创 深度学习之贝叶斯分类器
通过若干次试验,观察其结果,利用试验结果得到某个参数值能够使样本出现的概率为最大,则称为极大似然估计。于是,朴素贝叶斯(Naive Bayesian,简称NB)采用了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。 一般的根据经验想法,会猜测这只黑球最像是从2号箱取出,此时描述的“最像”就有“最大似然”的意思,这种想法常称为“最大似然原理”。 总结起来,最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。是标签属性,那么我们可以通过计数的方法估计。
2024-09-30 18:45:19
1480
原创 深度学习之支持向量机
支持向量:在求解的过程中,会发现只根据部分数据就可以确定分类器,这些数据称为支持向量。 支持向量机(Support Vector Machine,SVM):其含义是通过支持向量运算的分类器。 在一个二维环境中,其中点R,S,G点和其它靠近中间黑线的点可以看作为支持向量,它们可以决定分类器,即黑线的具体参数。 支持向量机是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是边界最大化,最终转化为一个凸二次规划问题来求解。
2024-08-12 13:45:51
1046
原创 深度学习之决策树
一个困难的预测问题,通过树的分支节点,被划分成两个或多个较为简单的子集,从结构上划分为不同的子问题。 思想:计算所有特征划分数据集D,得到多个特征划分数据集D的信息增益,从这些信息增益中选择最大的,因而当前结点的划分特征便是使信息增益最大的划分所使用的特征。 预剪枝:在决策树生成过程中,在每个节点划分前先估计其划分后的泛化性能, 如果不能提升,则停止划分,将当前节点标记为叶结点。特征个数较少时,惩罚参数较大。5、对于各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。
2024-08-12 13:41:47
893
原创 深度学习之模型评估
它通常发生在模型过于复杂的情况下,如参数过多等,会使得模型的预测性能变弱,并且增加数据的波动性。举例来说,对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。 现在假设有一个训练好的二分类器对10个正负样本(正例5个,负例5个)预测,得分按高到低排序得到的最好预测结果为[1, 1, 1, 1, 1, 0, 0, 0, 0, 0],即5个正例均排在5个负例前面,正例排在负例前面的概率为100%。
2024-08-04 21:32:36
1237
1
原创 深度学习之主成分分析(PCA)
PCA就是将高维的数据通过线性变换投影到低维空间上去。投影思想:找出最能够代表原始数据的投影方法。被PCA降掉的那些维度只能是那些噪声或是冗余的数据。去冗余:去除可以被其他向量代表的线性相关向量,这部分信息量是多余的。去噪声,去除较小特征值对应的特征向量,特征值的大小反映了变换后在特征向量方向上变换的幅度,幅度越大,说明这个方向上的元素差异也越大,要保留。对角化矩阵,寻找极大线性无关组,保留较大的特征值,去除较小特征值,组成一个投影矩阵,对原始样本矩阵进行投影,得到降维后的新样本矩阵。
2024-08-04 21:00:25
1017
原创 深度学习之自然梯度法和线性判别分析
若度量模型参数变化引起的概率分布变化,常用的“距离”度量是KL散度(Kullback-Leibler divergence)。设模型概率分布为px;θp(x;\theta)px;θDKLpx;θ∣∣px;θδθ∫px;θlogpx;θpx;DKLpx;θ∣∣px;θδθ))∫px;θlogpx;θδθpx;θdx。
2024-05-16 15:48:05
1313
原创 深度学习基础之梯度下降
1 梯度下降1.1 机器学习中为什么需要梯度下降梯度下降是机器学习中常见优化算法之一,梯度下降法有以下几个作用:(1)梯度下降是迭代法的一种,可以用于求解最小二乘问题。(2)在求解机器学习算法的模型参数,即无约束优化问题时,主要有梯度下降法(Gradient Descent)和最小二乘法。(3)在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。(4)如果我们需要求解损失函数的最大值,可通过梯度上升法来迭代。梯度下降法和梯度上升法可相互转换。(5)
2024-05-16 15:42:53
815
深度学习 人脸动漫风格最强模型AnimeGAN PyTorch版本
2024-11-30
深度学习 c++ yolo
2024-11-30
计算机毕业设计:c++ 深度学习 yolo
2024-11-30
计算机毕业设计:java+进销存+企业进销存管理系统
2024-11-26
计算机毕业设计:VB+学校用电收费管理系统
2024-11-20
计算机毕业设计:小城西+企业OA小程序
2024-11-20
计算机毕业设计:java+•基于 J2EE 架构的在线考试系统
2024-11-15
计算机毕业设计论文:java+信息查询与后端信息发布系统
2024-11-14
计算机毕业设计:小程序+柠檬树婚纱照
2024-11-14
计算机毕业设计:小程序+装修预约
2024-11-13
计算机毕业设计:python+scrapy
2024-11-13
计算机毕业设计:小程序+IT书单
2024-11-12
计算机毕业设计:python+爬虫+百度云爬虫
2024-11-12
计算机毕业设计:python+爬虫+b站爬虫
2024-11-12
计算机毕业设计:python+爬虫+分布式爬虫
2024-11-08
计算机毕业设计:python+爬虫+cnki网站爬
2024-11-08
计算机毕业设计:python+爬虫+爬爱书网
2024-11-08
计算机毕业设计:python+爬虫
2024-11-04
计算机毕业设计:Python+去哪儿携程机票爬虫
2024-11-04
计算机毕业设计:python+爬虫可视化
2024-11-01
计算机毕业设计:python2+爬虫+股票
2024-11-01
计算机毕业设计:网络爬虫之链家爬取+爬虫
2024-10-31
计算机毕业设计:QQ群爬去 python+爬虫
2024-10-31
计算机毕业设计:QQ空间采集分析 python+爬虫
2024-10-30
计算机毕业设计:网络爬虫之Selenium使用代理登陆爬取去哪儿 python+爬虫+金融数据
2024-10-30
计算机毕业设计-JAVA在线考试管理系统(源代码+论文+开题报告+外文翻译+英文文献+答辩PPT)
2024-10-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅