稀疏自编码http://deeplearning.stanford.edu/wiki/index.php/Exercise:Sparse_Autoencoder#Results

最新推荐文章于 2023-09-20 09:20:37 发布

叶起夜落

最新推荐文章于 2023-09-20 09:20:37 发布

阅读量1.2k

点赞数

分类专栏：神经网络

神经网络专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在这个问题集，您将实现稀疏自编码算法，并展示它是如何发现的边缘是自然的图像很好的代表性。（由布鲁诺Olshausen提供的图像）稀疏自编码算法的课程网站上找到的讲义描述。

在该文件sparseae_exercise.zip，我们提供了在Matlab一些起始代码。你应该写在文件所指处代码（“ 你的代码HERE ”）。你必须完成以下文件： sampleIMAGES.m，sparseAutoencoderCost.m，computeNumericalGradient.m。在起动代码train.m显示了这些功能的使用。

具体来说，在这个练习中，您将实现一个稀疏的自编码，与使用L-BFGS优化算法8×8的图像块训练。

在软件的说明：提供的.zip文件包含子目录 minFunc与第三方软件实现L-BFGS，即经Creative Commons，属性，非商业许可证授权。如果你需要使用这个软件用于商业用途，你可以下载和使用不同的功能（fminlbfgs），可以达到同样的目的，但运行3倍〜这个练习慢（因此不太推荐）。你可以在阅读更多关于这个Fminlbfgs_Details页面。

第1步：生成训练集

第一步骤是生成训练集。为了得到一个训练样例 $点¯x$ ，随机选取的10个图像中的一个，然后随机抽样从选定的图像的8×8的图像块，并转换图像修补程序（无论是行优先顺序或列主顺序;它doesn '吨物质）转换成一个64维向量来获得一个训练示例 $点¯x\中\重^ {64}。$

完成代码sampleIMAGES.m。您的代码应该品尝10000图像块，并将它们连接成一个64×10000矩阵。

为了确保您的实现工作，在“第1步”运行代码train.m。这将导致从数据集200补丁进行随机抽样的情节。

实施过程中的技巧：当我们运行实施 sampleImages（） ，它需要在5秒。如果您的实现需要30秒以上，这可能是因为你不小心让每一次你挑选一个随机图像的整个512×512像素的图像的副本。通过复制一个512×512像素的图像10000次，这可以让你实现更高效。虽然这并不代码显著为这项工作慢下来（因为我们只有10000的例子），当我们扩展到更大的问题在本季度晚些时候有 $106$ 或更多的例子，这会显著减慢你的代码。请执行sampleIMAGES这样，你是不是使每个需要切出一个8x8的图像块时整个512×512像素的图像的副本。

第2步：稀疏自编码目标

实施代码以计算稀疏自编码成本函数 $Ĵ 稀疏（ W¯¯ ， b ）$ （节讲义的3）和相应的衍生物 $Ĵ 稀疏$ 相对于不同的参数。使用S形函数用于激活函数， $F（Z）= \压裂{1} {{1 + E ^ { - Z}}}$ 。特别是，完成代码sparseAutoencoderCost.m。

稀疏自编码由矩阵参数 $W¯¯^ {（1）} \在\重新^ {S_1 \倍S_2}$ ， $W¯¯^ {（2）} \在\重新^ {S_2 \倍S_3}$ 向量 $b ^ {（1）} \在\重新^ {S_2}$ ， $b ^ {（2）} \在\重新^ {S_3}$ 。然而，随后的标记方便，我们将“展开”所有这些参数成为一个非常长的参数向量 $θ$ 与 $小号 1 小号 2 + 小号 2 小号 3 + 小号 2 + 小号 3$ 元。对之间的转换的代码 $（ W¯¯ （1）， W¯¯ （2）， b （1）， b （2））$ 和 $θ$ 参数在起动代码已经提供。

实施过程中的提示：我们的目标 $Ĵ 稀疏（ W¯¯ ， b ）$ 包含3个方面，相应的平方误差项，权重衰减项，稀疏的处罚。不客气但是要实现这一点，但为了方便调试，可以实现成本函数和微分运算（反向传播）仅适用于平方误差项第一（这相当于设置 $λ=β= 0$ ），并实施在下一节梯度检验方法首先验证此代码是正确的。然后在验证对应于平方误差项的目标和衍生物计算工作后才，添加在代码来计算重量衰变和稀疏惩罚项和它们的相应的衍生物。

步骤3：渐变检查

继讲义的第2.3节，实施梯度检查的代码。具体来说，完成代码computeNumericalGradient.m。请使用EPSILON = 10 ^-4作为讲义描述。

我们还提供了在代码checkNumericalGradient.m为您测试您的代码。此代码定义一个简单的二次函数 $H：\重新^ 2 \ mapsto \回复$ 由下式给出 $H（X）= X_1 ^ 2 + 3x_1 X_2$ ，并在该点计算它 $点¯x =（4,10）牛逼$ 。它允许您验证您的数值计算梯度非常接近真（计算分析）梯度。

使用后checkNumericalGradient.m，以确保您的实现是正确的，下次使用computeNumericalGradient.m以确保您的sparseAutoencoderCost.m 正确计算衍生物。有关详细信息，请参阅步骤3 train.m。我们强烈建议你不要进入下一个步骤，直到您确认您的派生的计算是正确的。

实施过程中的提示：如果您在调试代码，执行梯度检查对小排量车型和更小的训练集（例如，使用只有10个训练样本和1-2隐患单位）可以加快速度。

第4步：火车稀疏自编码

现在，你有一个计算代码 $Ĵ 稀疏$ 及其衍生物，我们已经准备好，以尽量减少 $Ĵ 疏$ 相对于它的参数，从而培养我们的稀疏的自编码。

我们将使用L-BFGS算法。这是提供给您一个调用的函数 minFunc（马克·施密特提供的代码）包含在启动代码。（在这个作业的目的，你只需要调用minFunc使用默认参数。你不需要知道L-BFGS如何工作的。）我们已经在提供的代码train.m （第四步）来调用minFunc。的minFunc代码假定要优化的参数是一个长参数矢量; 所以我们将用“ $θ$ ”参数而不是“ $（ W¯¯ （1）， W¯¯ （2）， b （1）， b （2））$ $”参数传递我们的参数，它的时候。$

火车一疏自编码与64输入单元，25隐藏单元和64个输出单元。在我们的起动码，我们提供了一个功能，用于初始化的参数。我们初始化偏置 $b ^ {（L）} _我$ 到零，和权重 $W¯¯^ {（L）} _ {IJ}$ ，以随机数从间隔均匀地拉伸 $\左[ - \开方{\压裂{6} {N _ {\在RM} + N _ {\ RM出来} +1}} \开方{\压裂{6} {N _ {\在RM} + N _ {\ RM出来}} +1} \，\右]$ ，其中 $Ñ 中$ 是扇入（的输入送入一个节点号）和 $Ñ 出$ 是扇入（的单位数一个节点送入）。

我们对各种参数提供的值（ $λ，β，ρ$ 等）应该工作，但随时与参数的不同设置，以及发挥。

实施过程中的提示：一旦你有你的BP执行正确计算衍生物（如使用梯度步骤3中检查验证），当你正在使用它与L-BFGS优化 $Ĵ 稀疏（ W¯¯ ， b ）$ ，确保你不会每一步做梯度检查。BP算法可以用来计算的衍生物 $Ĵ 稀疏（ W¯¯ ， b ）$ 相当有效，如果你被加计算梯度数值上的每一步，这将你的程序显著放缓。