公众号说的都是错的！大V也在误导你们！是什么让深度学习模型真正变成魔法？

最新推荐文章于 2024-09-15 15:29:29 发布

weixin_44988715

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量183

点赞数 1

文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/weixin_44988715/article/details/89635973

版权

是什么让深度学习模型变成魔法？

大量的公众号，科普文章都宣扬说，深度学习模型之所以火起来是因为大数据时代+计算力变强。这些都tm是不学无术的人空口说瞎话，这些文章之所以火是因为这让那些不懂人工智能的人觉得人工智能也没什么了不起的。然后就会点赞，分享。都是些蠢货。

就说CSDN上火的一篇文章说现有的人工智能模型都需要带标签的数据，所以大量的数据才是它能火的原因，这完全是扯淡。

深度学习模型之所以是一场革命，就是因为它可以使用无监督学习，利用不带标签的数据进行预训练，从而大大提升训练效果。

所以那些人连最基础的知识都不想学一下，就开始写那些带有强烈误导性质的文章，真是恶心。

更恶心的是国内某些所谓“人工智能”领域里的大拿，知乎上的某些大V。在这个领域很多年都用的是过时的方法，现在更是不想宣传真正革命性的想法。而是用各种方法宣称过时的方法的效果，号称是“原创”、“创新”，但其实都是在已经经过革命之后产生的有效的框架上小修小补，真正的革命性想法是那个框架。他所谓的创新才是可有可无的。

现在我就简单的科普一下，深度学习模型到底是怎么回事。

反本溯源的话，深度学习模型的建立，首先需要反向传播。
这是一个在可以通过贪心算法来调整整个网络参数的基础算法，也就是如果我们知道，我们希望某一层获得的输入向某个（高维）方向修改多少，我们能够通过梯度计算出上一层应该怎样修改。这一步使用的是张量计算，所以现在的人工智能芯片才会是TPU，T就是Tensor=张量。

但这一步并不是革命性的，因为它无法使得网络变成深度的，因为代价过高，足够大的单层隐藏层并不比深层模型差。所以在几十年里，神经网络在人工智能圈子里都只是小众。所以就养出了大量不懂神经网络的所谓人工智能专家，直到今天还食古不化。当然，那时候的一些特殊的模型如长短时记忆模型，仍然都是可以用的，但都是特殊领域里的模型，而且今天必须经过深度学习的改造。

真正使得深度学习模型成为革命的是Hinton的一篇论文，提出了一个简化算法和优化流程。使得深度学习模型的训练难度大大降低。

时过境迁，让我们从更高的角度来看待他的观点，可以简单的这样进行科普声明：

首先我们需要的是一个可以自我迭代进行优化的单隐藏层神经网络模型，例如随机玻尔兹曼机，然后我们不用进行迭代，而是在下一个无标签样本进来的时候再迭代。也就是自我迭代和更多样本数据优化的迭代过程可以一起来，而不追求完美。但这种不完美正好解决了样本过少的时候的局部过拟合。而长远看来，大量的样本可以使得网络更好的拟合数据。

其次，我们把它变成深度的，也就是加上更多的隐藏层，由于计算已经大大简化了，所以更多的隐层的计算量就是可以接受的了。然后我们需要一个“无监督”的反向传播算法。这就是核心。

因为我们可以预设正确的解的“结构”，例如我们需要分清楚猫和狗，那么解就是两个。然后我们就可以进行预训练了！因为有了这个限制，所以每个隐藏层都必须保存最多的关于能够把样本分成两类的信息，因为会有明显的“梯度”信号，可以通过反向传播进行优化！而无关信息由于梯度乱七八糟所以逐渐被过滤掉。

当然这个预训练很可能训练出把样本分成有沙发和没有沙发两类这种。所以我们也必须经常进行有监督的训练。两者结合，就可以成为很好的方法流程了。

这就是深度学习革命！

后面的一些发展是这场革命的延续。

主要的革命性进展是CNN和对抗网络。

如果说随机玻尔兹曼机是利用了：任何具体或者抽象的东西的分布，总能够变形成为玻尔兹曼分布这个先验的统计学假设的话，CNN的简化算法就是利用了“空间平移规律不变”这个物理学上的规律，通过卷积运算和核函数大大简化了运算量。这种简化算法由于其本身就可以成为深度的模型，并且也可以进行反向传播，所以也就在样本数据集确实满足这种规律，例如视觉识别这一块上可以打平随机玻尔兹曼机，而且由于这个模型本身的深度性，使得其在完全标签数据集上的表现超过了随机玻尔兹曼机深度学习模型。但它并不是普适的。即使不是普适的，也是在随机玻尔兹曼机这个普世模型出现之后，人们受到启发才找到的这个模型。

而利用“时间平移规律不变”性质的网络叫做长短时记忆学习网络，也就是我们语音识别使用的网络。这个网络的深度是受限的，因为时间长短无法控制。所以，不是完整的深度学习模型。但进一步的优化也有很多种方法，也是需要深度学习模型的启发才能做到的。

而对抗网络完全是另一种使用神经网络的技巧，跟本文主旨就无关了，以后再说。Relu什么的，更是细节，也许细节是魔鬼，但肯定跟革命性没什么关系。

所有要研究深度学习神经网络模型的人，都必须了解Hinton最原始的想法，才能了解这个人工智能革命的来龙去脉。然后才能有的放矢。比如需不需要预学习？需要几层网络？具体的模型甚至是可以混搭在一起的，为什么？怎么优化？这些东西只需要了解背后的原理，就可以尝试去做。

不懂的人，就会说人工智能就像炼金术，都是随便弄，看情况的。但实际上背后是有严谨的逻辑的，只是现实世界过于复杂，而拟合现实世界的时候有太多细节，太多事物背后的逻辑我们不知道，所以无法选择，所以才会有那么多网络模型出现。但这就是进步。而且我相信总有一天，我们会逐渐搞清楚很多规律，从而继续推动人工智能的发展。下一场人工智能革命就在其中孕育着。

闭门造车或者推翻一切绝对不是科学革命的方法，真正的科学革命全都是继承式的发展的。

我今天的这篇文章可以说非常简陋了，但我要赚积分，下载我想看的书，没办法，就把自己压抑了许久的想法一股脑说出来了，可能很混乱，但还是希望能够有更多的人能够受益。

希望有更多关注和点赞，这样我就会继续写下去。谢谢！