MIT 6.S91 深度学习导论 2021 中文笔记（一）_麻省理工学院《深度学习导论》课程采用率已达98%-CSDN博客

P1：Introduction to Deep Learning - 爱可可-爱生活 - BV1jo4y1d7R6

大家下午好欢迎收看麻省理工6S 91深度学习入门，我叫亚历山大•阿米尼，我很高兴今年能成为你们的导师，以及这种新的虚拟格式的Ava Soleimani，我们将在两周内覆盖一吨材料，所以我认为对我们来说。

直接投入到这些讲座中真的很重要，但在我们这样做之前，我确实想激励为什么，我认为这是一个非常棒的研究领域，当我们去年教这门课的时候，我决定尝试以非常不同的方式介绍这门课。

而不是我告诉全班同学1191有多成功，我想让别人来做，所以其实，我想从今年开始向你展示如何，我们去年推出了六一一。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

大家好，欢迎来到麻省理工学院，深度学习官方入门课程，在麻省理工学院任教深度学习正在彻底改变许多事情，从机器人技术到医学以及两者之间的一切，你会学到这个领域的基础知识，以及如何构建这些不可思议的算法。

事实上，这整个演讲和视频都不是真的是用深度学习和人工智能制作的，在这个班上，你们将了解到今天与你们谈话是多么的荣幸，我希望你喜欢这门课，所以如果你不知道这实际上不是一个真正的视频或音频。

你实际听到的音频被故意降低了一点，甚至更明显地表明这不是真的，并避免一些潜在的滥用，即使有故意降级的音频，去年课程结束后，这个介绍在网上疯传，我们得到了一些非常棒和有趣的反馈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

老实说，去年之后，当我们做这件事的时候，我以为我们今年很难超越它。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但实际上我错了，因为我喜欢这个领域的一点是，它移动得如此之快，即使在过去的一年里，先进的技术也有了显著的进步，你看到的我们去年使用的视频使用了深度学习，但这不是一个特别容易创作的视频。

它需要奥巴马演讲的完整视频，它用这个智能地将场景的部分缝合在一起，让它看起来和出现，就像他在说话，我说的话，看看这里的幕后，现在你可以看到和我声音相同的视频，大家好，欢迎来到麻省理工学院六一，九十一。

深度学习官方入门课程，在麻省理工学院任教，现在实际上可以只使用一个静态图像，不是完整的视频来实现完全相同的事情，现在你可以看到八个奥巴马的例子，现在只使用一个静态图像创建，不再有完整的动态视频。

但我们现在可以用深度学习实现同样不可思议的真实感和结果，当然啦，没有什么能把我们限制在一个人身上，这个方法推广到不同的脸，再也没有什么能把我们限制在人类身上了，或者算法以前见过的个人嗨，大家好。

欢迎来到麻省理工学院六一，九十一，麻省理工学院教授的深度学习官方入门课程，生成这些类型的动态和移动视频的能力，从一个单一的图像对我来说是非凡的，这证明了深度学习在这门课上的真正力量。

你实际上不仅会了解这项技术的技术基础，但也有一些非常重要和非常重要的，这项工作的伦理和社会影响，我希望这是一个让你对这门课感到兴奋的好方法，六是一，九十一，让我们开始吧。

我们可以从后退一步开始问自己什么是深度学习，在智能背景下定义深度学习，智力实际上是处理信息的能力，以便它可以用来为未来的决定提供信息，现在，人工智能领域实际上是一门专注于构建算法的科学，要做到这一点。

建立处理信息的算法，这样它们就可以为未来的预测提供信息，现在，机器学习，你可以把这看作是AI的一个子集，它实际上专注于教一个算法从经验中学习，而不是被明确地编程，现在深度学习将这一想法更进一步。

它是机器学习的一个子集，专注于使用神经网络，自动提取原始数据中的有用模式，然后使用这些模式或特征来学习执行这项任务，这正是这门课的内容，这门课是关于教授算法的，如何直接从原始数据中学习任务。

我们想为您提供一个坚实的基础，技术上和实践上，在引擎盖下让你明白，这些算法是如何构建的，它们是如何学习的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以这门课分为技术讲座和项目软件实验室，我们将从今天开始用神经网络来覆盖基础，这些都是我们在本课程中所看到的一切的基石，今年我们还有两个全新的非常激动人心的热门话题讲座，关注不确定性和概率深度学习。

以及算法偏见和公平性，最后，我们将以一些非常激动人心的客座讲座和学生项目演示来结束，作为最终项目竞赛的一部分，你们所有人现在都有资格赢得一些非常激动人心的奖品。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一点物流，在我们深入到讲座的技术方面之前，对于那些为了学分而选修这门课的人，您将有两个选择来满足您的信用要求，第一个选择是在最多四个人的团队中工作，或者单独开发一个很酷的新深度学习想法，现在。

这样做将使你有资格赢得一些你可以看到的奖品，在右手边，我们意识到在这堂课的背景下，也就是两个星期，那是极短的时间，提出一个令人印象深刻的项目或研究想法，所以说，我们不会根据这个想法的新颖性来评判你。

而是，我们不会根据这个想法的结果来评判你，而是这个想法的新奇，你的思维过程，这个想法有多大的影响力，但不是结果本身，在上课的最后一天，你要给评委们做一个三分钟的演讲，然后谁会给获胜者颁奖，现在又是奖品。

三分钟来展示你的想法和项目是非常短的，但我相信展示和传达你的想法是一门艺术，在这么短的时间内简明扼要地，所以我们会严格要求你，到那个严格的最后期限。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

满足分数要求的第二个选择是写一页纸的复习，在这里的一篇深度学习论文上，等级是基于，更多关于主要思想的写作清晰和技术交流，这将在星期四到期，上课的最后一个星期四，你可以选择任何你想要的深度学习论文。

如果你想要一些指针，我们提供了一些指导性文件。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

可以帮助你开始，如果你想用其中一个做你的评论，除了最终的项目奖，今年我们还将颁发三项实验室奖，一个与每个软件实验室相关联的，学生们将再次完成，本课程成绩不要求完成软件实验室。

但它会让你有资格享受这些很酷的价格，所以请，我们鼓励每个人竞争这些奖项，并有机会赢得所有奖项。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果你有任何问题，请贴一个广场，浏览课程网页，查阅讲座的公告及数码录音，等，如果您有任何问题，请发电子邮件给我们，还有软件实验室和办公时间，就在聚集镇举行的每一次技术讲座之后，所以如果你有什么问题。

关于软件实验室，特别是那些，或者更一般地说，关于过去的软件实验室。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

或者关于那天发生的讲座，现在这支队伍，所有这些课程，有一群不可思议的助教和助教，你可以随时联系到，以防你对你正在学习的材料有任何问题或疑问。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后我们要感谢所有的赞助商，没有他们的帮助，这个类是不可能的，今年是我们教这门课的第四年，一年比一年大，我们真的向我们的赞助商大喊一声，帮助我们每年都做到这一点，尤其是今年，考虑到虚拟形式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以现在让我们从有趣的东西开始，让我们先问自己一个问题：为什么，为什么我们都关心深度学习，具体来说，我们现在为什么要关心。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

要明白首先真正理解是很重要的，为什么是深度学习或者深度学习是如何的，不同于传统的机器学习，现在传统的机器学习算法在他们的数据中定义了一组特征，通常这些功能是手工制作或手工设计的，结果。

它们在实践中往往很脆，当他们被部署时，深度学习的关键思想是直接从数据中学习这些特征，以等级的方式，那就是我们能不能学，如果我们想学习如何检测人脸，比如说，我们能学会首先从检测图像中的边缘开始吗。

将这些边缘组合在一起以检测中层特征，例如眼睛、鼻子或嘴巴，然后更深入地将这些特征组合成结构性的面部特征，这样我们就能认出这张脸，这是这种分层的思维方式是深度学习的核心。

作为我们在这门课上学到的一切的核心。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

实际上是基本的构建块，尽管深度学习和神经网络实际上已经存在了几十年，所以一个有趣的问题是我们为什么要研究这个，现在是研究这些算法的绝佳时机，原因之一是数据变得更加普遍，这些模型非常渴望数据，而此刻。

我们生活在一个比以往任何时候都拥有更多数据的时代，其次，这些算法是大规模并行化的，所以他们可以从根本不存在的现代GPU硬件中受益匪浅，当这些算法被开发出来的时候，最后。

由于像TensorFlow这样的开源工具箱的构建和部署，这些模型变得极其流线型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以让我们从深度学习的基本组成部分开始，每一个神经网络都只是一个神经元，也称为感知器，所以我们要走过感知器到底是什么，它是如何定义的，我们将建立更深入的神经网络，从那里一路走来，所以让我们开始吧。

我们真的在基本的积木上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

感知器或单个神经元的概念实际上非常简单，所以我认为对你们所有人来说，理解这一点的核心是非常重要的，让我们从实际讨论信息的正向传播开始，通过这个单一的神经元，你可以在左手边看到。

这些输入中的每一个或这些数字中的每一个都乘以它们相应的权重，然后加在一起，我们得到这个单一的数字，加法的结果，并通过所谓的非线性激活函数，产生我们的最终输出y，我们实际上可以–这并不完全正确，因为。

有一件事我忘了提，我们在这里也有所谓的偏见项，它允许你现在向左或向右移动激活功能，在这个图的右手边，你可以看到这个概念在数学上被说明或写成一个单一的方程，你实际上可以用线性代数重写这个。

矩阵乘法和点积来更简洁地表示这一点，所以我们就这么做吧，让我们现在用x大写x来做，它是我们输入的向量，x 1到xn和大写的w，这是我们的权重向量，w 1到w m，所以每一个都是长度为m的向量。

输出是非常简单的，通过取他们的点积得到的，加上一个偏差，在这种情况下是w零，然后应用非线性g，一件事是我没有–我一直在提这件事，有几次，这个非线性，G到底是什么，因为我已经提到过几次了，嗯。

它是一个非线性函数，这种非线性激活函数的一个常见例子，就是右边定义的乙状结肠函数，事实上，非线性函数有很多种类型，你可以在这里看到另外三个例子，包括乙状结肠函数，在整个演示文稿中。

您将看到这些TensorFlow代码块，这将实际说明如何，我们可以把我们在这节课里学的一些主题，并使用TensorFlow软件库实际使用它们，现在我在上一张幻灯片上展示的乙状结肠激活函数，非常受欢迎。

因为它是一个给出输出的函数，它作为输入，任意实数，任何激活值，它输出一个总是在零到一之间的数字，所以这使得它非常非常适合于问题和概率，因为概率也必须在零到一之间，所以这让他们很好。

适合于现代深度神经网络中的那些类型的问题，RELU激活功能，你可以在右边看到，也因为它的简单而非常受欢迎，在这种情况下，它是一个分段线性函数，当它是，呃，在消极制度中，严格地说，它是正政权中的恒等函数。

但有一个非常重要的问题，我希望你们现在正在问自己，为什么我们甚至需要激活函数，我想在整个课程中，我确实想说，无论我在课程中说什么，我希望你总是在问为什么，这是必要的一步。

为什么我们需要这些步骤中的每一个，因为通常这些问题可以导致真正惊人的研究突破，那么为什么我们需要激活函数，现在激活函数的重点是在我们的网络中引入非线性，因为这些是非线性函数。

它允许我们实际处理非线性数据，这在现实生活中是极其重要的，尤其是因为在现实世界中，数据几乎总是非线性的，想象一下我告诉过你在这里分开，从红色点开始的绿色点，但你只能用一条直线。

你可能会认为多条线或曲线很容易，但是你只能用一条直线，这就是使用具有线性激活函数的神经网络的效果，这让问题变得非常困难因为无论神经网络有多深，您只能产生一个单行决策边界，你现在只能用一条线分隔你的空间。

使用非，线性激活函数允许神经网络逼近任意复杂的函数，这就是神经网络异常强大的原因。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们用一个简单的例子来理解这一点，这样我们就可以建立我们的直觉，甚至更远，想象一下，我现在给你这个训练有素的网络，左手上有重物，第3面和第2面，这个网络只有两个输入，x1和x2。

如果我们想得到它的输出，我们只是做我之前说过的同样的故事，首先取我们输入的点积，用我们的体重，添加偏差并应用非线性，但让我们来看看这个非线性的内部是什么，它只是我们的输入和，以二维线的形式。

因为在这种情况下，我们只有两个输入，所以如果我们要计算这个输出，故事和以前一样，我们取x和w的点积，我们添加我们的偏差并应用我们的非线性，那么这个非线性的内部是什么呢，好吧，这只是一条两行，事实上。

因为它只是一条二维线，我们甚至可以在二维空间中绘制它，这被称为特征空间，输入空间–在这种情况下，输入空间中的特征空间是相等的，因为我们只有一个神经元，所以在这个情节中，让我描述一下你所看到的。

所以在两个轴上，你可以看到我们的两个输入，所以在一个轴上是x 1，另一个轴上的一个输入是x2，我们的其他输入，我们可以在这里画一条线，我们训练的神经网络的决策边界，我在这个空间里给你的一条线。

现在这条线实际上对应于这个神经网络可以做出的所有决定，因为如果我给你一个新的数据点，例如这里我给你负一二，这个点在这个空间的某个地方，特别是在x 1等于负1时，x2等于2，那只是空间中的一个点。

我要你计算它的加权组合，我可以按照感知器方程得到答案，所以这里我们可以看到，如果我们把它插入感知器方程，我们得到1+3+4，结果是负6，我们把它插入非线性激活函数，我们得到的最终输出是零点，零零二现在。

事实上，记住乙状结肠函数实际上把空间分成了，要么，因为它输出零到一之间的所有东西，它在点五的一个点之间分割，大于零点五小于零点五，当输入小于零且大于点5时，那是输入为正的时候，我们实际上可以说明空间。

但是当我们处理一个小维数据时，这个特征空间，就像在这种情况下，我们只有二维，但很快我们就会开始谈论我们有成千上万或数百万人的问题，或者在某些情况下，这些是我们神经网络中数十亿个输入的权重。

然后画这些类型的情节变得极具挑战性，不再是真正可能的了，但至少，当我们在这种输入数量很少的情况下，和少量的重量，我们可以制作这些情节来真正理解整个空间，对于我们获得的任何新输入，比如说，输入，就在这里。

我们可以确切地看到这个，一个点的激活函数小于零，它的产量会不到五个，它的大小实际上是计算出来的，通过将其插入感知器方程，所以我们无法避免，但我们可以立即在决策边界上得到答案。

取决于我们位于超平面的哪一边。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当我们把它插进去的时候，所以现在我们有了如何建立感知器的想法，让我们从建立神经网络开始，看看它们是如何结合在一起的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们重温一下我之前给你们看的感知器的图表，如果你从这门课上得到的东西很少，我真的希望每个人都能把感知器的工作原理拿走，有三个步骤，永远记住他们，点积，你可以用你的输入和你的重量的点积，你加上一个偏见。

你应用你的非线性，有三个步骤，让我们把这个图表简化一点，让我们清理一些箭头，去掉偏差，我们现在可以看到这里的每一条线都有自己的相关重量，我会去掉偏见项，就像我说的简单，注意这里的z是点积加上偏差的结果。

在我们应用激活函数之前，虽然g，但最终输出是简单的y，等于Z的激活函数，也就是我们的激活值，如果我们想定义一个多输出神经网络，我们可以简单地在这幅图中添加另一个感知器，所以没有一个感知器。

现在我们有两个感知器和两个输出，每一个都是正常的感知器，就像我们在从每个X中获取输入之前看到的那样，i x 1到x m取点积，添加偏见，就是这样，现在我们有两个输出，这些感知器中的每一个。

虽然会有一套不同的重量，记住我们会回来的，如果我们想要，所以说，实际上这里要记住的一件事是，因为所有的输入都是紧密相连的，每个输入都与每个感知器的权重有联系，这些通常被称为致密层或有时完全连接层。

现在我们上完这堂课了，你会得到很多实际编码的经验，并使用一个名为TensorFlow的软件工具箱实际创建了其中的一些算法，所以现在我们已经了解了单个感知器是如何工作的，以及致密层是如何工作的。

这是一堆感知器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们试着看看我们如何真正建立一个像这样的致密层，从零开始做那件事，我们实际上可以从初始化我们致密层的两个组件开始，就是权重和偏差，现在我们有了稠密层神经网络的这两个参数。

我们实际上可以定义信息的前向传播，就像我们已经看到并了解到的那样，信息的前向传播只是点积，或者我们的输入与我们的权重的矩阵乘法，在一个偏差，给我们这里的激活函数，然后我们应用这个非线性来计算输出。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在TensorFlow实际上已经为我们实现了这个致密层，所以我们不需要从头开始，相反，我们可以像这里所示的那样称之为，所以要创建一个有两个输出的密集层，我们可以指定这个单位等于2。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，让我们来看看所谓的单层神经网络，这是一个我们在输入和输出之间有一个单独的隐藏层，这一层被称为隐藏层，因为，不像输入层和输出层，这个隐藏层的状态通常是不可观察的，它们在某种程度上是隐藏的。

他们也没有严格执行，既然我们现在有了这种转变，从输入层到隐藏层，从隐藏层到输出层，每一层都有自己指定的权重矩阵，我们称W为第一层的权重矩阵，第二层的权重矩阵，如果我们放大这个隐藏层中的一个神经元。

让我们采取，比如说，z 2，比如说，这是我们以前看到的完全相同的感知器，我们可以再次计算它的输出，用完全相同的故事，获取它的所有输入x 1到xm，应用权重增加偏差的点积，这就给了我们z 2。

如果我们观察不同的神经元，让我们假设z 3，我们在这里得到一个不同的值，因为通向Z3的重量可能和通向Z2的重量不同，现在这张照片看起来有点乱，所以让我们试着把事情清理得更干净一点，从现在开始。

我就用这个符号来表示我们所说的致密层，或完全连接的层，在这里你可以看到一个例子，我们如何创建这个精确的神经网络，再次，使用带有预定义稠密层表示法的张量流，这里我们创建了一个顺序模型。

在那里我们可以把层叠在一起，第一层有N个神经元，第二层有两个神经元，输出层。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果我们想创建一个深度神经网络，我们要做的就是不断地把这些层，创建越来越多的分层模型，一个，在那里，最终输出是通过越来越深入网络来计算的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

并再次在TensorFlow中实现这一点，和我们以前看到的很相似，使用TF Keras顺序调用，我们可以把这些密集的层堆叠在一起，每一个都由密集层N、1和2中的神经元数量指定。

但是最后一个输出层固定为两个输出。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果这是我们有多少输出，好的，所以这太棒了，现在，我们有一个想法，不仅是如何直接从感知器建立神经网络，但是如何将它们组合在一起形成复杂的深度神经网络，让我们来看看如何将它们应用于一个非常真实的问题。

我相信你们所有人都应该非常关心。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这里有一个问题，我们想建立一个人工智能系统来学习回答，我会通过这门课吗？我们可以从一个简单的两个特征模型开始，一个特征，假设你在这门课上参加的讲座数，第二个特征是你花在最后一个项目上的小时数。

你确实有一些来自1991年所有过去参与者的训练数据，我们可以像这样在这个特征空间上绘制这些数据，这里的绿色点实际上表示学生，所以每一分是一个通过这门课的学生，这门课不及格，你可以看到他们的。

他们在这个特征空间中的位置，取决于他们听课的实际小时数，他们参加的讲座次数，以及他们在最终项目上花费的小时数，然后你花了，你已经听了四堂课了，你在最后一个项目上花了五个小时，你想明白，呃，你会不会。

或者你如何建立一个神经网络，考虑到班上的其他人，你会及格还是不及格？呃，这个类基于您看到的训练数据，所以让我们做吧，我们现在有了这样做的所有要求，所以让我们建立一个有两个输入的神经网络，x 1和x 2。

其中x 1是我们参加的讲座数，x2是你花在最后一个项目上的小时数，我们会有一个隐藏层，有三个单元，我们将把这些输入到最终的概率输出中，通过这个类，我们可以看到我们通过的概率是零点，百分之一或百分之十。

那不是很好，但原因是因为这个模型，呃，从来没有真正训练过，它基本上只是一个婴儿，它从来没有看到任何数据，即使你已经看到了数据，它没有看到任何数据，更重要的是，你还没有告诉模型如何解释这些数据。

它需要了解这个问题，首先，它对这门课或期末项目一无所知，或者任何一个，所以要做的最重要的事情之一是你必须告诉模型，当它能够，当它做出糟糕的预测时，为了让它能够纠正自己。

现在神经网络的丢失实际上定义了这一点，它定义了一个预测有多错误，所以它作为输入，预测输出和地面真相输出现在，如果这两件事相距很远，那损失就非常大了，另一方面，这两个东西离得越近，损失越小，损失越准确。

模型将是，所以我们总是想把我们想要招致的损失降到最低，我们想预测一些尽可能接近地面真相的东西，现在让我们假设我们不仅仅有一个学生的数据，但正如我们在这个案例中所看到的，来自许多学生的数据。

我们现在关心的不仅仅是模型在预测，只有一个预测，但它在所有这些学生中的平均表现如何，这就是我们所说的经验损失，它只是每个例子中每一次损失的平均值或平均值，或者每个学生，训练神经网络时。

我们想找到一个网络，最大限度地减少经验损失，在我们的预测和真实输出之间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在如果我们看看二进制分类的问题，其中神经网络，就像我们在这种情况下想做的那样，应该回答是或否或零，我们可以使用所谓的软最大交叉熵损失，现在Softmax交叉熵损失实际上是建立的，实际上写在这里。

它的定义是，两个概率分布之间的交叉熵，它测量地面真相概率分布与预测概率分布的距离，让我们假设不是预测二进制输出，我能通过这门课吗？否则我不会通过这门课，相反，你想用实数来预测期末成绩，不是概率或百分比。

我们想要你现在在这门课上的成绩，在本例中，因为输出的类型不同，我们还需要在这里用一个不同的损失，因为我们的输出不再是零一，但它们可以是任何实数，它们只是你最后一堂课的成绩，例如，因为这是一个连续变量。

我们要使用的等级，所谓的均方误差，这只测量误差的平方，我们的基本事实和我们的预测之间的平方差。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在整个数据集中平均，好的很好，所以现在我们看到了两个损失函数，一种用于二进制输出和回归连续输出的分类，现在的问题是我认为我们需要开始问自己，我们如何取损失函数，我们已经看到了我们的损失函数。

我们已经看到了我们的网络，现在我们必须真正理解，我们怎么能把这两件事放在一起，我们如何使用损失函数来训练神经网络的权重。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这样它就可以学习这个问题，嗯，我们要做的是找到神经网络的权重，这将最大限度地减少我们数据集的丢失，这本质上意味着我们想在神经网络中找到W，使w的j最小化，w的j是我们在前面的幻灯片中看到的经验成本函数。

数据集中每个数据点的平均损失，现在记住，w大写w只是神经网络中所有权重的集合，不仅仅是一层，但从每一层，所以w为零，从零层到第一层再到第二层，都串联成一个，在这个优化问题中，我们想优化所有的W。

以最大限度地减少这种经验损失，现在记住我们的损失函数只是我们体重的一个简单函数，如果我们只有两个砝码，我们实际上可以在这个重量网格上绘制整个丢失的景观，所以在底部的一个轴上你可以看到重量1。

另一个你可以看到重量为零，这个神经网络中只有两个权重，非常简单的神经网络，所以我们可以为每一个w 0和w 1绘制，损失是什么，我们期望看到和获得的错误是什么，从这个神经网络，现在训练神经网络的整个过程。

优化它就是在这片失落的风景中找到最低点，它会告诉我们最优的W0和W1，我们怎么能做到呢，我们要做的第一件事就是选择一个点，所以让我们从这个点开始选择任意的w零w一，我们可以计算出那个点的景观梯度。

现在梯度告诉我们最高或最陡的上升方向，好的，所以这告诉我们哪条路是向上的，好的，如果我们计算我们的损失相对于我们的重量的梯度，这是损失梯度的导数，关于重量，它告诉我们在这片失落的土地上哪条路的方向。

从我们现在所处的位置，而不是往上走，虽然我们想找到损失最小的，所以让我们取梯度的负值，朝着那个方向迈出一小步，好的，这会让我们更接近最低点，我们只是不停地重复这个，现在我们计算这个点的梯度。

重复这个过程，直到我们收敛，我们将收敛到局部最小值，我们不知道它是否会收敛到全局最小值，但至少我们知道它应该，理论上收敛到局部极小值，现在我们可以将这个算法总结如下，这种算法也称为梯度下降。

所以我们从随机初始化所有的权重开始，我们开始，我们循环，直到收敛，我们从其中一个重量开始，我们的出发点，我们计算梯度，告诉我们哪条路是向上的，所以我们向相反的方向迈出了一步，我们在这里迈出一小步。

Small是通过将我们的梯度乘以这个来计算的，我们稍后会更多地了解这个因素，这个因素被称为学习率。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们稍后会了解更多，现在又在张量流中，我们实际上可以看到梯度下降算法的伪码是用代码写出来的，我们可以随机化所有的权重，这样基本上就可以初始化我们的搜索，我们在空间的某个点的优化过程。

然后我们一遍又一遍地循环，我们计算损失，我们计算梯度，我们向梯度的方向迈出一小步，但是现在让我们来看看这个术语，这就是我们计算梯度的方法，这解释了损失是如何随着体重的变化而变化的。

但我从来没有告诉过你我们是如何计算的，那么让我们来谈谈这个过程，这在训练神经网络方面非常重要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它被称为反向传播，那么反向传播是如何工作的呢，我们如何计算这个梯度，让我们从一个非常简单的神经网络开始，这可能是现存最简单的神经网络，它只有一个输入，一个隐藏神经元和一个输出。

计算W的损失j相对于其中一个权重的梯度，在这种情况下只有两个，比如说，告诉我们W2的一个小变化会对我们的损失产生多大影响，所以如果我们绕着无穷小的，那对我们的损失有什么影响，这就是梯度会告诉我们的。

w 2的j的导数，所以如果我们写出这个导数，我们可以应用链式法则来计算它，那么具体是什么样子的呢，我们可以把那个导数分解成，j的导数说呃，dw/d y乘以输出对w 2的导数，现在的问题是第二部分。

如果我们现在要计算，不是W 2损失的导数，但现在关于W一个的损失，我们可以做和以前一样的故事，我们现在可以递归地应用链式法则，所以现在我们必须再次将链式法则应用到第二部分，现在第二部分进一步扩展。

所以我们的输出对z 1的导数，它是第一个隐藏单元的激活函数，我们可以反向传播这些信息，现在你可以看到从我们的损失开始，一直到W 2，然后再递归地应用这个链式法则得到w，这让我们可以看到W2和W1的梯度。

所以在这种情况下，我再次重申，这告诉我们这个DJ，dw one，告诉我们体重的一个小变化会如何影响我们的减肥，所以我们可以看看我们是否增加了少量的体重，会增加我们的损失。

这意味着我们会想要减轻体重来减少损失，这就是梯度告诉我们的，为了减小或增加我们的损失函数，我们需要往哪个方向走，我们在这里展示了神经网络中的两个权重，因为我们只有两个砝码。

但是想象一下我们有一个非常深的神经网络，不仅仅是两层或者一层是隐藏的单元，我们可以重复这个，递归应用链式法则的过程，确定模型中的每一种方式需要如何改变以影响损失，但真的，这一切归结为。

只是递归地应用这个链式法则公式，你可以在这里看到。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这就是反向传播算法，理论上听起来很简单，它只是对导数和链式法则的一个非常非常基本的扩展，但现在让我们来谈谈在实践中训练这些网络的一些见解，这使得这个过程在实践中变得更加复杂。

为什么像我们看到的那样使用反向传播现在并不总是那么容易。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在实践中，训练神经网络和优化网络可能是极其困难的，它实际上是极其密集的计算，这是什么的可视化，真实神经网络丢失的景观看起来像是在二维上可视化的，现在你可以看到这里的损失是极其非凸的，意思是它有很多。

许多局部最小值，这使得使用梯度下降这样的算法非常非常具有挑战性，因为梯度下降总是最接近第一个局部最小值，但它总是会卡在那里，所以找到如何到达全局最小值，或者是神经网络的一个很好的解决方案。

通常对你的超参数非常敏感，比如优化器在这个丢失的景观中从哪里开始，如果它从潜在的糟糕的地方开始，它很容易卡在这些局部最小值中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在回想一下我们谈到的梯度下降方程，这是我给你看的下一次体重更新的方程，将是你目前的体重，减去少量，称为学习速率乘以梯度，所以我们有这个负号，因为我们想反其道而行之，我们把它乘以梯度。

或者我们乘以这个小数字，这里叫埃塔，这就是我们所说的学习率，我们想多快学习，现在，它实际上不仅决定了学习的速度，这可能不是最好的说法，但它告诉我们有多大，我们应该在实践中采取的每一步，关于那个梯度。

所以梯度告诉我们方向，但它不一定告诉我们方向的大小，所以ADA可以告诉我们我们想要信任这个梯度的程度，沿着坡度的方向走，在实践设置中，甚至ETA这一个参数，一个数字可能非常困难。

我想给你们一个快速的例子来说明为什么，所以如果你有一个非常不凸起或丢失的景观，你有局部最小值，如果你把学习速度设置得太低，那么模型就会陷入这些局部极小值，它永远也逃不过他们。

因为它得到了它实际上优化了自己，但它将其优化到一个非常，到非最优最小值，它也可以非常缓慢地收敛，另一方面，如果我们把学习速度提高得太多，然后我们实际上可以超调我们的最小值，实际上分道扬镳，失去控制，和。

基本上，呃，彻底引爆训练过程，其中一个挑战实际上是如何预，如何使用足够大的稳定学习速率来避免局部最小值，但足够小，这样它们就不会发散和转换，或者它们没有完全分开，所以它们足够小。

实际上可以汇聚到那个全局点，一旦他们到达那里，那么我们如何才能很好地设置这个学习速率呢，一个选项，这实际上是一个在实践中有点流行的，就是尝试很多不同的学习速度，这实际上是有效的，这是一个可行的方法。

但让我们看看，如果我们能做一些比这更聪明的事情，如果我们能说，而是，我们如何建立一个自适应的学习率，实际上着眼于它失去的景观，并适应它在景观中看到的东西，实际上有许多类型的优化器可以做到这一点。

这意味着学习率不再是固定的，它们可以增加或减少，取决于该位置的梯度有多大，我们想要多快，我们学习的速度有多快，嗯，和许多其他选项，也可以与权重的大小有关，在这一点上，震级，等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

事实上，这些也作为TensorFlow的一部分被广泛探索和发布，在你的实验室里，我们鼓励你们每个人真正尝试这些不同类型的优化器，并试验他们在不同类型问题中的表现。

这样你就可以获得关于何时使用的非常重要的直觉，不同类型的优化器是它们的优势所在，在某些应用中也有缺点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以让我们试着把所有这些放在一起，所以在这里我们可以看到使用TensorFlow定义模型的完整循环，在第一线，在这里定义优化器，您可以在这里用您想要的任何优化器替换它，我只是使用随机梯度下降。

就像我们之前看到的，并通过模型给它喂食，我们永远循环，我们这样做是向前的，预测，我们用我们的模型预测，我们用我们的预测来计算损失，这正是损失再次告诉我们的，我们对地面的预测有多不正确，真理y。

我们计算我们损失的梯度，关于我们神经网络中的每个权重，最后我们应用这些渐变，使用我们的优化器来步进和更新我们的权重，这真的是把我们在课堂上学到的所有东西都带到了课堂上，并将其应用于一个整体。

用Tensorflow编写的一段代码。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以我想继续这个谈话，谈谈在实践中训练这些网络的技巧，现在，我们可以专注于这个非常强大的想法，将您的数据批处理成迷你批处理。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以在我们看到梯度下降之前，我们有以下算法，我们看到要计算的梯度，使用反向传播实际上是非常密集的计算，尤其是如果它是在你的整个训练集上计算的，所以这是整个数据集中每个数据点的总和。

在大多数现实生活中的应用中，在每一次迭代中计算这个是不可行的，在优化循环中，或者，让我们考虑这种算法的另一种变体，称为随机梯度下降，所以不是计算整个数据集的梯度，我们就挑一个点。

计算该单点相对于权重的梯度，然后根据梯度更新我们所有的权重，所以这个有一些优点，这很容易计算，因为它现在只使用一个数据点，速度很快，但它也很嘈杂，因为它只来自一个数据点，取而代之的是，有一个中间立场。

而不是计算单点的噪声梯度，让我们更好地估计一下梯度，通过使用一批B数据点，所以现在让我们选择一批B数据点，我们将计算梯度估计估计，就像这一批的平均值一样，因为这里的b通常没有那么大。

在几十或几百个样品的顺序上，这比常规梯度下降计算速度快得多，而且它也准确得多，然后是只使用单个示例的纯随机梯度下降，现在这增加了梯度精度估计，这也让我们可以更顺利地收敛。

这也意味着我们可以更信任我们的梯度，而不是随机的，梯度下降，这样我们实际上也可以提高我们的学习速度，迷你批处理还导致了大规模的可并行计算，我们可以在不同的工人和机器上分开批次。

从而在我们的Gpus上实现更多的并行化和速度提高。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在我想谈的最后一个话题是过度适应，这也被称为泛化问题，是所有机器学习中最基本的问题之一不仅仅是深度学习。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在就像我说的，过度适应是理解的关键，所以我真的想确保这在每个人的脑海中都是一个明确的概念，理想的机器学习，我们想学习一个准确描述我们测试数据的模型，不是训练数据，尽管我们正在根据训练数据优化这个模型。

我们真正想要的是它在测试数据上表现良好，所以说得不一样，我们希望构建能够从训练数据中学习的表示，但仍然很好地推广到看不见的测试数据，现在假设您想建立一条线来描述这些点。

欠拟合意味着模型根本没有足够的能力来表示这些点，所以不管我们如何努力适应这个模型，它根本没有能力在远处表示这种类型的数据，右手边，我们可以看到极端另一个极端，在这里，模型太复杂了，它的参数太多了。

它不能很好地概括中间的新数据，尽管我们可以看到所谓的理想契合，不是太合适，不是不合身，但它有中等数量的参数，它能够以可推广的方式适应输出，当它在测试时看到全新的数据时，它能够很好地概括为全新的数据。

现在来解决这个问题，让我们来谈谈正规化，我们怎样才能确保我们的模特不会过度合身，因为神经网络确实有大量的参数，我们如何对他们实施某种形式的正规化，现在，什么是正则化正则化是一种约束我们优化问题的技术。

这样我们就可以阻止这些复杂的模型被学习和过度适应，所以再一次，我们为什么需要它，我们需要它，这样我们的模型就可以推广到这个看不见的数据集，在神经网络中，我们有许多技术来给模型施加正则化。

一种很常见也很容易理解的技术叫做辍学，这是深度学习中最流行的正则化形式之一，而且很简单，让我们重温这张神经网络的图片，这是一个两层神经网络，两个隐藏层，在培训期间辍学。

我们所做的就是随机地将这里的一些激活设置为零，有一定的概率，所以我们能做的就是，假设我们选择的概率是百分之五十或百分之零点五，我们可以为每个激活随机下降，50%的神经元，这是非常强大的。

因为它降低了我们神经网络的容量，这样他们就必须学会在测试集上表现得更好，因为有时在训练场上，它只是不能依赖其中的一些参数，所以它必须能够适应这种辍学，这也意味着他们更容易训练。

因为至少在每一次前向被动迭代中，我们只训练了百分之五十的重量，只有50%的梯度，这也将我们的梯度计算时间缩短了两倍，因为现在我们只需要计算，在每一次迭代中，我们在上一次迭代中退出了50%的神经元。

但是在下一次迭代中，我们将去掉另一组50%的神经元，一组不同的神经元，这给了网络，它基本上迫使网络学习如何采取不同的途径，去得到它的答案，它不能过于依赖任何一条途径，并过度适应那条道路。

这是一种真正迫使它推广到新数据的方法，我们将要讨论的第二个正则化技术是早期停止的概念，这里的想法是非常基本的，它是它基本上是让我们停止训练一次，我们意识到我们的损失正在增加，或者我们称之为测试集。

所以当我们开始训练的时候，我们都知道过拟合的定义是，当我们的模型在测试集中的性能开始变差时，所以如果我们留出一些训练数据来引用，未引用测试数据，我们可以监控我们的网络是如何根据这些数据学习的。

在它有机会过度适应之前停下来，所以在x轴上，你可以看到训练迭代的数量，在y轴上你可以看到训练后的损失，迭代次数，所以当我们一开始继续训练的时候，两条线继续减少，这正如我们所料，这很好。

因为这意味着我们的模型最终会变得更强，尽管网络的测试损失停滞不前，并开始增加，注意，训练的准确性总是会继续下降，只要网络有记忆数据的能力，这种模式在剩下的训练中继续下去。

所以在这里重点关注这一点是很重要的，这就是我们需要停止训练的地方，在这一点之后，假设我们的测试集是真实测试集的有效表示，模型的精度只会越来越差，所以我们可以在这里停止训练，拿这个模型。

当我们部署到现实世界时，这应该是我们实际使用的模型，任何东西，任何从左手边拍摄的模型都将不适合，它不会利用网络的全部容量，从右手边拿走的任何东西都太合适了，但实际上在测试中表现比它需要的要差。

所以我将结束这堂课，通过总结我们所讨论的三个关键点，到目前为止，我们开始了神经网络的基本构建块，我们学到的感知器是如何将这些感知器堆叠和组合在一起的，形成复杂的分层神经网络。

以及如何用反向传播从数学上优化这些模型，最后，我们讨论了这些模型的实用方面，你会发现今天的实验室很有用，包括适应性学习率，批处理和正规化，感谢你们参加1991年的第一次讲座。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

P10：Taming Dataset Bias via Domain Adaptation - 爱可可-爱生活 - BV1jo4y1d7R6

我很高兴今天在这里，和你们谈谈我非常兴奋和感兴趣的事情，因为这是我的研究领域，所以总是很有趣，讲一个关于自己的研究的话题，所以我的话题是驯服数据集，通过领域适应性um和我相信。

您已经在本课程中讨论了一些材料，偏见问题，也许是公平问题，所以这将与那漂亮的东西相吻合，嗯，我想，好吧，嗯，我大概不需要，告诉大家，或花很多时间看如何成功，深度学习已在这里用于各种应用。

我将主要专注于计算机视觉应用，因为那是我的主要研究领域，所以我们知道，在计算机视觉中，深度学习已达到我们可以检测到的程度，在各种场景中非常准确地区分不同的对象。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们甚至可以检测到不是，真正的人，甚至是卡通人物，只要我们接受培训，数据，我们可以训练模型来做到这一点，我们可以做脸，识别和情感识别，所以有很多应用，深度学习非常成功，但也存在一些问题。

它和我想谈的那个，是数据集偏差，所以在数据集偏差中，您会发生什么，您有一些数据集，比如说您正在训练计算机视觉，模型来检测行人，您想将其放在自动驾驶汽车上，嗯，所以你去收集了一些数据。

您用边界框标记了行人，并训练了您的深处，神经网络，并且在您持有的测试集上效果很好，从相同的数据集中提取出来，但是现在，如果您使用相同的模型，在您的车上尝试识别不同环境中的行人，就像在新英格兰。

这是我现在和现在的位置，事实上，如果我看着我的窗户，那正是，好像下雪了，那种穿着厚外套的人，看起来与我的训练数据不同，我会说我是在加利福尼亚收集的，我们看不到很多，如此直观地下雪，我正在。

应该贴上我的模型的标签看起来与我的训练数据完全不同，所以，这就是我们所说的数据集偏移，它导致，在缺少检测方面存在问题，并且通常我们的准确性较低，正确的训练模型，所以它也被称为数据集偏差。

在主要区域中称为“域右移”，这里再次出现的问题是训练数据，嗯，看起来不错，我要说看起来与众不同，但我要定义更多，嗯，以后会以一种特定的方式具体化，这看起来与，目标测试数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据集偏差何时发生得很好？一些不同的情况，我只在这里展示一些，它们实际上是，我会争辩说，您收集的每个数据集都会发生这种情况，但是，一个示例是您如上所述收集一个城市中的数据集，而您想在其他城市进行测试。

或者您可能是从，网络，然后您想将模型放在机器人上，从其环境中获取图像，该环境中的角度和背景以及，照明完全不同另一个非常普遍的问题是，然后我们要转移的模拟训练，到现实世界，所以这是对现实的模拟。

数据集移位在机器人技术中非常普遍，这是发生这种情况的另一种方式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

是如果您的训练数据集um主要是，某个特定人群的话说，如果我们与人打交道，那可能主要是，浅肤色的脸，然后在测试时，您会得到较黑的皮肤脸，您没有训练这类数据，因此再次出现数据集偏差，或您正在对婚礼进行分类。

但您的，训练数据来自西方文化中的婚礼图像，然后，测试时间，您有其他文化，因此您再次设置了数据，因此可以，发生我的观点是，它可能发生在许多，实际上，我相信无论如何，您收集的数据集无论如何都会有数据集偏差。

只是因为特别是在视觉上，域我们的视觉世界是如此复杂，只是，很难收集足够的品种以涵盖所有可能的情况。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，让我们更具体地讨论为什么这是一个问题，我会给你一个例子，我将在整个演讲中使用，只是为了在这个右边加上一些实数，我们可能现在都知道mnist数据集，因此。

这只是用于对神经网络进行基准测试的非常常见的手写数字，因此，如果我们在神经网络上训练神经网络，然后在，在mnist上的同一域中，我们知道我们将拥有非常好的性能，高达99的精度。

这或多或少是一个已解决的任务，但是如果我们在此街景房号数据集上训练我们的网络，嗯，同时也是10位数字吗？数字，但从视觉上看，这是与街景视图不同的域，现在，当我们在mnist数据集上测试该模型时。

该数据集，性能大幅下降这真的是很糟糕的表现，正确地执行10位数字的任务，实际上，即使我们以此进行训练，小得多的变化，所以这是从usps到，mnist在视觉上实际上看起来与人眼非常相似。

但是这两个数据集之间有一些小差异，仍然性能下降嗯几乎一样，呃像以前一样，如果我们交换，我们仍然有，在mnist上进行训练并在usps上进行测试时表现不佳，所以这仅仅是为了像这样输入一些数字。

我们应该很久以前就已经解决的非常简单的任务，在深度学习中，它是行不通的，所以如果我们有此数据集，转移，我们在新域上测试模型，几乎休息了，所以，好的，但这是一个非常学术的数据集，现实世界有什么意义。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据集偏差的数据我们已经看到了数据集偏差的任何实际含义，在现实世界中，我会说是的，我们有，这是一个有几个研究的例子，人脸识别模型和性别识别模型的商业，在现实世界中为解决这些问题而部署的软件。

这些研究表明，人脸识别算法，在识别非裔美国人和亚洲人的面孔方面远不够准确，相较于高加索人的面孔和，数据集为何会因为培训而发生变化，这些模型使用的数据集偏向，高加索人的面孔。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以我想另一个现实世界的例子，节目是一个非常可悲的例子，实际上前一阵子有一个，无人驾驶车祸实际上是第一次，机器人杀死一个人的时间，所以发生了事故，这对超级自动驾驶汽车是致命的，根据一些报道。

他们认为这辆车的原因，未能停止的原因在于其算法并非旨在检测行人，在人行横道之外，所以您实际上可以想到，如果您的训练数据仅包含一个数据集偏差问题，行人在人行横道上是合理的，假设是正确的。

因为大多数时间行人都遵循，规则，在人行横道上穿越，只有几次，他们你知道你可能会看到人们在拥挤的行走，你可能不会看到很多东西，数据集中的例子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以您可能想知道这一点，请稍等一下，我们是否能解决问题，通过收集更多数据来获得更多的问题，数据并很好地标记它是的，从理论上讲我们可以，但是它很快变得非常非常昂贵并需要说明，为什么让我们举这个例子。

这又是在自动驾驶领域，这是来自伯克利bdd数据集的图像，实际上已经有很多域，所以它有夜间，图像也有白天图像，这里的标签是语义，分割标签，以便每个像素都被标记，例如道路或行人，等等，如果我们想贴上标签。

um 1000个具有这些多边形的行人，成本约为一千，美元，这就是您所知道的标准市场价格，但是，如果我们现在想乘以该倍数，我们想要的姿势时间变化性别变化，时代种族服装风格的变化，所以，如此等等。

我们很快就会看到我们有多少数据，必须收集正确的东西，在那里我们也希望骑车的人，自行车，所以这变得非常炸毁。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

很快变得非常昂贵，所以也许我们想要做的是，可以使用未标记数据而非标记数据的设计模型，我今天在谈论的数据，嗯，现在让我们考虑一下，是什么原因导致的，我们已经看到过的性能不佳，基本上有两个主要原因。

我认为第一个原因是培训和测试数据分布，是不同的，您可以在这张图片中看到，所以这里的蓝点是从中提取的特征向量，数位域mnist数位域使用经过训练的网络，数字域，所以我们训练网络，我们，倒数第二层激活。

然后使用t-sne嵌入对其进行绘制，以便我们可以在2d中对其进行绘制，这样您就可以，看到这些蓝点是训练的突出点，然后我们采用相同的网络并从目标域中提取特征，你可以在这里看到基本上是这个，但是。

与黑色和白色不同的颜色，所以这些是红点，您可以很清楚地看到，输入中的分布在，培训和测试领域，这是我们面临的一个问题，在蓝点上受过训练的分类器不会一概而论，到红点，因为这种分布转移了另一个。

问题实际上是有点微妙，但是如果您看一下如何更好地将蓝点聚集在一起，它们之间有空格，所以根据类别这些是群集，的数字，但红点散布得多，而不是，很好地分为几类，这是，因为该模型学习了源域的判别功能。

这些功能对目标人群的区别不大，域，因此测试目标点不在，使用这些功能分组到类中，因为，你知道他们只是模型需要的功能，不能从源域中学习，那么我们该怎么做呢？

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好吧，我们实际上可以做很多事情，在这里，实际上是可以用来处理数据的方法列表，设置移位是相当简单的标准操作，例如，如果您只使用更好的，CNN的主干，例如resnet 18，而不是alexnet。

您会因域转移而导致较小的性能差距，每个域的批处理规范化是一个很好的技巧，嗯，您可以将它与实例规范化结合起来，当然可以，数据扩充使用半监督方法，像伪标签，然后我今天要谈的，可以使用域适应技术吗。

让我们定义域适应，好的，所以我们有一个包含很多未标记数据的源域，抱歉，其中有很多标记数据，所以我们有，在我们的源域中输入xi和yi标签，然后我们有一个包含未标记数据的目标域，所以没有标签只是输入。

我们的目标是学习一个分类器，在目标分配dt下实现了较低的预期损失，对，所以我们正在学习源标签，但我们希望，目标的绩效和领域中的关键假设，记住非常重要的适应，是在域适应中，我们假设我们，看到未标记的数据。

我们可以访问它，这很重要，我们没有标签，嗯，因为我们再次假设它非常昂贵，或者我们无法将其标记为，出于某些原因，但我们确实获得了未标记的数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好吧，我们该怎么办，嗯，这就是我剩下的谈话的概要。而且我敢肯定我会很快去的，我会尽力在最后抽出时间来提问，如果有的话请，问题把他们记下来了，所以我来谈谈，在这一点上非常非常标准的常规，对抗域对齐技术。

然后我将讨论一些已应用的最新技术，解决这个问题，然后我们将总结一下，好吧，让我们从对抗域对齐开始，好的，所以说我们的源域带有标签，我们正在尝试训练神经网络，在这里我将其拆分为。

编码器CNN是一个卷积神经网络，因为我们要处理图像，然后是分类器，网络的最后一层，我们可以对其进行培训，通常使用标准分类法，然后我们可以从编码器中提取特征以在此处进行绘制。

可视化这两个类别只是出于说明的目的，我正在展示，两个，然后我们也可以想象一些，分类器正在学习的类别之间的区分符概念，决策边界现在我们也有未标记的目标数据，它来自我们的目标域，我们没有任何标签。

但是我们可以，编码器并生成功能，正如我们已经看到的，我们将，看到源蓝色特征和目标之间的分布变化，橙色功能，因此，对抗域对齐的目标是，采取这两个分布并使它们对齐，因此更新编码器cnn。

以便将目标特征分布在，和来源一样，所以我们该怎么做，好吧，它涉及添加域识别符，将其视为，另一个需要采取的神经网络，我们从源域和目标域获得的功能，它将尝试预测域标签，因此其输出为二进制。

标记源或目标域可以，因此，此域区分符试图，区分蓝色点和橙色点，好的，所以我们只对域标签上的分类损失进行训练，然后这是我们的第一步，然后我们的第二步将是修复，域标识符，而是更新编码器，这样编码器。

导致域识别器准确性较差，因此它试图愚弄，通过生成特征来区分域，在源域和目标域之间基本上没有区别，好吧，这是一种对抗性的方法，因为这种对抗性，第四，我们训练域鉴别器，做好区分域名的工作，然后我们修复它们。

我们训练，编码器欺骗鉴别器，以便它可以，不再区分领域是否一切顺利，我们有一条线。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分布，那么这实际上有效吗，让我们来看看我们的，从前面的数字示例，所以我们在这里，还是两个数字域，您会在适应之前看到，红点和蓝点的分布非常不同，现在在对特征应用这种对抗域对齐之后。

我们可以看到事实上特征分布现在已经很好地对齐了，您或多或少无法分辨出分布的差异，可以在红色和蓝色点之间进行操作，并且，不仅可以使特征对齐，还可以改善功能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们训练的分类器的准确性，因为我们仍在这里训练，使用源域标签正确地分类，这实际上是，是什么阻止了我们的分歧，呃，您真的很傻，就像将所有内容映射到一个点，因为，我们仍然有必须满足的分类损失。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此分类器也有所改善，让我们来看看有多少，所以在这里，我将展示我们的cdr17论文的结果，称为ada或对抗性区分域适应，因此，使用这种技术，我们可以在训练这些时提高准确性，域。

然后在这些目标域上进行大量测试，所以这是一个重大的改进，但并不是那么好，因为它有点困难，在svh端到端的转移，因为这是最难的，这些变化很大，所以到目前为止外卖，领域适应可以提高目标上分类器的准确性。

数据完全不需要标签，我们根本没有在这里标记目标域，使用未标记的数据进行交易，因此您可以将其视为一种形式，无监督微调的权利，所以微调是，我们经常做的事情，以改进某些目标任务的模型，但是它需要标签。

所以如果没有标签，这是我们可以做的，我们只有标签数据，我们可以进行这种无监督的微调。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

太好了，到目前为止，我还谈到了域，在特征空间中对齐，因为我们接下来将更新特征。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

想谈谈像素空间对齐，所以像素空间对齐的想法是，如果我们可以将图像本身作为源数据，该怎么办，像素，实际上只是使它们看起来像它们来自，目标域，我们实际上可以做到这一点，这要归功于，对抗生成模型的器官。

其工作方式与，我已经描述过了，但是他们的区别是，看整个图像不是功能，而是实际的图像，被产生，所以我们可以采用这个想法并将其应用，在这里再次训练，获取我们的源数据并在图像域中对其进行翻译，使其看起来像它。

实际上来自目标域，所以我们，可以执行此操作，因为我们有未标记的目标数据，并且有一个，几种方法，仅用于对此图像进行成像，翻译一个著名的被称为cyclogan，但基本上这些是有条件的。

使用某种损失来对齐两个域，在像素空间，所以如果我们现在有这个井的意义是什么，转换后的源数据，我们仍然有该数据的标签，但现在，看起来它来自目标域，所以，我们可以针对这个新的伪造目标进行训练。

例如带有标签和，希望它可以改善目标上的分类器错误，顺便说一句，我们仍然可以应用我们以前的，功能对齐，因此我们仍然可以在，功能就像我们之前所做的那样，串联在一起的两件事，它们实际上确实提高了性能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当你在很多问题上都做的时候，好吧，让我给你看一个例子，这是一个，训练领域，这是呃，所以我们试图，做语义像素标记，所以我们的目标是，网络是将每个像素标记为道路或道路等几种类别之一，汽车或行人或天空。

我们想在这个gta域上进行训练，来自侠盗猎车手游戏，它是很好的数据来源，因为它，基本上是免费的，标签是免费的，我们只是得到它们，从游戏中，然后我们要对此进行测试，城市景观数据集是收集的真实世界数据集。

在德国的多个城市中，您可以看到它的外观，所以我将向您展示像素化的结果，这两个域之间的像素域对齐，所以你看到这里我们实际上是在，数据集并将其翻译为游戏，因此此处的原始视频来自，城市景观。

我们正在将其翻译为GTA游戏，好吧，如果我们应用这个会发生什么，域适应的想法，所以这里我们的源域是gta，这是改编后的源图像的示例，我们从gta提取并将其转化为真实的，域。

然后当我们在这些分类器上进行训练时，翻译的图像，我们的准确性从54提高到83。6，每个像素的精度，因此它在精度上确实有很大的提高，再次在目标域上不使用任何其他标签。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

再回到数字问题，记住那真的很困难，从街景图像位数到mn位数的转变，现在，通过这种像素空间自适应，我们可以看到，我们可以，从街景域中获取这些源图像，然后，使它们看起来像mnist图像，所以这个中间。

情节中间，该图左侧显示了svhn的原始图像，将它们翻译为看起来像羊皮纸，所以如果我们现在就进行培训，我们可以，将我们在mnist上的准确度提高到90。4，如果我们将其与我们的比较。

仅使用特征空间对齐的先前结果，我们到了76，所以我们在这方面做了很多改进，所以这里的要点是无监督的图像到图像，翻译可以发现并对齐对应的，两个域中的结构，所以有相应的结构，正确，我们在两个域中都有数字。

并且它们具有相似的，结构以及此方法正在做什么，um通过发现这些结构并使它们对齐来对齐它们，彼此对应。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

很好，所以接下来我想继续谈谈fu Shot像素对齐。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好的，到目前为止，我没有明确地告诉您，但是我们实际上认为，我们有很多未标记的目标数据，是的，因此在该游戏从游戏改编成，真实数据集，我们从真实图像中获取了很多图像，世界，他们没有标签，但我们有很多，他们。

所以我们就像我不知道成千上万，图片如果目标域中只有几张图片会发生什么，好吧，事实证明我谈论的这些方法并不能真正解决这个问题，他们需要更多图像的情况下，所以我们要做的是与我的研究生和我的合作者。

在nvidia，我们想出了一种可以，只翻译一个或几个，也许两个，或者，目标域中最多有三个或五个图像，所以假设我们有，我们的源域中，我们有很多被标记的图像，在这里，我们将看一个不同动物的例子，物种。

因此域将是物种，的动物，所以在这里我们有一个特殊的狗品种，现在我们想将此图像转换为其他域，这是另一种狗，但我们只有一个这样的例子，狗，所以我们的目标领域只给了我们，在一张图片中。

所以我们的目标是输出源代码的翻译版本，保留该源图像内容的图像，但添加了目标域图片的样式，所以这里的内容是动物的姿势和风格，是动物的种类，所以在这种情况下，它是狗的品种，您会看到我们实际上能够做到这一点。

相当成功，因为您可以看到，我们已经保留了狗的姿势，但是我们改变了，从目标图像到一只狗的品种，好的，所以这是一个非常酷的结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

嗯，我们实现这一目标的方法是修改现有的模型，您基本上通过更新样式编码器在左侧看到的功能块，该模型的一部分，因此我们将其称为可可或内容，条件样式编码器，因此我们模型的工作方式就是这样。

拍摄内容图像和样式图像，它使用编码器对内容进行编码，这只是一个卷积网络，然后还需要样式和内容，将其编码为样式矢量，然后此图像解码器将，内容向量和样式向量相结合，它们一起生成最终的输出图像。

而且该图像上有甘色损失，确保我们生成的图像看起来像我们的目标，所以以前的工作之间的主要区别，单位和我们称为cocof单位的单位是此样式编码器的结构，不同的是，这取决于两个内容，图像和样式图像还可以。

因此，如果我们在，这个模型的引擎盖多了一些细节，再次是主要的区别，这是在样式编码器中，对，所以它需要样式图像um，用功能对其进行编码，并且还可以学习，一个单独的样式偏差向量，该向量与，图像编码。

这些是整个学习的参数，数据集，所以他们是恒定的，他们不相信他们不依赖，图像本质上是做什么的，它会有所帮助，模型类型学习如何解决姿势变化，因为在不同的图像中，有时姿势会发生非常剧烈的变化，一幅图像。

我们看到了动物的整个身体，然后我们，可能有非常被遮挡的动物，只是头部可见，在此示例中，然后内容编码为，结合这些样式编码以生成最终的，自适应实例中使用的样式代码，规范化框架（如果您不熟悉的话），不用担心。

只是将两者结合起来的一种方式。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

向量来生成图像，所以这是我们的一些示例输出，最上面的模特，我们有一种风格，所以它是一个形象，从我们想要的动物身上看到的目标物种，喜欢，然后在下面是内容，是从本质上讲是来源的姿势，我们要保留。

然后在底部的底部，您会看到我们的模型生成的结果，生产的，所以你可以看到我们实际上是，能够保存，内容图像的姿势很好，但要结合风格或种类，对于目标样式图片感到遗憾，有时我们甚至知道，像猫的东西看起来更像狗。

因为，目标域是狗的品种，但姿势与原始猫相同，图片或最后一张图片实际上是，看起来像狗的熊，因此，如果我们将其与之前的方法进行比较，我之前提到的单位，我们看到我们的模型，比后代好多了，在这种情况下。

很多时候都无法产生，逼真的图像，只是不产生令人信服的图像或，真实感，所以在这里我要播放视频只是为了向您展示更多结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

实际上，我们正在整个拍摄整个视频。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

并将其翻译成一些目标域，这样您就可以在顶部看到各个域。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在这里，所以相同的输入视频将是。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

转换为这些目标领域的每一个，每个目标域都有两张图片。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对，所以第一个实际上是狐狸，现在这里还有另一个例子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与不同的鸟类，这样您就可以看到鸟的姿势保留了原来的姿势。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

视频，但其种类已更改为目标。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，您知道那里的成功水平各不相同，但总的来说，它在做。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

比以前的方法更好，这是这里的另一个最终示例，我们再次将内容图像与样式和，产生输出并不确定什么种类，这将是某种奇怪的新物种，好吧，总而言之，就是以内容为条件，和样式图像一起，我们可以改善样式的编码。

并在此视图案例中改进域翻译。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好的，所以我还有一点时间，我实际上有多少时间大约10分钟，是的，好的，所以在最后几分钟，我想，谈论我们已经完成的最新工作，超越了我之前谈论过的对齐技术，提高他们，第一个是自我监督。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

学习这样一个假设，所有这些，我说过的制作方法是类别相同，在源头和目标上，如果，违反了假设，为什么我们会违反这个假设，因此，假设我们有一个对象的源域，并且我们想转移到，来自这个真实来源的目标领域。

例如图纸，领域，但在图纸领域，我们有一些，其中一些图像相同的图像，我们在源代码中具有的类别，但某些源类别是，在我们的目标域中缺失，好像我们没有杯子或大提琴，而且我们甚至可能有新的类别。

源中不存在的目标域中，好吧，这里是类别转换的案例，不只是功能转移，不仅是视觉域转移，而且实际上是类别，正在移动，因此这是域对齐的困难情况，因为，域对齐我们总是假设整个域都应该对齐，在一起。

如果我们尝试这样做，情况下，我们会有灾难性的适应结果，所以我们。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

实际上可能比什么都不做更糟，没有适应性，所以在我们最近来自欧洲的论文中，在2020年，我们为此提出了一种解决方案，不使用域对齐，而是使用自我监督的学习，好吧，这样的想法是，假设我们有一些。

源数据被标记为蓝点这里我们有一些，未标记的目标，其中一些要点可能是，对未知的类，所以我们要做的第一件事就是发现，点对靠近的点对，我们以这样的方式训练特征提取器，嵌入在一起，所以我们基本上。

试图将相邻点聚拢在一起，同时将更远的点推得更远，之所以能够做到这一点，是因为我们从一个预先训练的模型开始，已经这么说了，我们说它已经在imagenet上进行了预训练，所以已经给了我们一个漂亮的。

良好的初始化，因此在此邻域聚类之后，这是无监督的损失，或者我们可以称其为自我监督，我们已经更好地将我们的功能进行了聚类，正在将来自已知类别的未标记目标点聚类，更接近已知类的源点，然后。

它将目标中的黄色未知类聚类成远离，那些已知的类现在我们要做什么，是增加了熵分离损失，这进一步鼓励了具有，对不起，我觉得um与，已知的类别，所以这本质上是一个离群的拒绝，正确的机制，所以。

如果我们看一个点，我们看到，它具有很高的熵，可能是离群值，所以我们想，拒绝它，并将其推到更远，所以最后，我们获得的是一个编码器，它使我们具有此功能，相同类别的点聚集的分布，接近源头。

但新颖类的要点聚集在远离。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来源，好吧，如果我们将其应用于称为“远景挑战”的数据集，正在训练合成图像并适应目标域，即，真实图像，但其中一些类别缺失，在目标中，我们又不知道，现实生活中，因为目标未标记，对，所以如果我们批准。

如果我们采用我刚刚描述的这种舞蹈方法，与最近的很多领域相比，可以提高性能，适应方法，并且与仅仅进行培训相比，源，所以如果我们，仅在源数据um上进行交易，然后如果我们在这个域上进行交易，在整个域上对齐。

这就是我们的da和n方法，实际上看到我们比不做任何事情都具有更差的准确性，而不是再次在源代码上进行培训，因为这是同一类别，这个问题违反了假设，但是使用我们的方法，我们实际上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不仅可以做源代码培训，还可以做得更好，并提高准确性，好了，最后我想提一个很酷的功能，嗯，这个想法已经变得嗯，在半监督文学中最近更为流行，我们可以。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

实际也将其应用到这里，所以在这里我们再次开始，在源域和目标域上进行自我监督的预训练，但是在这种情况下，我们要做的是不同的呃单元监督任务，而不是，此处的聚类点是我们预测图像的旋转，因此，我们可以旋转图像。

但我们确切知道图像的方向，但是，然后我们训练特征提取器来预测，例如，该方向是旋转90度还是零度，好的，但是这又是另一个自我监督的任务，它可以帮助我们，预训练更好的特征编码器。

对我们的源域和目标域更具歧视性，然后我们应用这种一致性损失，那么一致性损失是什么，所以在这里，我们将对未标记的图像进行一些数据增强，好的，我们将采用预先训练的模型，然后，使用该模型生成概率分布。

目标um的类别um在原始图片上以及在，增强的未标记图像，其中增强是，您知道裁切颜色转换会增加噪点并增加小，旋转之类的东西，就是这样，旨在保留对象的类别，但会更改图像，然后我们取这两个概率输出，我们。

添加一个损失以确保它们一致正确，所以我们告诉我们，模型的外观，如果您看到此的增强版本，图片您仍然应该预测相同的类别，对于该图像，我们不知道它是什么，因为该图像未标记，但是它，应该与原始图片相同。

因此有了这个主意，因此我们将。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

此旋转预测预训练与，一致性培训，我们称此包为一小部分，品尝我们得到的结果只是因为我没有太多时间，但是，基本上在这里，我们再次从合成，拜访挑战中对真实图像的数据集。

但是现在我们假设在我们的目标域中标记了一些示例，我们实际上可以通过这种打包方法来改善，关于域对齐方法（称为mme）的内容很多，这就是我们的，在这种情况下的以前的工作，所以基本上我要你，摆脱这一点的是。

域对齐不是，唯一的方法，我们可以使用其他方法，例如，自我监督培训和一致性培训以提高。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

目标数据的性能还不错，所以我在这里止步，只是总结一下我在说什么，我希望我已经说服了您，数据集偏差是一个主要问题，我已经讨论过如何使用领域自适应技术来解决它，尝试使用未标记的数据来传递知识。

我们可以认为这是无监督微调的一种形式，我谈论的技术包括对抗性对齐，还有一些其他依靠自我监督的技术，一致性培训，所以我希望你喜欢这个。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

P11：Towards AI for 3D Content Creation - 爱可可-爱生活 - BV1jo4y1d7R6

伟大，是啊，是啊，谢谢你的介绍，我要和你谈谈三D内容创作，尤其是深度学习技术，以促进三维内容的创建，我要谈的大部分工作是工作，嗯，我和我在英伟达的团队以及合作者，但这也将是我在UT的一点工作。

所有的权利，所以你知道，你们这些家伙，我想这是一堂深度学习课，对呀，你听说了艾是怎么做的，你知道在过去的一年里取得了如此大的进步，也许十年，几乎，但计算机图形学实际上也发生了革命性的变化，你知道。

许多新的渲染技术或更快的渲染技术，也是通过和AI一起工作，嗯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是约翰逊介绍的最新视频，所以这一切都完成了，你看到的所有投降都是实时完成的，它基本上是在你眼前呈现的，和，你知道的，与传统的，你可能习惯了实时游戏，但这里没有大灯，没有大灯，一切都是在线计算的。

照明一切都在网上，你在这里看到的是在一种叫做全宇宙的东西中呈现的，这种可视化和协作，在英伟达最近刚刚发布，你们应该去看看，真的很棒，所有的权利，哎呀。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这盏灯总是卡住，是啊，是啊，所以当我加入英伟达的时候，这是两年半前的事了，我所在的其实是兽人，呃正在开发一个叫做杂食者的软件，我刚才展示的那个，我对此非常兴奋，你知道我想在这个领域做出贡献。

所以以某种方式将人工智能引入内容创作和图形管道，三维内容在图形中无处不在在很多领域，所以在建筑学中，你知道的，设计师会创造办公空间，公寓，不管一切都会做什么，你知道的，你知道的。

在一些计算机图形学建模软件中，对呀，这样你就可以判断你是否喜欢一些空间，然后再出去建造它，现代游戏都像沉重的，胶片中的三个D um，有很多计算机图形学，事实上，因为导演只是想从角色或人类身上得到太多。

所以你只需要把它们都吃完，用计算机图形学完成，以逼真的方式动画，既然我们都回家了，你知道VR超级流行吧，每个人都想在房间里有只老虎，或者有一个三D字符版本。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你自己的三个D头像等等，嗯，还有机器人技术，所以医疗保健和机器人技术，实际上也有很多计算机图形学，在这些领域，这些是我特别兴奋的领域，为什么嗯，它实际上是为了模拟。

所以在你在现实世界中部署任何类型的机器人系统之前，你需要在模拟环境中测试它，所有的权利，你需要在医疗保健的各种挑战性场景中测试它，因为你知道，机器人手术或机器人学，自动驾驶汽车，你知道仓库机器人之类的。

我将向你们展示这个叫做Drive SIM卡的模拟器，英伟达一直在开发的，嗯，这是，呃，这个视频是几年前的，现在不是，比这好多了，嗯，但基本上模拟有点像一个游戏。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它真的是机器人的游戏引擎。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在你从游戏引擎中暴露了更多，你想让造物主。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

机器人学家对环境有一定的控制，对呀，你想决定你要放多少辆车在里面，天气会怎么样？黑夜或白天等等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，这使您能够对将要测试的场景进行一些控制，但好处是。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你知道的，有了这个计算机图形管道，一切都被标记在三个D中，你已经创造了一辆三维模型的车，你知道这是一辆车。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你知道汽车的部件，你知道某物是土地等等，而不仅仅是渲染图片，你也可以渲染，你知道人工智能训练和测试的基本事实，你可以得到地面真相车道，地面真理天气地面真理分割，所有这些东西，在奖励中收集是超级难的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我的目标是，你知道的，如果我们想考虑所有这些应用和特定的机器人技术，你知道的，我们能以某种方式模拟世界吗，我们能不能把这样的模型，从远处看可能不错，但我们想在街头创造真正好的内容，你知道资产和行为。

让这些虚拟的城市活起来，这样我们就可以，你知道吗，在里面测试我们的机器人好的，所以实际上让我玩，这需要大量的人力，在这里我们看到一个人创造了一个与给定的现实世界图像对齐的场景，艺术家把场景元素。

编辑他们的姿势，纹理以及场景或全局属性，比如天气，照明，摄像机位置，这个过程最终花了四个小时来拍摄这个特殊的场景，所以在这里艺术家已经有了资产，你知道的，网上买的什么的，唯一的目标是重现上面的场景。

已经花了四个小时了对吧，所以这真的真的很慢，我不知道你们是否熟悉，你知道像侠盗猎车手这样的游戏，那是一千个工程师的努力，一千人工作三年，嗯，基本上创造了一个洛杉矶，在城市里转来转去，拍了大量的照片。

你知道25万张照片，数小时的镜头，任何能给他们，你知道他们需要在世界上复制什么的想法，所有的权利，所以这就是AI可以帮助的地方，你知道的，我们知道计算机视觉，我们知道深度学习，我们能不能拍一些镜头。

重现这些城市，在重建方面，资产和行为，这样我们就可以模拟所有这些内容，或者这个直播内容，所有的权利，所以这是我对我们需要创造的东西的想法，我真的希望有些人，你们中的一些人会对这些话题同样兴奋。

我要努力解决这个问题，所以我相信我们需要，在这个特定地区的AI，所以我们需要能够合成世界，这意味着，你知道场景布局，你知道，我把这些不同的物体放在哪里，也许是世界地图，所以我们需要一些创造资产的方法。

就像你知道的，汽车，人等等以某种可伸缩的方式，所以我们不需要艺术家来创作这些内容，非常缓慢，你也知道，世界动态动态部分，所以你知道的场景，这意味着我需要能够，呃，对每个人都有很好的行为，对吧。

我该怎么尝试，你也知道，动画，这意味着人或任何表达的物体，你的动画需要看起来逼真，好的，很多这种东西，你知道那里已经做了，对于任何游戏，艺术家和工程师需要这样做，我想说的是，我们能让AI做这么多吗。

好多了，快得多，所有的权利，所以你知道，我今天要讲的是我们卑微的开始，所以这是我的主要话题，你知道多伦多英伟达实验室和，我要告诉你一点关于，所有这些不同的话题，我们一直在慢慢解决，但还有很多事情要做。

好的，所以我们要解决的第一件事，我们能通过，也许看看我们可以收集的真实镜头，比如说从一个自动驾驶平台，那么我们可以把那些视频，和，你知道，训练某种生成模型，将生成看起来像真实城市的场景，你知道我们想开。

所以如果我在多伦多，我可能需要砖墙，如果我在一个，我只需要更多的街道，就像我需要以某种方式个性化这个内容，基于我将要去的世界的一部分，好的，如果你们有什么问题，把它们写下来，我喜欢讲座是互动的。

所有的权利，那么我们如何构图场景，我们的想法是研究游戏是如何在游戏中构建的，你知道人们需要创造非常多样化的水平，所以他们需要以一种非常可扩展的方式创建，非常大的世界，一种方法是使用一些过程模型。

右语法或概率语法，它基本上告诉你，你知道如何创建场景的规则，使其看起来像一个有效的场景，所以在这个特殊的情况下，我会尝试一次有一些车道的公路旅行，然后在每条车道上，你知道，取样一些汽车。

也许在一条小巷旁边有一条人行道，也许人们走在那里，那里有树或类似的东西，对吧，所以这个这个，这个概率模型可能相当复杂，很快想象一下这是如何变得复杂的，但与此同时，实际上写这个并不难。

任何能够写一堆关于如何创建这些内容的规则的人，好的，所以它不是它不是太强硬，但最难的是真正难的是难的部分，你知道的，在这里设置所有这些分布，你知道，这样渲染场景就会看起来像你的目标内容对吧。

意思是如果我在多伦多，也许我想要更多的车，如果我在一个小村庄，在某个地方我想有更少的车，所以尽管我需要去，然后你知道，把这些模型个性化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正确设置分布，所以这只是一个例子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你知道的，从这里的概率模型中取样，上，卡片方向的概率将成为随机集，但仍然没有场景看起来已经有点好了，对呀，因为它已经包含了我们所知道的关于世界的所有规则，模特不需要学习训练好的。

所以你可以把它看作是某种图表，对呀，其中每个节点定义我们要放置的资产类型，然后我们也有属性，这意味着我们需要有位置高度，摆出任何必要的姿势来把这辆车放在场景中并渲染，好的，这些东西通常是由艺术家设置的。

对呀，他们需要，他们看真实的数据，然后他们决定，你知道我在城里会有多少皮卡，等等，所有的权利，所以基本上他们手工设置这个分布，我们要说的是，我们能真正了解这个分布吗，我们只是在看数据。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好的，几年前我们有一篇名为Meta的论文，这个想法是在哪里，让我们假设我所取样的场景的结构，所以在这个特殊的情况下。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你知道我有多少车道，我有多少辆车，这来自艺术家已经设计的一些发行版。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以图表是正确的，但是属性嗯应该修改，所以如果我从这个原始场景图中取样，我可以渲染，就像你看到的那个例子，在汽车随机旋转之前，等等这个想法是，神经网络现在能修改这些节点的属性吗，修改旋转，这个颜色。

也许是一种类型的物体，这样当我渲染那些场景图时，我得到的图像看起来像真实的图像，我已经记录在分发中，所以我们不想追求每个场景的精确复制品，我们希望能够训练，生成模型，将合成看起来像我们记录的图像的图像。

那是目标，好的，所以基本上我们有一个图表，在场景图上工作的神经网络，它试图预测每个节点的属性，我不知道你们有没有谈到图神经网络，然后损失是通过这里的渲染器出来的，我们用了一个叫做最大均值差异的东西。

所以我不打算详述，但基本上你可以，您需要比较两个不同的发行版，你可以通过比较，你知道的，比较两种分布的均值，或者是高阶矩，MD的设计是为了比较高阶矩，现在最后一个可以通过这个不可微渲染器返回道具。

回到我们的图形神经，好的，我们只是使用数字梯度来做到这一点，很酷的地方是，我们真的不需要在图像上做任何记号，我们直接比较图像，因为我们假设图像，合成的图像已经很不错了，所有的权利。

所以我们实际上不需要数据，我们只需要开车四处走走，记录下这些事情，好的，你可以做一些更酷的事情，您实际上可以尝试个性化这些数据，你以后要解决的任务，这意味着您可以训练这个网络来生成数据。

如果你在这些数据的基础上训练其他神经网络，这是一个物体探测器，它真的会做得很好，你知道的，不管你最后有什么任务，在现实世界中收集的，好的，这可能并不意味着物体需要在场景中看起来很好，你可能会。

这只是意味着你需要生成对一些网络有用的场景，你想对这些数据进行训练，好的，而你，你，你再背这个，你可以用强化来做到这一点，学习。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以这现在是在训练属性的分布，这是比较容易的部分，我们回避了，嗯，这些图的结构怎么样，意思是如果我一直生成，你知道一个场景中有五八辆或十辆车，但现在我在一个村庄里，对呀，所以这个想法是，车道数。

汽车的数量等等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

事实证明，实际上你也可以做到这一点，在这里，我们有一个概率上下文无关语法，这基本上意味着你有一个，你有根，现在你有一些符号，可以是非终端符号和规则，他们基本上把非终端符号扩展成新的符号。

所以这里有一个例子，所以你有一条路，你知道它生成车道，车道可以进入车道或更多车道，对等等，所以这些是规则，基本上我们想做的，我们想训练一个网络，学会取样，这个问题是上下文无关语法，好的。

所以我们会有某种潜在的载体，在这里我们知道我们在树上的位置，我们之前已经生成的图，所以想象一下我们在，我们有一些车道什么的样品，所以我们现在知道了相应的符号我们可以从这里取样。

我们可以用它来掩盖其他一切的可能性，我们的网络基本上将学习如何产生正确的概率，下一个符号，我们应该取样，好的，所以基本上每一步，我要测试一个新规则，直到我击中所有的终端符号，好的。

这基本上给了我这样的东西，这些是样品，这种情况下的规则，可以转换成图形，然后用前面的方法，我们就可以，你知道，用属性增强此图，然后我们可以渲染场景，好的，所以基本上现在我们也在学习如何生成。

嗯实际场景图，场景图的实际结构和属性，这是超级难训练的，所以有很多铃铛和哨子让这一切发挥作用，但本质上是因为这都是不可微的步骤，你需要强化学习之类的东西，有很多技巧可以让它发挥作用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但我很惊讶能有这么好的结果，所以在右边你可以看到来自真实数据集的样本，或者凯蒂就像一个真正的驾驶数据集，左边是概率语法的样本，我们手动设置了这些第一个概率，我们故意把它弄得很糟糕。

这意味着这个概率语法当你取样时你得到的车真的很少。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

几乎没有建筑物，你可以看到这几乎是没有人口的场景，训练生成模型后，学习如何对这类场景进行采样，因为它们更接近真实的目标数据，所以这就是最后的趋势歌唱的地方，现在你怎么能真正评价我们做了一些合理的事情。

在这里你可以看到，比如说，真实数据集中的汽车分布，这是小猫在这里，所以在这里你会有一个直方图，每个场景中有多少辆车，嗯，你这里有一个橙色的家伙，这是在先的意思，这个初始化得很糟糕的斯托语法。

我们大部分时间都在取样，很少有车，然后学习的模型，就是绿色，这里的线，所以你可以看到发电机，似乎真的真的紧紧地跟着，真实数据的这种分布，手头没有任何一个注释，现在你们可以好好争论，写起来超级容易。

你手工知道这些分布，我们已经完成了，我想只有这个，只是说明这是可以工作的，下一步我们要做一个非常大的规模，把这些你知道的做得很大，概率模型，在那里很难手动调整所有这些参数，最酷的是。

因为现在一切都可以训练，自动，从真实数据，没有任何最终用户可以拿走这个，它将在他们这边训练，他们知道他们不需要用手去设置所有这些东西，好了下一个问题是，你知道我怎么评价我的模型实际上做了一些合理的事情。

一种方法是从这个模型中取样，合成这些图像，伴随着地面的真相，然后训练一些，你知道N个模型，就像数据上的探测器，并在真实数据上进行测试，看看性能是否有所改善，嗯，与你知道的相比，假设初始化得很糟糕，嗯。

概率语法，事实证明就是这样，好的，这是开车时展示的例子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是对不起，所以这个模型就在这里。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我只是在展示训练中发生的事情，让我只是好吧，因此，第一个快照是模型中的第一个示例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

然后你看到的是这个模型实际上是如何训练的，那么如何在训练中修改场景呢，我再给你看一次。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以你可以看到第一个框架是放置得很糟糕的车，然后它慢慢地试图找出把它们放在哪里，是正确的，当然，这是生成模型，对吧，所以你可以在大量的场景中取样，所有的东西都有标签，很酷好吧。

这个模型是在开车的时候展示的，但你也可以在其他地方应用它。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就像在其他领域一样，在这里你知道，现在的医疗保健非常，你知道重要的，尤其是现在大家都被困在家里，所以你知道，你能用这样的东西来合成医学数据吗，我说的权利是什么意思，所以医生需要采取，你知道的。

城市或MMR um，核磁共振和体积，去给每一片都贴上标签，你知道的，假设一个分割掩码，这样他们就可以训练，就像一个，你知道的，癌症分割，或者汽车分割，或者肺分割，神户探测，任何权利，所以首先。

数据很难获得，对吧，因为在某些疾病中，你没有很多这样的数据，第二部分是它实际上是超级耗时的，你需要专家来标记这些数据，所以在医学领域真的很重要，如果我们真的能学会如何综合这些数据，标签数据。

这样我们就可以用它来增加真实的数据集，好的，这里的模型将再次非常简单，你知道我们有一些生成模型，让我们从一个潜在的代码到，关于网格A的某些参数，在这种情况下，这是我们在材料地图中的资产，然后呃。

我们用一个基于物理的UM CT模拟器合成了这个，你知道看起来有点模糊，然后我们用类似的东西训练一个当汉曼模型，然后你得到模拟数据，显然又是，有很多铃铛和哨子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但你知道你可以得到非常好看的合成卷，所以在这里用户可以玩心脏的形状，然后他们可以点击合成数据，你拿一些有标签的卷出来，标签基本上是左边的东西，这是模拟传感器，在这种情况下，所有的权利。

所以现在我们讨论了使用过程模型来生成世界，当然，问题是，我们需要写所有这些规则吗，我们能学会如何恢复所有这些规则吗，这是我们第一次对此的看法，嗯，在这里，我们想生成或学习如何生成城市道路布局，好的。

这意味着我们希望能够生成类似的东西，在你知道的地方，这里代表道路的线，好的，这是任何城市的基地，我们想再次控制这个世界，你会有互动一代这样的东西，我想让这个派对看起来像剑桥，是看起来像纽约的一部分。

是看起来像多伦多什么的一部分，我们希望能够生成或合成其他一切。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你知道根据这些风格，好的，你可以把道路布局解释为一个图形，好的，那么这意味着什么呢，我有一些控制点和两个控制点正在连接，意味着我在他们之间有一段公路线，所以真的，我们在这里试图解决的问题是。

我们能让神经网络生成图形吗，带属性的图，其中每个属性可能是x，控制点的y位置，好吧，再来一次，巨型抓斗，因为这是我们想要生成的整个城市，嗯，所以我们实际上有一个非常简单的模型，在那里你迭代地生成这个图。

想象我们已经，你知道的，生成了图的某些部分，我们要做的是从，就像未完成的布景，我们所说的，我们已经合成并导致这个节点，这基本上意味着我们想，我们想对这个节点的外观进行编码，它连接的是什么路。

我们想生成剩余的节点，基本上这些道路是如何继续的，在这种情况下，好的，这是超级简单的，你只需要像RNN一样对这些路径进行编码，一个RNN正在解码这些邻居，好吧，你停在哪里。

基本上你击中了城市的一些预定大小。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我给你看一些。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一些结果。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以在这里你可以根据城市的风格来调整，所以你可以生成巴塞罗那或伯克利。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你可以有这个控制权，或者你可以把城市的一部分设定为特定的风格。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你可以用同样的型号，生成模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

也解析真实地图或真实航空图像，并创建和创建这些地图的变体，以进行模拟，因为对于模拟，我们需要对实际布局保持稳健，所以现在你可以把这个图表变成一个真正的小城市。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在那里你可以，也许像我们之前讨论的那样，程序地生成其余的内容。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

房子在哪里，交通标志在哪里，等等。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在我们可以生成，你知道城市的地图，嗯，我们可以在城市的某个地方放置一些物体，所以我们有点接近合成世界的目标，但我们仍然缺少物体。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

物体仍然是艺术家需要创造的痛苦，所以所有这些内容都需要手工设计，这需要很多时间才能做好，也许已经有了，你们会争辩说，你知道的，对于汽车来说，你可以上网支付这些东西。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

首先它很贵，其次，它在某些课程中并不广泛可用，就像，如果我想要一只浣熊，因为我在多伦多，他们只是成吨的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

只有几个，它们看起来不像真正的浣熊。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对呀，所以问题是，我们真的能做到吗，通过只拍摄图片并从图片中合成其内容来解决这些任务，对呀，所以理想情况下我们会，嗯，像图像一样的东西，我们想生产出，你知道一个三维模型三维纹理模型。

为什么我可以插入我真实的东西，理想情况下我们希望只在网络上广泛可用的图像上这样做，是的，我想新的iPhone都有激光雷达，所以也许这个世界会改变，因为每个人都会用三维传感器拍三维照片。

但现在Flickr上的大多数对象图片，假设都是单一的图像，人们只是对一个场景或特定对象进行快照，所以问题是，你知道的，我们如何从所有的数据中学习，从左边的图像变成三维模型，在我们的例子中。

我们希望从图像中产生输出，一个基本上有，你知道顶点的位置，x y是，你知道每个顶点上的一些颜色材料属性，右和三个D顶点以及面，这意味着哪些顶点是连接的，这基本上是定义一个三维对象。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在我们要转向图形，帮助我们实现我们的目标从你知道的，从网上学习的那种没有监督的，好的，在图形中，我们知道图像是由几何学与光相互作用形成的，对呀，那只是渲染的原理，好的，所以我们知道你可以，你。

如果你有一个网格，如果你有一些光源，你就有了一个质地，还有材料等等，我不在这里写，和一些图形渲染器，你知道有很多问题可以选择，你得到一个渲染的图像，如果我们让这部分可微，如果我们把图形和可微。

那么也许有希望走另一条路，对呀，你可以把计算机视觉想象成反向图形图形是三维图像，计算机视觉想从图像进入三维，如果这个模型是可微的，也许有希望做到这一点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以最近有很多工作要做，基本上这种经过不同修改的管道，嗯，但基本上这总结了正在进行的工作，你有一个图像，你有某种神经网络，你想训练，你在做这种纽扣，就像这里的预测，就是粉碎性的轻质感，也许现在是材料。

而不是在这里失去，因为你没有，因为你，否则您需要对其进行注释，我们要做什么，相反，我们将把这些预测发送到这个渲染器，它将渲染一个图像，我们将在渲染图像和输入图像上定义定律，我们基本上要试着让这些图像与。

好的，当然还有很多其他的损失人们在这里使用，喜欢多视频，因为你假设在训练中，您有相同对象的多个视图，你有口罩什么的，所以有很多铃铛和哨子，如何真正让这个管道工作，但原则上，这是一个非常干净的想法。

我们想预测这些性质，我有这个图形渲染器，我只是在比较输入和输出，因为这是这个渲染是可微的，我可以把这个损失传播回我想要的一切，你知道神经轻量级，所以我可以预测这一点，这些属性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

特别是有一个非常简单的，像OpenGL类型渲染器，我们使其可微，也有一些版本可以进行追溯，可微的等等，但基本上我们使用它的想法非常简单，对了，网格基本上是投射到图像上的，你得到三角形，每个像素都是。

基本上只是这个投影三角形顶点的Bucentric插值，现在如果你在这些顶点上定义了任何属性，比如颜色，或者你知道，质感等，然后您可以在这里通过您的，你知道渲染器，它以可微的方式假设一些照明，用这个坐标。

这是一个可微函数，你可以通过任何灯光或其他东西回去。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一个非常简单的，你知道，有更丰富的模型可用，更富有，可微的，这些天提供的，但在这里，我们也试图在数据方面变得聪明一点，因为大部分相关的工作都是利用合成数据来训练他们的模型，为什么，因为在训练过程中。

大多数工作都需要多视图数据，这意味着我必须有来自同一物体多个不同视图的多张照片，这很难从网络数据中获得，对呀，很难得到，所以说，人们基本上只是从合成数据集中提取合成汽车，并在不同的视图中呈现。

然后训练模型，这真的只是，也许也许会让一个问题变得不那么有趣，因为现在我们实际上依靠合成数据来解决这个问题，问题是我们如何获得数据，我们试着聪明一点，我们转向图像的生成模型，我不知道你们有没有上课。

你知道图像甘斯，但如果你再拿像风格这样的东西，也就是，你知道吗，生成对抗网络，通过从一些，或者你得到了非常惊人的照片，就像所有这些图像都是合成的，这些都不是真的，这都是合成的，好的，你知道这个甘斯。

基本上他们所做的是你有一些潜在的代码，然后有一个，你知道，一些很好的渐进式架构，慢慢地将潜在的代码转化为实际的图像，会发生的是，如果你开始分析这个，这个潜在的代码，或者我想我要谈谈这个。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果你拿代码的某些维度，你试着冻结它们，好的，你只需操纵剩下的代码，事实证明，你可以在这个潜在的代码中找到非常有趣的控制器，基本上枪已经了解了一个三维世界，它就藏在那个潜在的密码里，好的。

我这么说是什么意思，所以你可以找到一些潜在的维度，基本上控制视点，剩下的代码是控制内容，意思是，汽车的类型和视点意味着那辆车的视点，好的，所以如果我看这里，我们基本上改变了视点代码。

并保留了这些内容代码，剩下的代码冻结了，这基本上是合成的，最酷的是它看起来就像你知道的，同一对象的多个视图，它并不完美，就像这个家伙，第三个，最上面一行的照片对象看起来不完全匹配。

但大多数从不同的角度看都像同一辆车，另一边也拿着，所以说，如果我在这些列中的每一列中都固定了一个内容，比如视点代码，但他们改变了，内容代码在这里表示不同的行，我实际上可以在每个视点得到不同的车，好的。

所以这基本上又是合成的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这正是我们需要的数据，所以我们没有对我们的技术做任何特别的事情，我们唯一聪明的是如何获取数据，你知道现在你可以用这些数据来训练我们的，你知道可微渲染管道，你会得到这样的预测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你有一个输入图像和一堆三个D预测，但现在我们也可以做汽车，所以左边的输入图像，然后在本专栏中的同一视点中呈现的三维预测，这是在多个不同的视点中呈现的预测，只是为了展示预测的三维性质。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在我们基本上有了这个工具可以拍摄任何图像并产生三个，d资产，所以我们可以通过拍照来拥有大量的汽车，好的，这里有一个小演示在这个全方位的工具，用户现在可以拍一张汽车的照片然后拿出一个三维模型，请注意。

我们也估计材料，因为你可以看到挡风玻璃有点透明，车身看起来很闪亮，所以它是金属的，因为我们也预测了三个D部分，你知道它并不完美，但相当不错，现在你知道，一个月前，我们有了一个新版本，也可以动画这个预测。

所以你可以拍一张照片。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测这家伙，这家伙，我们可以把。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你知道，轮胎而不是预测的轮胎，你可以估计物理学，你可以开着这些车到处跑，所以它们实际上成为有用的资产，这现在只在车里，但当然这个系统是通用的，所以我们要，我们正在将它应用于许多不同的内容。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

酷，我想我不知道我还有多少时间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以也许我要跳到最后，我总是有太多，sli，嗯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以我有所有这些行为什么的，但我想给你看我们做的最后一个项目。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因为我想你们只给我四十分钟，嗯，所以你知道我，我们也做了一些动画方面的工作，呃，利用强化学习，嗯那个，你知道的，也许我跳过了这里，但我们基本上是在为所有不同的方面构建模块化的深度学习块，问题是。

我们能不能回避一下，我们能不能学会如何模拟数据，用一个神经网络的一切，我们称之为神经模拟，我们能不能有一个人工智能模型来观察我们与世界的互动，然后能够模拟，所以你知道，在电脑游戏中，我们知道你知道他们。

它们接受一些用户操作，左右，键盘控制或其他什么，然后计算机引擎基本上在合成下一帧，它会告诉我们，你知道世界是如何随着你的行动而改变的，所以我们试图尝试的，这里是用神经网络代替游戏引擎。

这意味着我们仍然希望游戏的互动部分，用户将在其中输入，动作就要开始了，但是屏幕将由神经网络合成，这基本上意味着你知道，这个神经网络需要学习世界是如何正确工作的，如果我撞到一辆车，它需要，你知道的。

制作一个看起来像那样的框架，一开始我们的第一个项目是，好吧我们能不能找个吃豆人模仿一下，试着看看神经网络是否能学会如何模仿吃豆人，但当然有趣的部分就要开始了，我们无法访问游戏引擎的地方，就像这个世界。

对，你可以把世界想象成矩阵，我们无法访问矩阵的地方，但我们仍然想学习如何模拟和仿真矩阵，这真的是令人兴奋的未来工作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但基本上我们有，你知道一个试图模仿什么的数字，游戏引擎的作用，你在那里输入一些，你知道动作，也许上一帧，然后你有一个叫做动态引擎的东西，世界上的动态是如何变化的，我们有一个渲染引擎，它将潜在的代码。

实际上会产生一个好看的图像，我们也有一些记忆，它允许我们推送任何我们想要能够持续产生的信息，你知道一致的游戏性，在这里的一些额外的街区。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好的，他是，他就像我们在吃豆人上的第一个结果，我们在吃豆人40岁生日那天发布了这个。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

哈哈哈。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你在这里看到的都是合成的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对我来说是，即使是这么简单的游戏，其实没那么容易。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因为你知道神经网络需要了解，呃，吃豆人，如果它吃了食物，食物需要消失，如果鬼魂能变成蓝色，然后如果你吃了一个蓝色的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

鬼你活下来，否则你就死定了，所以已经有很多不同的规则需要恢复。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就像合成图像一样。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当然我们的下一步是，我们能把这个放大吗，我们能去看三场比赛吗，我们最终能走向现实世界吗，所以再一次，这里，控制将是转向控制，就像速度和方向盘，这是由用户完成的，被人类，你在右边看到的是，你知道。

玩具枪画的画框，通过这个模型，所以我们开着这辆车到处跑，你可以看到什么，模型所画的是一个相当一致的世界，事实上，没有三个D。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

什么都没有，我们基本上只是合成帧，这里有一个更复杂的版本，哪里嗯，我们也尝试合成其他汽车，这是在卡拉模拟器上，这就是我们试图模仿的游戏引擎，它并不完美，就像你可以看到汽车实际上在改变颜色。

但令人惊讶的是，它能够完全做到这一点，现在我们有一个版本实际上是在真实的驾驶视频上训练的，就像一千个小时的真正驾驶，它实际上已经做了一个惊人的工作，你知道。

所以我认为这可能是一个很好的替代管道的其他部分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所有的权利，当你在做一件如此宽泛的事情时，你知道有一件事要意识到，一个大问题是你永远无法独自解决它，你知道我们会独自解决的，所以我的一个任务也是为社区提供工具，这样你就知道。

你们可以拿着它建立自己的想法，并构建自己的三D内容生成方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好的，所以我们最近发布了三维深度学习是CD的一个令人兴奋的新领域，但是使神经网络适应这个领域并不容易。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

COWAN是一套用于三维深度学习的工具，包括一个pi torch库和一个全方位的应用程序。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

考恩的图形处理器，优化操作，和交互式功能带来了急需的工具来帮助加速该领域的研究。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

比如说，您可以将模型的预测可视化为它的训练。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

除了纹理网格。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您只需两行代码就可以查看预测的点云和体素网格。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您还可以对您喜欢的数据集进行采样和检查。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

容易在网格之间转换，点云和体素网格。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

渲染三个带有地面真相标签的D数据集来训练您的模型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

并构建强大的新应用程序，弥合图像和三个D之间的差距，使用灵活的模块化可微渲染器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

还会有更多，包括在Web浏览器中可视化远程培训检查点的能力，不要错过三维深度学习研究中这些令人兴奋的进展，以及COWAN将如何很快扩展到更多的应用程序。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

是啊，是啊，所以我说的很多事情，所有的基本工具都可用，所以你知道，请拿着它，用它做一些惊人的事情。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我对此真的很兴奋，只是总结一下，我希望我妈妈能创造出非常好的三维模型，她不知道如何使用微软，字什么的，所以它需要超级简单，有人工智能工具可以帮助更高级的用户，像艺术家一样，游戏开发者，但只是，你知道的。

减轻镗削材料的负荷，让他们的创造力发挥得比现在快得多，所有这些都与学习机器人模拟有关，只是一个花哨的游戏引擎，需要真实而不是来自幻想，但它对机器人应用非常非常有用，我们在这里的实验室花了两年半的时间。

但是还有很多事情要做，我真的希望你们能这么做，我只想用一张幻灯片结束，因为你们是学生，我对研究的建议，嗯，你知道，只是学习学习学习这门深度学习课程是一门，不要停在这里，继续，嗯。

一个非常重要的方面就是对你的工作充满热情，永远不要失去激情，因为那才是你真正富有成效的地方，你真的会做好事，如果你对你正在做的研究不兴奋，虽然，你知道的，选择别的，选择别的，不要急着拿文件。

专注于获得真正好的论文，而不是论文的数量，这不是一个好的指标，对呀，狩猎引文，也许也是最好的指标，对呀，有些不是很好的论文，有很多引文，一些好论文，这里没有很多引文，你将以你所做的出色工作而闻名。

查找协作者，这是我的研究风格，我想解决真正的问题，我想解决问题，这意味着如何解决还不清楚，有时我们需要去物理，我们需要去图形，有时我们需要去NLP，随便啦，我对其中一些领域一无所知，你只想向专家学习。

所以找到合作者真的很好，最后一点，你知道，我一直作为指导，很容易受挫，因为百分之九十九的时候事情都行不通，但只要记得玩得开心，嗯，因为研究真的很有趣。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这就是我的全部。

P12：AI in Healthcare - 爱可可-爱生活 - BV1jo4y1d7R6

我在谷歌工作了16年，过去六年，我一直在生命科学和医疗保健，我通常喜欢运行更多的互动课程，嗯，给定群体的规模，我们认为民意调查可能会奏效，所以我会在整个谈话过程中发起几个民意调查。

我也会试着留意聊天记录，如果你们有问题，但是嗯，我也可能把它们留到最后，我先说一下议程。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我希望能给你一些关于人工智能的信息，特别是深度学习和医疗保健，我将互换使用人工智能和深度学习，因为这只是我们团队的名字是谷歌AI嗯，但你将看到的例子都是深度学习的例子，嗯，如你所知。

人工智能确实包括其他东西，如机器人技术和非神经网络方法，所以我只想说清楚，当我使用它们的时候，我不需要把它们完全混为一谈，一旦我介绍了一些关键的应用程序，我们在人工智能和医疗保健方面所做的一切。

我想和你讨论一下什么样的独特机会，我想我们有是因为深度学习，能够创造一个更加公平的社会，当我们部署人工智能模型时，我们可以谈谈这是如何可能的，最后，我将谈到人工智能和医疗保健的最后一组应用程序。

在这里的末尾，所以呃在，就人工智能和医疗保健背后的历史而言，我们受益于深度学习的成熟，尤其是端到端功能，在那里我们可以直接从原始数据中学习，嗯，这对计算机视觉和语音识别的进步非常有用。

在医学领域极具价值，另一个区域，大家都知道，通过GPU本地化计算能力的增加，这使得神经网络的性能优于，过去的非神经网络，第三个是所有这些开源的价值。

大型标记数据集和Magenet是非健康相关领域的数据集，但有我呃，公共数据集，如英国生物银行，甚至模仿，这非常有帮助，它实际上是在麻省理工学院实验室开发和生产的。

所以你会听到人工智能在医疗保健中的一些应用，下一个，我们做的一件事是确保，我们关注行业的需求，并将其与技术能力相匹配，医疗保健每年都有大量复杂的数据集，估计它正在产生，每年几千艾字节的健康数据，嗯。

只是为了正确看待这一点，据估计，如果你把互联网数据，嗯，这大约是数百艾字节的东西，所以它是它的几千倍，嗯，我们现在看到的是，稍后您将看到的应用程序是模式检测，以及识别病变和肿瘤的能力，和非常微妙的图像。

它有用的另一个领域是寻址，全球有限的医学专业知识，如果你往右边看，你想看的是一位医学专家，像放射科医生，人口中约有一万二千人，但是你可以在右边的图表上看到在发展中国家。

看起来更像是一到十万或者一到一百万，甚至，因此人工智能在医疗保健中的好处，它可以帮助扩展到运行一些有价值的复杂任务，许多专家都有能力，第三是真正解决人类的不一致，我们会谈谈这个。

尤其是当我们谈论生成标签的时候，嗯，人工智能模型没有明显的近因或认知偏差，嗯，他们也能够不知疲倦地工作，当你不得不加班时，这是一个问题，但就像在医学领域一样，这是经常发生的，让我来谈谈下一个应用程序。

也就是肺癌，但我们开发的是一种计算机诊断，在这种情况下是为了用低剂量CT帮助筛查肺癌，扫描，嗯，你通常会看到存活率急剧上升，如果你在早期感染，但是大约80%的肺癌没有早期发现，和我。

他们通常用来做这些筛查的是这些低剂量的CT扫描，如果你看这个图，向右边，是发生在你整个身体上的三维成像，它创造了数百张图像供放射科医生查看，和我，肺癌的征兆很微妙，所以我们的模型能做的。

我们认为这不仅仅是超越了最先进的技术，但实际上更重要的是，我们把它和放射科医生做了比较，看看假阳性和假阴性是否都有绝对减少，所以假阳性会导致系统的过度使用，假阴性会导致，呃。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不能足够早地感染癌症，通常一旦你们都减少了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

病理学是另一个难以深度学习的领域，甚至更复杂的数据，这是左边的一个，你可以看到当你做活检的时候，你有身体组织的切片，这些被放大了四十倍，并在每张幻灯片上创建大约10到15个数据像素的信息。

本质上复杂的部分是当你做病理学时，你想知道A放大了，呃，职等，这个组织的高度放大水平，这样你就可以描述病变的特征，你还需要了解整个组织结构，为它提供上下文，所以在较低的功率下，所以你有一个多尺度的问题。

嗯，这也是嗯，固有的复杂，呃，能够区分良恶性肿瘤，有数百种不同的病理会影响组织，所以能够在视觉上区分是非常有挑战性的，我们建立了模型，嗯从检测乳腺癌啊，嗯，病理图像，病理学家实际上没有假阳性。

该模型能够捕捉到更多的癌症病变，所以大于95%，相比之下，病理学家得到的73%，但也增加了假阳性的数量，嗯，这意味着我们尝试的，呃，然后就是结合起来让模型和病理学家一起工作，看看精度能不能提高，然后它。

它绝对做到了，嗯，这种共同努力也导致了一种增强显微镜的发展，在那里你可以看到模型，嗯嗯，检测微软内部的补丁，显微镜视图本身，我们会回到这样一个事实，即模型有某些弱点，我们是如何处理的。

后来的基因组学是另一个领域，呃，显著受益于深度学习，值得注意的是，当你做全基因组序列时，你所做的就是把你的DNA撕成十亿，大约一百个碱基的读数，嗯，有大约30倍的误差采样，当你这样做的时候，嗯。

当你尝试，和，呃，弄清楚顺序，你想做的是像拍摄一样的事情，星期日报纸的三十年，三十份，每份都有错误，然后把它们切成二十个字的片段，然后你试着把它们重新组合在一起，啊，这就是当你做测序时发生的事情。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

嗯，所以我们把这个问题重新定义为深度学习问题，呃，我们研究了图像识别是如何，特别是卷积神经网络将能够在这个空间中执行，开发了一个名为Deep Variant的工具，这是开源的，可供呃，供任何人使用。

随着时间的推移，我们一直在改进它，这被证明是一个非常准确的，嗯，美国食品和药物管理局每隔几年举办一次精确的美国食品和药物管理局竞赛，它是，呃，表现出色，大多数人在四分之三的准确性领域获奖。

你可以在右边看到当你，在视觉上很明显，当你在测序中得到假变异的错误时，嗯，所以这是一个聪明的方法，但是。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以我们讨论了医疗领域的不同需求，其中之一是有限的医学知识，有一种方法可以帮助他们，这是扩展他们运行的任务，这样它们就可以自动化了，这是另一种穿衣方式，这是医生的回归时间。

发生的事情就是你在这张照片中看到的，是一个把自己的经历，看医生时，你可以看到医生实际上是对着左边的电脑，嗯，这在医疗保健行业引发了许多关于技术成本的讨论，以及它是如何干扰病人护理的，嗯。

医生们现在在这一点上，每天花大约六个小时与他们的电子健康记录交互，输入数据，能够支持的时机成熟的领域之一，嗯，医生是要，呃，抄写员，人类抄写员已经被部署，医学听写已经变得更好了。

自动语音识别现在有了非常精确的端到端模型，嗯，它在自然语言处理方面也有显著的改进，所以这些都是更像是一种辅助人工智能的方式，帮助医生减轻文件的负担，我现在就开始投票。

只是为了看看人们认为什么是最有价值的应用程序，让我看看这里，如果我能做到，我只是想快速回顾一下，有计算机诊断，这对筛查和诊断很有用，有一个，放射学证明了这一点，嗯，有证明的预后，嗯，那病理学对。

确定治疗学，能够确定治疗效果，和疾病的进展，嗯，这就是病理学和基因组学被高度利用的地方，然后返回专家的时间实际上是通过医学听写来帮助人工智能，开处方，伟大，所以让我继续走，当城邦走的时候，嗯。

我想谈谈我们如何实现更大的登月计划，所以让我退一步，哪里啊，我们看看医疗保健是如何，医疗保健的角色现在看起来，它充满了巨大的碎片，这是相当客观的，它是呃，分布不均，我注意到的一件事是，在技术方面，嗯。

如果你把它应用到一个系统上，我们确实会放大它，所以科技是一种既增强又扩大现有事物的方式，嗯，所以如果你有，如果你把它应用于一个有不正当激励的破碎系统，它不会从本质上修复系统，它会加速它。

但机器学习的核心，嗯，而这些深度学习技术，我们正在做的是，我们正在非常仔细地查看数据，并利用这些数据来，按成果分列，在这种情况下，鉴于世界并不充满公平，你冒着训练错误模型的风险。

我们还发表了一篇论文来帮助解决这个问题，所以说，社会，不平等和偏见往往被编纂成法典，在我们使用的数据中，嗯，我们实际上有机会检查这些历史偏见，当我们开发模型时，积极促进一个更公平的未来。

你可以通过纠正训练数据中的偏差来做到这一点，嗯，你也可以在模型设计中纠正偏差，和问题的表述，你想解决的是什么，我们一会儿再谈这个，呃最后，如果这些都不适用，那你啊。

您还可以测试和确保平等的结果和资源分配，当你部署人工智能模型的时候，所以这是，嗯，我以前在谷歌X工作，这就是谷歌在月球拍摄方面的努力，我们定义月球拍摄的方式是一个巨大问题的交集。

突破性技术和激进解决方案，这里的一个大问题是世界是不确定的，不带人情味，它也需要更高的精度，嗯，我们现在有一项突破性的技术，也就是人工智能和深度学习，嗯，我只想说。

数字移动工具实际上是医疗保健的突破性技术，因为他们往往落后于其他行业大约十年，做规定，安全隐私和质量需求，嗯，所以一个激进的解决方案是我们，我们实际上考虑的不仅仅是提高我们提供的护理质量。

但要确保当我们这样做的时候，我们也使它更加公平，在我看到技术浪潮发生的每一个时间点，嗯，我确实意识到，在这一点上，这是我们重塑未来的机会，所以在嗯的情况下，深度学习，我想谈谈真正搬家的机会，嗯。

所以我没有意识到幻灯片没有前进，嗯，我想谈谈让人工智能模型更加公平的机会，我们将如何做到这一点，所以我要讲的两个关键领域是社区参与，嗯，以及这将如何影响模型，和在数据评估中，嗯，然后规划模型限制。

我们如何有效地做到这一点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

ai，我们做的一件事就是与这些地区合作，我们将直接部署模型，左边以此类推，在这里，你可以看到我们和印度的团队一起工作，嗯，在右边，是我们的团队和泰国的人一起工作，i，我们发现社会经济状况绝对重要。

就您将在哪里部署模型而言，嗯，一个例子是当我们用，啊，眼科，嗯中心，这就是眼病发生的地方，糖尿病是世界上日益增长的失明原因的主要原因，这是模型开发的地方，但实际上，在糖尿病中心，用例最严重。

所以内分泌科办公室和人们没有跑一百米，从内分泌科办公室到那里的距离，到眼科办公室，嗯，因为访问问题，然后呃，挑战与嗯，用线条等等所以这是我们探索的一个领域，探索，广泛使用用户研究来确保我们仔细考虑。

人工智能模型将在哪里着陆，这将如何影响。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们看到的是当我们为模型生成标签时，你可以在左边看到，就像你所期望的那样，当你得到更多的数据，嗯，模型不断改进，所以它在这里变平了，有六万张图像，嗯，在某个时候，这就足够了，你不会从中得到更多的改善。

你实际上从中受益，如果你看右边的图，我们的改进，标签的质量，或者我们所说的图像上的等级，每个医生给出一个图像和等级，这是他们对他们认为自己看到的东西的诊断意见，嗯，因为我们对单个图像有多种意见。

并且能够调和我们能够不断改进模型输出。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

嗯，并提高精度，所以这是嗯，医疗保健领域经常说的话，如果你问三个医生，你有四种意见，因为，嗯，随着时间的推移，甚至医生自己也可能与自己不一致，处理这一问题的方式，嗯，在一些国家是使用德尔菲法。

它是在冷战期间发展起来的，在个人意见不同的地方，它有助于确定共识，我们开发了一个工具来对不同的意见进行异步裁决，嗯，这导致了更高的地面，真理，数据创建，和，这是因为医生有时会错过什么。

另一个医生注意到的，所以他们通常会和解，并能够就实际的严重程度或诊断应该是什么达成一致，所以这是我们看到的，真的，这真的很有影响力，因为，嗯，当我们和眼科医生一起做分析的时候。

我们会看到医生们60%的一致性，嗯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是一种实际解决差异水平的方法，这是我想谈论的社区参与的最后一个领域，嗯，如果你更深入地研究问题的表述，就会发现这一点，这是一个他们不认为，通过对他们的模型和算法的输入，这个算法试图确定。

社区的使用需求，他们用，作为实际健康需求代理的um健康成本，这导致了，呃，呃，无意中的种族偏见，因为花在黑人病人身上的钱少了，嗯，这是在事实发生后被抓住的，所以如果你再点击一次，这是关键区域之一。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在哪里，嗯，有来自社区的投入，呃其实早就发现了，当他们在做算法开发的时候，这是我们现在经常练习的事情，我知道你们在做项目，所以呃，这将是我想发布的民意调查之一，只是，我们看看能不能让它发射，是呃。

其中哪一个，嗯，方法实际上是潜在的相关的，为了嗯，你们正在做的项目，好的，伟大，我会继续说下去，然后呢，当这个被保存下来的时候，在左边回顾一下是很好的，这里我前面提到过。

我们的病理模型在假阳性方面有一定的弱点，嗯，但它也比病理学家捕捉到了更多的癌症忠诚，所以我们开发了一种方法来解释模型，图像查找，然后呃，这是允许发生的，是嗯它，它使用了一种聚类算法能够找到不被称为四个。

给病理学家，这可能是实际诊断或预后的有意义的指标，嗯，在这种情况下，我，病理学家已经开始使用该工具从中学习，然后嗯，病理学家也有好处，能够识别模型的任何问题并通知模型进行改进。

所以你得到了模型的良性循环，右边的病理学家互相学习，是我们用来解释模型输出的另一种方式，你可以看到显著性图，这是一种，只是嗯，能够识别哪些特征是，嗯一个，模型其实是在关注，在这种情况下。

模型关注的是哪些像素，把它们点亮，我们这样做是为了知道，嗯，模型实际上决定诊断的方式，不管是特殊的皮肤状况，嗯，我，他们正在看实际的皮肤异常，而不是某面，与肤色或人口统计信息的潜在相关性。

所以这对你来说很有价值，作为检查模型的一种方式，最后我提到的是对平等结果进行模型评估，嗯，里面有东西，在皮肤科领域被称为菲茨帕特里克皮肤类型，它可以让你看到不同的肤色，我们所做的是用不同肤色的测试集。

做模型评估，看看我们是否得到了同样的结果，作为模型开发人员你必须做出一些艰难的选择，如果你发现你的模特在某一特定类别或人口统计中表现不佳，理想情况下发生的事情是，您补充您的数据集。

这样您就可以进一步证明您的模型能够适当地解决这些区域，或者你可能不得不决定限制你的模型，这样就可以有平等的结果，嗯，有时你实际上并没有选择不部署模型，所以这些是发展人工智能的一些现实世界的含义。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

医疗保健领域的模型，我想和这个小组讨论的最后一个申请是，嗯保健的概念，在过去，医疗保健通常是，嗯，我为病人想到的，虽然每个病人都是一个人，不是每个人都是病人，和，嗯，病人通常被认为在这里的左边。

生病或有危险的人，他们正在进入医疗保健系统，当你想到这种性质的人时，模型是完全不同的，他们是否患有急性或慢性疾病，嗯，他们是我们刚才谈到的，它们是筛选诊断，预后治疗，这些是模型倾向于关注的，嗯。

如果你在看人们，他们被认为是引用未引用的，嗯，嗯，但它们的健康每天都受到我们所说的，健康的社会决定因素，你的环境和社会环境，你的行为和生活方式选择，嗯和嗯，你的基因是如何与环境相互作用的，然后嗯。

就如何处理这个问题而言，这里的模型看起来截然不同，他们倾向于专注于预防性护理，所以边吃边睡，好好锻炼，他们还关注公共卫生，我认为这是一个很大的，嗯，所以嗯，当我们谈论公共卫生时，可以有流行病学模型。

这些都是非常有价值的，但也有，嗯，你知道，现在正在发生的事情，尤其是可能对公众健康最大的全球威胁之一是气候变化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以在印度这样的地方正在发生的事情之一，印度公共卫生警报的洪水预报，实际上有很多警觉疲劳，所以实际上不清楚他们什么时候应该关心警报，或者不是，嗯，这个团队所做的是。

他们专注于建立一个可扩展的高分辨率水力模型，使用卷积神经网络来估计输入，如降雪量，土壤水分估算与渗透性，这些水力学模型模拟了洪泛区的水行为，嗯，而且比以前使用的要准确得多，这是我现在被部署来帮助警报。

和整个印度地区在季风季节，嗯。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以我只想给这个团队留下这样的想法，呃，呃，在气候变化方面，现在有很多事情要做，嗯，自然对健康植入至关重要，还有住在上面的人，所以呃，我们目前依赖这些生态系统服务，这意味着人们依赖清洁的空气，供水。

粮食农业授粉，土地稳定和气候条例，这是一个人工智能成熟的领域，能够帮助更好地理解和重视，那些我们目前没有支付很多费用的服务，但我们将来可能不得不，所以最后一张幻灯片。

让我们看看我们是否能让它出现在投票中，嗯，我只是想比较一下了解人们对健康的看法是否有什么不同，嗯，人工智能应用于什么可能是最令人兴奋的，谢谢你推出最后的PO，而且那个。

我离开团队的最后一件事就是我们所做的工作，人工智能和医疗保健是可能的，有一个庞大的团队和大量的合作发生在医学研究中，所以就是这样，呃，你知道的，这是我们的团队，随着它多年来的成长，以不同的形式。

因为我们的团队不再是所有人了，但这肯定是许多工作产生的地方，现在让我看看聊天中的问题，所以我就回顾一下投票结果，所以看起来，嗯，诊断模型，嗯，呃，哦耶，所以我猜你们可以做多项选择，你可以选择多个。

所以五六十人，一半的人认为诊断和治疗是有价值的，也不太感兴趣，但仍然有价值的援助，谢谢你填表，绝对让我看看问题，鉴于新车型的快速发展，这是什么意思，将ML诊断解决方案扩展到世界各地更多人的瓶颈。

但是满足监管需求的监管自动化，诊断用长杆，确保病人安全，适当规管，通常你会通过FDA或C标记，这可能需要一段时间，必须建立质量管理体系，从开发的角度确保这个系统是健壮的，所以它是作为医疗设备的软件。

这永远是真的，当你和病人打交道时，嗯，就另一部分而言，也许是开源的，嗯，有更多的标记数据集，这样每个人都可以进入并向前移动空间是有价值的，这里有一个很好的问题。

良好的数据集对于开发有用的公平模型至关重要，我们需要投入哪些努力和技术，继续收集数据集并形成更多模型，正在发生的事情之一是开发一个可伸缩的标签基础设施，这是能够，更好的数据集。

但原始数据也是直接反映结果的数据，这是有价值的，所以嗯，一个例子是，如果你在想，直接来自用户的数据，就他们的生命体征或生理信号而言，这些东西离地面很近，你能得到的关于个人福祉的真相，很明显。

但我们在Covid 19中看到的是，获得信息就更难了，就像嗯，实际发生了多少死亡，这些死亡的原因是什么，所以这些是需要，这些管道需要在…的背景下考虑，他们怎么能支持公共卫生产品。

这些数据是如何准确地传出去的，所以我们现在确实有一个努力，很多人都加入了，那是嗯，呃现在在GitHub上，我可以为以后提供一个链接，嗯，是志愿者建立了一个透明的数据管道，对于数据来源的来源。

跟踪是非常重要的，当您创建这些数据集时，以确保您知道，在哪里，什么，数据的用途是什么，和，嗯，谁有多可靠，源头来自哪里，所以说，这些都是需要建立的东西，通知您构建的模型，最后一个问题。

你如何促进对与你正在开发的产品相关的潜在算法偏见的对话意识，几件事之一是你建立的团队和他们一样多，可以反映一个，代表更广泛的人群实际上比，我想人们意识到我所说的，也就是说。

如果你有一个多样化的团队在工作，或者你带来的人可以是贡献者，或者嗯，能够反思问题的财团的一部分，你试图解决的空间，那其实是，嗯，一个很好的倾听方式，发现你以前可能从未想过的事情，嗯，但又一次。

它可以从你建立的团队开始，然后你周围的网络，你实际上从那里得到反馈循环，你知道的，如果你能负担得起，你，你会想用一种相当可测量和定量的方式来做到这一点，但如果你不能，它是，积极主动地。

就你要去什么空间进行对话，以及你将如何考虑模型的输入，所有的权利，所以谢谢你，呃。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

P2：Recurrent Neural Networks - 爱可可-爱生活 - BV1jo4y1d7R6

大家好，我叫Ava。我是6。S191的讲师和组织者，欢迎您参加第2讲，这将专注于深度序列建模。因此，在与亚历山大的第一次演讲中，我们了解到，关于神经网络的本质，并建立了从感知器到感知器的理解，前馈模型。

接下来，我们将注意力转向将神经网络应用于问题，其中涉及到数据的顺序处理，我们将了解为什么执行此类任务，要求的网络架构与迄今为止所见的不同。为了加深对这些类型的模型的了解，我们将逐步完成此步骤。

从直觉开始，逐步了解这些网络的工作方式，并在何处建立网络，我们放弃了第一讲中介绍的感知器和前馈模型。所以。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们继续深入。首先，我想激发我们在顺序建模和建模方面的意义。通过一个非常简单的直观示例开始进行顺序处理。假设我们有，这张照片是一个球，我们的任务是预测它要去往下一个地方。

没有有关球的历史或对球的了解的任何先验信息，它的运动动力学，其下一个位置的任何猜测都将恰好是，只是猜测。但是相反，如果除了球的当前位置，我还给了它，以前的位置现在我们的问题变得容易得多。

我想我们都可以同意我们拥有，感觉球将传到下一个位置。所以希望这个直观的例子，使您了解我们在顺序建模和顺序预测方面的含义。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

事实是，顺序数据和这些类型的问题确实存在于我们周围，诸如来自我的语音的波形之类的音频可以分解为一系列声波，可以将文本分为字符序列或单词序列，当此处每个这些字符。

字符或每个单词都可以看作是我们序列中的时间步，现在，除了这两个示例之外，还有更多的情况是顺序处理，从医学信号到心电图到股票价格预测到基因组或遗传学都可以用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据及其他数据，现在我们已经了解了顺序数据的外观，让我们，考虑一些在实际世界中发挥作用的具体应用，在第一堂课中，亚历山大介绍了前馈模型，从固定和静态输入到固定和静态输出的一对一方式，例如。

他给出了这种二进制分类的用例，我们试图建立一个模型，让这个班级的学生得到一个单一的输入，可以接受训练以预测该学生是否会通过这种类型的，例子中没有时间成分，没有序列或顺序数据的内在概念。

当我们考虑序列建模时，我们现在将可能性的范围扩展到可以，涉及时间输入以及潜在的顺序输出，例如，让我们考虑一个语言处理问题的情况，其中有一个句子是，输入到我们的模型中，并定义一个序列。

其中句子中的单词是单个单词，时间顺序，最后我们的任务是预测一个输出，该输出将，是与该序列输入相关的情感或感觉，您可以想到这个问题，作为具有单个输入的序列输入或作为多对一序列问题。

我们还可以考虑相反的情况，此时我们的输入不具有该时间维度，因此，例如，当我们考虑静态图像时，我们的任务是产生一系列输入，的输出，例如描述此图像中内容的句子标题，您可以将其视为一对多序列建模问题，最后。

我们还可以考虑许多情况，我们现在正在翻译，从一个序列到另一个序列，也许是最著名的例子之一，应用程序的类型是机器翻译，目标是训练模型以进行翻译，从一种语言到另一种语言的句子都可以。

因此希望可以给您一种具体的感觉，现在，顺序建模变得非常重要的用例和应用程序，我想继续前进。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

了解我们如何实际构建神经网络来解决此类问题，并，有时候，围绕我们如何添加这种时间性的想法可能有些挑战，我们的模型的尺寸，以便解决这个问题并建立真正的直觉，我想，从最基本的基础开始。

我们将首先回顾一下感知器，我们将一步一步地发展出对改变需求的真正扎实的理解，为了能够处理顺序数据而对我们的神经网络体系结构进行了处理。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好的，让我们回想一下我们在第一堂课中学习的感知器，我们定义了一组输入，可以通过xn调用x1，这些数字中的每一个都将与权重矩阵相乘，然后将它们全部加在一起以形成感知器的内部状态，我们将说是z。

然后将此值z传递给非线性激活函数，产生预测性的输出，并记住，使用感知器，您可以拥有多个，输入信息，由于您在本次讲座中总体上了解，我们正在考虑顺序，建模我希望您将这些输入视为序列中的单个时间步。

我们还看到了如何从单个感知器扩展到现在的感知器层以产生，多维输出，所以例如在这里，我们有一层绿色的感知器，取蓝色的三个输入并预测紫色显示的四个输出，但这又是一次，有时间或顺序的概念，不是。

因为我们可以再次输入和输出，认为是从序列中的固定时间步开始的，所以让我们简化此图吧，为此，我们将隐藏层折叠到此绿色框以及我们的输入和输出，向量将如此处所示，同样，我们的输入x将是一些长度为向量的向量。

m，我们的输出将是长度n，但是我们仍然在考虑输入，在这里用t表示的特定时间与我们在第一堂课中看到的没什么不同，即使使用这种简化的前馈网络表示，我们也可以天真地。

尝试通过一次又一次地应用同一模型来将序列输入该模型，对于我们序列中的每个时间步，都有一个了解，以及如何处理这些个体，跨不同时间步长的输入首先让我们旋转上一张幻灯片中的同一张图。

所以现在我们又从某个时间步长t获得了输入向量x t，将其输入到神经元中，网络，然后在该时间步获得输出矢量，但由于我们对顺序数据感兴趣，假设我们不仅有一个单一的时间步长，而且还有多个独立的时间步长。

从假设时间零开始，这是我们序列中的第一步，我们可以在，该时间步将其视为该孤立的时间点，并将其传递到模型中并生成一个，预测性输出，我们可以在下一个步骤中再次将其视为某种东西，隔离，下一个相同。

这里要强调的是，这里描述的所有这些模型都只是，在这些不同的时间步长中的每个步长处，具有彼此不同的输入的彼此的副本，但是我们知道我们的输出，并且在第一堂课中我们知道我们的输出向量。

y在特定时间sub t只是该时间步长的输入的函数，但是如果我们考虑顺序数据，让我们在这里退一步，很有可能稍后的输出或标签将以某种方式，取决于先前时间步长的输入，因此通过对待这些个体。

我们在这里所缺少的是，时间步长作为单独的孤立时间步长是顺序固有的这种关系，序列中较早输入的数据到序列中较晚预测的数据，因此，我们该如何解决我们真正需要的是一种关联计算的方法。

以及网络在特定时间步距之前的历史记录所进行的操作，从先前时间步的计算以及该时间步的输入，最后得到，能够将当前信息传递到当前信息上的一种前瞻性的感觉，未来的时间步长。

因此让我们尝试做的正是我们将要考虑的是链接信息和，彼此在不同时间步长的网络计算，特别是，引入这个内部存储器或单元状态，在这里我们将其表示为t的h，这将是，这种记忆将由神经元和网络本身以及这种状态来维持。

可以跨时间按时传递，这里的关键思想是，这种递归关系我们正在捕获一些关于序列看起来像什么的记忆概念，这意味着现在网络的输出预测及其计算不仅，输入在特定时间步的函数，还包括单元格状态的过去记忆。

用h表示，这意味着我们的输出取决于我们当前的输入以及，过去的计算和过去的学习，我们可以通过以下方式定义这种关系，这些将输入映射到输出的函数，这些函数是标准的神经网络，亚历山大在第一堂课中介绍的操作。

因此我们的输出再次是我们的预测，不仅取决于特定时间步的当前输入，还取决于过去的记忆，并且因为如您在此关系中所见，我们的输出现在是当前输入的函数，以及上一个时间步的过去记忆，这意味着我们可以描述。

这些神经元通过递归关系意味着，我们的单元格状态取决于当前输入，并取决于先前的单元格状态中的先前状态，并且此行右侧的描述显示了这些单独的时间步骤正在排序，跨时间展开，但我们也可以在此周期内描述相同的关系。

这在幻灯片左侧的循环中显示，该循环显示了这种重复发生的概念，关系，正是这种递归概念提供了直觉和关键操作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在递归神经网络或rnns后面，我们将继续进行其余的，本讲座是在此基础上建立的，并增强了我们对数学的理解，这些递归关系和定义rnn行为的操作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好的，让我们将此形式正式化一下，正如我提到的，这里的关键思想是，希望您能从本讲座中脱身的是，这些rnns保持了这种内部状态，t的h，随着序列的处理在每个时间步上更新并完成，通过此递归关系。

该递归关系具体定义了状态在时间步的更新方式，具体来说，我们定义此内部单元状态h为t，并且内部单元状态将变为，是一个函数，该函数将由可以由一组参数化的函数定义。

权重w是我们在训练这样的网络的过程中实际要学习的内容，w的函数f将以t的当前时间步长x的输入作为输入，以及t减去1的先验状态h以及我们如何再次找到并定义该函数，它将由一组权重进行参数化。

这些权重将专门用于学习，在训练模型的过程中，rnns的关键特征是他们非常，处理序列的每个时间步骤都具有相同的功能和相同的参数集，当然，在训练过程中权重会随着时间而变化，稍后。

我们将确切地了解如何进行训练，但是在每次迭代时，权重将应用于序列中的每个单独的时间步长。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好的，现在让我们逐步介绍更新rnns的算法，以更好地理解，这些网络的工作方式，我们将从初始化我们的网络开始，只是在此代码块中将其抽象为伪代码块中的rnn，我们还将初始化一个隐藏状态和一个句子。

让我们说我们的任务，这是为了预测网络中句子中的下一个单词，rnn算法如下，我们将遍历此句子中的单词，并在每一步中，将当前单词和先前的隐藏状态都输入到我们的rnn中，这将。

生成下一个单词的预测以及对隐藏状态本身的更新，最后，当我们处理完这句话中的这四个词时，我们可以对下一个词实际上是什么产生预测，通过将所有单个单词输入模型后，考虑rnn的输出。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好的，因为您可能已经意识到rnn计算包括这两个内部，单元状态更新为hft以及输出预测本身，因此现在我们将具体，逐步了解如何定义这些计算中的每一个，我们将考虑输入向量x的t。

接下来我们将应用一个函数来更新，隐藏状态，此功能是标准的神经网络操作，就像我们在，第一次讲课，再次是因为t的内部细胞状态h将取决于两个，输入t的x以及t的先前单元格状态h减去1，我们将它们相乘。

根据各自的权重矩阵计算单个术语，我们将添加结果，然后应用非线性激活函数，在这种情况下，它将是一个双曲线，与这两个项的和相切，以实际更新隐藏状态的值，然后在给定的时间步生成输出，我们将内部隐藏状态乘以。

它是由一个单独的权重矩阵生成的，该矩阵固有地产生了此内部状态的修改版本，这实际上构成了我们的输出预测，因此为您提供了背后的数学，rnn如何实际更新其隐藏状态并产生预测输出，到目前为止。

我们已经看到rnn被描述为具有这些内部循环，关于自己的反馈，我们还看到了如何将这个循环表示为展开，我们可以从第一步开始，然后继续跨时间展开网络，直到时间t为止，在该图中我们还可以明确表示权重矩阵。

从权重矩阵开始，该权重矩阵定义了如何转换每个时间步长的输入，在隐藏状态计算中以及定义的权重矩阵，先前的隐藏状态与当前的隐藏状态之间的关系，最后，在特定时间步将隐藏状态转换为输出的权重矩阵。

对于所有这些权重矩阵，在所有这些情况下都需要再次强调，我们将在序列中的每个时间步重复使用相同的权重矩阵，现在，当我们通过网络进行前向传递时，我们将在，每个单独的时间步长，并从这些单独的输出中。

我们可以得出，损失，然后我们可以将各个时间步长中的所有这些损失加起来，确定总损失，这最终将是，用来训练我们的rnn，我们将在几张幻灯片中确切地介绍如何实现这一目标。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好吧，现在这为您提供了直观的数学基础，我们实际上如何使前进通过我们的前进，现在让我们来看一个如何使用tensorflow从头实现rnn的示例，我们将使用一个图层来定义rnn，这样我们就可以从继承自。

亚历山大在第一堂课中介绍的图层类，我们还可以初始化权重矩阵，并最终将rnn的隐藏状态初始化为全零，我们的下一步将是，定义我们所说的调用函数，这个函数真的很重要。

因为它准确地描述了在给定输入的情况下我们如何通过网络进行正向传递，我们向前通过的第一步将是更新隐藏状态，根据同样的方程，我们在前面看到了隐藏状态，并将前一个时间步长和的输入x乘以它们的相对值。

将相关的波矩阵求和，然后通过非线性激活函数，接下来，我们通过乘以a来转换此隐藏状态，从而计算输出，单独的权重矩阵，并且在每个时间步上，我们都将当前输出返回为，以及隐藏状态。

所以这给人一种打破定义我们如何定义前向通过的感觉，通过使用Tensorflow的代码来实现，但很方便地已经实现了Tensorflow，您可以通过简单的rnn层使用这些类型的rnn单元，然后。

得到一些练习来做到这一点，然后在今天的实验室中使用rnns可以。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在回顾一下，我们在本演讲的这一点上已经建立了对rnn的理解，和他们的数学基础，我想回到序列建模的那些应用中，前面已经讨论过，希望现在您已经了解了为什么rnns可以特别。

适用于使用前馈或传统神经网络再次处理顺序数据，我们以一对一的方式从静态输入变为静态输出，与序列相反，我们可以从具有许多时间步长的顺序输入中进行选择，随时间顺序定义，将它们输入递归神经网络并生成一个。

单个输出，例如与句子相关的情感或情感分类，我们还可以从静态输入（例如图像）移动到从一个连续输入到一个连续输出，很多，最后我们可以从顺序输入到顺序输出进行多对多和两个例子，其中包括机器翻译。

音乐创作以及音乐创作，一代人，您实际上将有机会实施rnn来做到这一点，在今天的实验室中，稍后我们可以将递归神经网络扩展到许多其他，顺序处理和顺序建模可能有用的应用程序。

真正理解为什么递归神经网络如此强大，我想考虑一下我喜欢称之为设计标准的具体集合，在考虑序列建模问题时，我们需要牢记，特别是，需要能够确保我们的递归神经网络或任何机器学习模型。

我们可能感兴趣的设备将能够处理可变长度的序列，因为并非所有，句子不是所有序列都将具有相同的长度，因此我们需要具备，为了处理这种可变性，我们还需要具有能够跟踪的关键属性，数据中的长期依赖关系。

并具有内存概念并与，这也是具有这种秩序感和对事物的感觉的能力。发生在序列中的更早或更早会影响将要发生的事件或稍后发生的事件，为此，我们可以通过权重共享和实际共享来实现第二和第三点。

整个序列中矩阵方式的值，我们将看到我现在正在告诉您，我们将看到递归神经网络确实符合所有这些序列建模设计标准。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好的，所以要具体了解这些标准，我想考虑一个非常具体的，给定句子中的某些单词序列，将出现以下序列建模问题，我们的任务是预测该句子中最有可能出现的下一个单词。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，让我们假设我们以这句话为例，今天早上我带我的猫去散步，我们的任务是让我们说今天早上给了我这些话，我带着猫去了，我们想预测句子walk中c中的下一个单词，我们的目标是尝试。

建立一个循环神经网络来精确地做到这一点，这是我们解决这个问题的第一步，在开始训练模型之前，首先要考虑的是如何，实际上代表了神经网络的语言，所以我们假设我们有一个模型，在该模型中输入，单词较深。

我们想使用神经网络来预测下一个单词，了解可能是，关于如何在输入中将这些信息传递到我们的网络方面，这里的问题请记住，神经，网络是函数运算符，它们在输入上执行函数数学运算，并生成数值输出。

因此它们无法真正解释和操作单词，如果它们只是作为文字传递的，那么我们在这里所要做的就是根本行不通，相反，神经网络需要数字输入，该数字输入可以是向量或数字数组，例如。

模型可以对其进行操作以生成向量或数字数组作为输出，因此这将对我们有用，但仅对单词进行操作就不可行，好吧，现在我们知道我们需要一种将语言转换为向量的方法，或基于数组的表示形式我们将如何解决这个问题。

需要考虑的是这种嵌入的概念，也就是将一组标识符转换为，对象有效地索引到固定大小的向量中，该向量可以捕获输入的内容，因此，想一想我们如何才能针对语言数据真正做到这一点，让我们再次转向。

回到今天早上我们一直在考虑的例句，我带我的猫去散步，我们希望能够映射出现在我们的语言体系中的任何单词，到一个固定大小的向量，所以我们的第一步将被生成以生成一个，词汇表将包含我们一组语言中的所有唯一词。

然后，我们可以通过映射单个唯一单词来索引这些单个单词，到唯一索引，然后可以将这些索引映射到向量嵌入，我们可以做到这一点的一种方法是生成将具有一定长度的稀疏矢量和二进制矢量。

这等于我们词汇表中唯一词的数量，这样我们就可以指出，通过在相应的索引中对特定单词进行编码，例如，cat这个词，我们可以在这个稀疏的二进制向量的第二个索引处进行编码，这是一个非常。

嵌入和编码语言数据的常用方法，称为“一种热编码”，您很有可能在通过机器学习和深度学习的过程中遇到此问题，我们可以建立这些嵌入的另一种方法是通过实际学习它们，所以这里的想法。

是采用我们的索引映射并将该索引映射馈入神经网络模型之类的模型中，这样我们就可以转换索引映射，跨词汇的所有单词到一个低维空间的向量，学习该向量的值，使得彼此相似的词，具有类似的嵌入。

此处显示了一个演示此概念的示例，好的，这是我们可以对语言数据进行编码和转换语言的两种不同方式，数据转换成向量表示形式，该向量表示形式将适合于输入到神经网络。

现在我们已经建立了这种方式来编码语言数据并实际获得，首先将其输入到我们的递归神经网络模型中，让我们回到那组设计，我们想要的第一个能力是处理可变序列长度的能力的标准，再来考虑一下这个任务。

尝试预测我们可能拥有的句子中的下一个单词，非常简短的句子，这些词会驱动我们预测的含义，彼此非常接近，但是我们也可以有更长的序列甚至更长的时间，顺序，其中预测下一个单词所需的信息发生在更早的时间。

而我们的递归神经网络模型的关键要求是，处理这些长度不一的前馈网络的输入无法执行此操作，因为它们具有，固定维数的输入，然后将这些固定维数的输入传递到，相反，rnns的下一层能够处理可变的序列长度。

这是因为，序列长度的差异只是时间步长的差异，将由rnn输入和处理，因此rnns符合第一个第一个设计标准，我们的第二个标准是有效捕获和建模数据中长期依赖关系的能力，像这样的例子中确实体现了这一点。

我们显然需要，在序列或句子中更早的位置以准确地使我们的预测rnns能够，之所以能够实现这一目标，是因为他们可以通过这种方式来更新其内部单元状态，我们前面讨论过的从根本上合并信息的递归关系。

从过去的状态到单元状态的更新，因此也要满足此条件，接下来我们需要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

能够捕获序列顺序中的差异，这可能导致整体差异，序列的含义或属性，例如，在这种情况下，我们有两个句子，语义含义相反，但具有相同字词且具有相同计数的字母只是顺序不同。

rnn维持的细胞状态再次取决于其过去的历史，这有助于我们，捕获这些差异，因为我们正在维护有关过去历史的信息，并在序列中的每个时间步长上重用相同的权重矩阵。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以希望通过这个例子来预测一个句子中的下一个单词，特别常见的顺序数据类型是语言数据，这显示了它如何向您展示如何更广泛地表示和编码顺序数据，rnns的输入以及rnns如何实现这些设置序列建模设计标准集。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好的，所以现在我们在这个阶段的演讲中已经建立了直觉和理解，递归神经网络如何工作，如何运作以及对序列进行建模的含义，现在我们可以讨论如何实际训练递归神经网络的算法，它是。

在第一堂课中介绍的反向传播算法的一个变种，称为反向，随着时间的流逝而传播，让我们先回到第一步。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

回想一下我们如何使用反向传播算法实际训练前馈模型，我们首先接受一组输入，然后通过网络从输入到，输出，然后训练模型，我们通过网络向后传播净梯度，然后我们就网络中每个权重参数得出损失的导数。

然后调整参数在模型中的权重，以最大程度地减少该损失。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于我们之前走过的路网，是通过网络的正向传递，跨时间前进并根据输入以及先前的输入更新单元状态，状态产生输出并从根本上计算个体的损失值，时间顺序，最后将这些个别损失相加得出总损失。

而不是一次通过单个前馈网络反向传播错误，这些错误将从整体损失中传播回来，遍历每个单独的时间步长，然后贯穿各个时间步长，我们目前处于从头开始的顺序中，这就是为什么将其称为，通过时间进行反向传播。

因为您可以看到所有错误都在发生，从最近的时间步长回到序列的最开始。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在，如果我们扩展此范围，并仔细研究一下渐变如何实际流过，重复的递归神经网络模块链，我们可以看到，在每个时间步之间，必须执行涉及h的权重矩阵wh的矩阵乘法。

因此计算相对于初始细胞状态h为0的梯度将涉及很多，权重矩阵的因子，以及相对于梯度的重复计算，这个权重矩阵可能有很多问题，首先是如果我们有，该系列中的许多值这是矩阵乘法链，其中梯度值是。

小于或大于1或权重值大于1时，我们可能会遇到以下问题：称为爆炸梯度问题，其中我们的梯度将变得非常大，我们无法真正优化，这里的解决方案是有效地执行所谓的“梯度裁剪”。

缩小特别大的梯度的值以尝试减轻这种情况，我们也可能遇到相反的问题，即现在我们的权重值或梯度非常非常大，小，这可能导致所谓的消失梯度问题，当梯度变得越来越小，以至于我们无法再，有效地训练网络。

今天我们将讨论三种方法，首先通过巧妙地选择激活函数来解决这个逐渐消失的梯度问题，聪明地最初初始化体重矩阵，最后我们可以讨论如何制作体重矩阵，对网络体系结构本身进行了一些更改，以缓解此消失的梯度问题。

进入其中，您将需要一些直觉，以了解为什么梯度消失了，是一个问题，让我们想象一下，您不断将0到1之间的一个小数乘以，随着时间的流逝，另一个小数字将不断缩小，最终它将消失，这对于梯度发生的意义是。

越来越难以传播损失函数中的错误，回到遥远的过去，因为我们遇到了梯度变小的问题，越来越小，最终将导致我们最终产生偏见，网络的权重和参数，以捕获数据中的短期依赖性，而不是长期依赖。

以了解为什么这可能是一个问题，让我们再次考虑，这个训练语言模型以预测单词句子中下一个单词的示例，假设我们给了这个短语，在这种情况下，云层是空白的，很明显，下一个词可能是正确的天空，因为没有那么大的差距。

在相关信息词云和我们预测的地方之间的顺序，实际上是需要的，因此可以配备rnn来处理，但现在我们说这句话是我在法国长大的，我说的是流利的空白，现在在句子的前面需要更多的上下文来进行该预测，在很多情况下。

这正是我们之间存在巨大差距的问题，在相关性和我们可能需要做出预测的点之间，并且随着差距的扩大，标准rnns越来越无法连接相关信息，这就是，因为这个逐渐消失的分级问题，所以它与此有关。

需要能够有效地建模和捕获数据中的长期依赖性，我们如何解决这个问题，我们要考虑的第一个技巧很简单，那就是我们，可以明智地选择我们网络专门使用的激活功能，将使用relu激活函数，其中此激活函数的导数。

对于x大于零的所有实例，其值都大于1，这有助于，我们的损失函数相对于um的梯度实际上会在um时缩小，输入的值大于零我们可以做的另一件事是在如何，我们实际上是在网络中初始化参数，我们可以专门初始化。

单位矩阵的权重，以尝试防止它们完全缩小为零，在反向传播过程中非常迅速，我们最终的解决方案以及我们将要花费的解决方案，大多数时间都在讨论，也是最可靠的方法是介绍并使用一种更复杂的方法，循环单元。

可以更有效地跟踪数据中的长期依赖性，通过直观地理解，您可以将其视为控制传递的信息以及传递的信息，信息用于更新实际的电池状态，具体来说，我们将使用，称为门控单元，今天我们将专注于一种特定类型的门控单元。

绝对是递归神经网络中最常用和最广泛使用的，这称为，长期的短期存储单元或lstm，而lstms的最酷之处在于所构建的网络，使用lstms特别适合于更好地维护数据中的长期依赖关系，在多个时间步长上跟踪信息。

以尝试克服这种逐渐消失的梯度问题，更重要的是可以更有效地对顺序数据进行建模，因此lstms实际上是。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

深度学习社区用于大多数顺序建模任务的主力军，所以让我们，讨论一下lcms的工作方式，本部分的目标是为您提供，关于lstms基本操作的直觉使一些数学抽象化，因为它再次使您的思维混乱，但希望我希望。

为您提供有关这些网络如何正常运行的直观了解。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了了解使lstm变得特别的关键操作，让我们先回到常规，rnn的结构，在这里我对它的描述略有不同，但是概念是，正是从我之前介绍的内容中我们建立了递归神经网络，通过跨时间链接的重复模块。

您在这里看到的是一个表示，显示了定义状态和输出的那些操作的图示，更新功能，因此在这里我们将其简化为有效地消除了这些黑线，捕获权重矩阵乘法和黄色矩形，例如。

此处描绘的tanh显示了非线性激活函数的非线性应用，因此，在此图中，rnn的此重复模块包含单个计算神经，由tan h激活功能层组成的网络计算节点，因此这里再次，我们对t的内部单元状态h进行此更新。

这将取决于，t的先前单元状态h减去1，以及t的当前输入x并在每个时间步长，我们还将生成状态ta变换的输出预测y， lstms也具有这种链状结构，但是内部重复模块是递归单元，在lcm中稍微复杂些。

重复的重复单元包含这些，再次由标准神经网络操作定义的不同交互层，像sigmoid和10h非线性激活函数加权矩阵乘法，但是，这些不同的交互层最酷的地方是，它们可以有效地，控制通过lstm单元的信息流。

我们将逐步讲解如何，这些更新实际上使lstms可以在许多时间步骤中跟踪和存储信息，在这里您可以看到我们如何使用tensorflow定义lstm层，好的。

所以lstms背后的关键思想是它们可以有效地有选择地添加，或使用这些抽象化的结构将信息移至内部单元状态，通过称为“门”进行调用，这些门由标准的神经网络层（例如，此处显示的是sigmoid以及逐点乘法。

所以让我们花点时间考虑一下，在这种情况下可以这样做，因为我们有S型激活函数，这是，会强制通过该门的任何东西都在0到1之间。因此您可以有效地，将其视为调制和捕获应通过多少输入。

介于零之间或有效控制信息流的所有事物之间，lstms使用这种类型的操作通过首先忘记无关的信息来处理信息，首先忘记不相关的历史，其次通过存储最相关的新信息，第三，更新其内部单元状态，然后生成输出。

第一步是，忘记先前状态的无关部分，这可以通过采用先前状态来实现，并使其通过这些S型门之一，您可以再次将其视为调制，下一步应该传递多少或保留多少是确定新的哪一部分。

信息以及旧信息的哪一部分是相关的并将其存储到单元状态，而对lstms真正关键的是它们保持单元状态的单独值，除了我们先前介绍的t的c和t的c之外，t的c是，将通过这些选通操作有选择地进行更新，最后。

我们可以从lstm返回输出，因此有一个交互层，一个输出门，可以控制在单元状态下编码的最终信息是什么，在接下来的时间步中输出并发送给网络作为输入，因此此操作，控制t的输出y的值以及传递的单元格状态的总和。

我希望您拥有的关于lstms的关键要点以时间为单位的形式逐步发展，在本次讲座中，他们可以调节存储中的信息流，通过这样做，他们可以有效地更好地捕获长期依赖关系，并帮助。

我们从整体上训练网络并克服消失的梯度问题以及解决问题的关键方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

它们在训练过程中的帮助是，所有这些不同的门控机制实际上都可以使，对于我所说的随时间变化的梯度计算的不间断流程，这是通过维持t的独立单元状态c来完成的，实际的梯度计算，因此采用权重更新的导数。

损失相对于权重的导数，并相应地转移权重，关于这个u的单独维护的单元状态c和t发生了什么，最终允许的是，我们可以缓解出现的消失梯度问题，传统rnns。

以便回顾一下lstms背后的关键概念lstms保持独立的单元状态。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从输出的结果来看，他们使用这些门来控制信息流，通过忘记过去存储相关信息的历史中的不相关信息，从当前输入更新其单元状态并在每个时间步输出预测，实际上是对单独的单元状态cft的这种维护，允许向后传播。

穿越时空，梯度流不间断，更高效，更有效，培训，因此，出于这些原因，lscms非常普遍地用作rnn骨干网中的一种。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

好的，现在我们已经经历了rnn的基本工作，通过时间算法被引入到反向传播中，也被认为是lstm，我想考虑一些非常具体的实际例子，可以将神经网络部署用于顺序建模，包括您将获得的示例，在当今实验室中的经验。

这就是音乐产生的任务和问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

或音乐预测，所以让我们假设您正在尝试建立一个循环神经网络，该网络可以，采取音符序列，并从该序列中实际预测下一个最可能发生的情况，音符出现，而您不仅要预测我们想要的下一个音符出现的可能性最大。

实际采用这种训练过的模型并将其用于产生全新的音乐序列，以前从未听说过的，我们可以通过基本上播种训练有素的rnn来做到，带有第一个音符的模型，然后随着时间的流逝迭代地建立序列以生成，一首新歌。

的确是这首歌中最激动人心且功能最强大的应用之一，递归神经网络并激发这一点，这将成为今天您的实验室的主题，我将要介绍一个非常有趣和有趣的历史例子，事实证明。

最著名的古典作曲家弗朗兹·舒伯特（Franz Schubert）的一首著名交响曲是，称为未完成的交响曲，而交响曲的描述与未完成的交响曲完全相同，它实际上只剩下两个动作，而不是四个动作。

而舒伯特并没有完成，在他去世之前创作了这首交响曲，最近他们有了一个基于神经网络的，经过训练并经过测试的算法实际上完成了此交响曲并撰写，两个新动作，这是通过训练递归神经网络模型的模型来完成的。

schubert的工作体，然后通过对模型执行任务来对它进行测试，给定前两个的分数，尝试生成新的构图，这个未完成交响曲的动作，让我们听一听，看看结果是什么。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我想继续，因为我实际上很喜欢听音乐，但我们也，必须继续讲课，真是太棒了，我希望你同意我认为你知道，看到神经网络在这里接受测试真是令人兴奋，但至少对我来说，这，引发了一些关于两者之间的界限的质疑和理解。

人工智能和人类创造力，您将有机会在今天的实验室中探索这一点，另一个很酷的例子是音乐产生之外，还有语言处理中的一个例子，我们可以从，输入序列（如句子）到单个输出，我们可以训练rnn接受此输入。

训练人们说要产生与之相关的情绪或情感的预测，一个特定的句子，无论是肯定的还是否定的，这实际上是一个分类任务，就像我们在第一堂课中看到的一样，只是我们在一个序列上进行操作，我们有这个时间分量的地方。

所以因为这是分类问题，我们可以训练，这些网络使用交叉熵损失，而我们可能感兴趣的一个应用是，对与推文相关的情感进行分类，例如，我们可以对此推文进行分类。

训练rnn预测关于我们的6s191类的第一条推文具有积极的情绪，但是关于天气的另一条推文实际上有负面情绪，好的，所以我要讲的下一个示例是的最强大的应用程序之一，递归神经网络。

它是诸如Google翻译之类的骨干，这就是，这种机器翻译的思想，我们的目标是用一种语言输入一个句子并训练一个，用另一种语言输出一个句子，这可以通过使用编码器组件来完成。

有效地将原始句子编码为某种状态向量和解码器组件，它将状态向量解码为目标语言的新语言，但是，使用基础和，我们今天学到的有关顺序建模和递归神经网络的概念，我们可以解决机器翻译这个非常复杂的问题。

但是可能会有一些潜在的，使用rnns或lstams使用此方法的问题第一个问题是我们有，我们需要的编码瓶颈，这意味着我们需要对很多内容进行编码，例如，将许多不同单词的长文本正文压缩到单个内存状态向量中。

完成翻译所需的所有信息的版本，并且是这种状态，向量最终将被传递并解码以实际实现转换，通过强制执行此压缩操作，我们实际上可能会丢失一些重要信息，强加了这个极端的编码瓶颈，这绝对是一个问题，另一个限制是。

我们今天了解到的递归神经网络并没有像它们那样高效，需要对信息进行顺序处理，这是我一直以来的重点，一直开车回家，而这些递归神经网络的序贯性质，在现代GPU硬件上效率相对较低，因为很难并行化它们。

而且除了速度问题，我们需要能够训练来自解码输出的rnn，一路回到原始输入，这将涉及到顺序t或，网络的t次迭代，其中t是我们输入到我们的时间步数，顺序，所以在实践中这意味着随着时间的推移反向传播实际上是。

非常非常昂贵，尤其是在考虑需要翻译的大量文本时，最后，也许最重要的是，这是传统rnns记忆能力有限的事实，我们看到了循环神经，网络遭受了这种消失的梯度问题的困扰，莱斯特姆为我们提供了一些帮助。

但他们仍然，这两种架构在处理很长的时间上都不是很有效，可以在需要翻译的大量文本中找到依赖项，那么我们如何，建立一个可以了解这些依存关系的架构，这些依存关系可能会以较大的顺序出现，或者。

克服这些局限性的文本主体开发了一种称为“注意”的方法，而是它的工作方式是，代替解码器组件仅访问，状态向量从编码器传递到解码器而不是解码器的最终编码状态，现在可以访问原始句子中每个时间步长之后的状态。

网络在训练过程中实际学习的这些向量的权重，这是一个非常有趣的主意，因为此注意力模块的实际作用是，从输入中学习要注意的要点和状态，这使其非常有效且，能够像捕获短期依赖一样容易地捕获长期依赖。

这是因为要训练这样的网络，只需要通过一次，注意力模块，不会随着时间的推移而向后传播，您可以如何看待这些注意力，提供的机制就是这种可学习的内存访问，实际上这个系统被称为，注意。

因为当网络实际上正在学习权重时，它正在学习放置权重，专注于输入序列的不同部分，以有效地捕获一种，在整个原始序列中都可以访问的内存，强大的想法，确实是新班级的基础，然后是迅速兴起的班级。

对于大规模顺序建模问题非常强大的模型，一类模型称为变压器，您可能也听说过。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这种应用程序和注意的关注不仅在语言上也非常重要，建模，但在其他应用程序中也是如此，例如，如果我们正在考虑使用自动驾驶汽车。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在任何时候，像这样的自动驾驶汽车都需要了解，仅在环境中每个对象都在的位置，而且特定对象可能在其中移动的位置，未来，这是无人驾驶汽车和右侧红框的示例，描绘一个骑自行车的人，如您所见。

骑自行车的人正在接近停下来的车辆，此处以紫色显示，自动驾驶汽车可以识别出骑自行车的人，现在要合并在汽车前面，在此之前，自动驾驶汽车会向后拉，并停止，所以这是轨迹预测和预测的一个例子，其中很清楚。

我们需要能够关注动态对象在何处并做出有效的预测，在场景中可能会移到将来，顺序建模的另一个强大示例是，环境建模和气候模式分析与预测，因此在这里我们可以可视化，不同环境标志（如风和湿度）的预测模式。

对于序列建模和，循环神经网络，因为可以有效地预测此类标记的未来行为，可以帮助对长期气候影响进行规划和规划，所以希望如此，在本讲座的过程中，您已经了解了递归神经网络的工作原理。

以及为什么它们如此强大地处理顺序数据，我们看到了如何为序列建模，通过定义的递归关系以及如何使用反向传播来训练它们，通过时间算法，我们然后探索了一些关于像lstms这样的门控细胞的方式。

可以帮助我们对数据中的长期依赖关系进行建模，还可以讨论rnns的应用，到音乐生成机器翻译等等，我们现在将过渡到。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您将有机会开始实施递归神经网络的实验会议，自行使用tensorflow，我们鼓励您参加课堂和实验室办公时间，参加城镇会议以讨论实验室答案，问您有关实验室内容以及。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

P3：Convolutional Neural Networks - 爱可可-爱生活 - BV1jo4y1d7R6

大家好，欢迎回到MIT 6。S191！今天我们要谈论的是我最喜欢的一个。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本课程的主题，这就是我们如何赋予机器视觉感，而视觉是其中之一。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我认为人类最重要的感官是视物在很多方面都非常依赖视觉，从环游世界到识别和操纵物体再到面部表情，表达和理解非常复杂的人类情感我可以肯定地说，视觉是，在日常生活中占很大比重，今天我们将学习如何使用深度学习。

建立功能强大的计算机视觉系统，并实际预测出什么位置，通过只看并且特别是只看原始视觉输入，我想认为这是一个，视觉的真正含义非常非常简单的定义，但实际上视觉非常重要，不仅仅是了解图像的含义。

还不仅仅意味着图像的含义，还要了解场景中物体的位置并真正预测，并展望未来，接下来会发生什么，以这个场景为例，我们可以建立计算机视觉算法来识别场景中的物体，例如，黄色的出租车，甚至这辆白色的卡车都在路边。

但我们需要了解的是，在不同的层面上实现真正的愿景实际上需要什么，所有这些对象，我们应该实际上应该更多地专注于黄色出租车，比白色卡车上的要好，因为此图像中有一些细微的提示，您可以，可能会捡起来。

导致我们相信这辆白色卡车可能停在了侧面，的道路是静止的，至少在未来一段时间可能不会移动，另一方面，我们正在观察黄色出租车的场景，即使它也没有移动，由于行人横穿马路而导致行进的可能性更大，它的前面。

这是非常微妙的，但实际上可以被认为是非常，我们的大脑和人类有效地将其视为理所当然，但这是一个极具挑战性的挑战，现实世界中的问题，因为在现实世界中构建真实的视觉算法，可能需要推理所有这些不同的组件。

不仅在前台，而且在，有一些非常重要的线索，我们可以像这样在背景中获取，道路灯以及远处的一些障碍物并建立这些视野，算法确实确实需要了解所有这些非常细微的细节。

深度学习正在带来令人难以置信的计算机视觉革命或发展。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

算法和应用程序，从允许机器人使用视觉提示执行诸如。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

导航以及您今天在本课程中将要学习的这些算法已经变得如此。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

主流化并如此压缩，以至于它们都适合并在我们的每个口袋中运行。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用于处理照片和视频并检测脸部的电话，以提供更大的便利。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们还看到视觉在生物学和医学中的一些非常令人兴奋的应用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

掌握极其微妙的线索并检测出癌症以及。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自动驾驶领域，最后是几张幻灯片，我将分享一个非常鼓舞人心的故事，您今天将要学习的算法如何也用于可访问性，为了帮助视障人士，现在的深度学习已经采用了计算机视觉，尤其是计算机，暴风雨般的视觉。

因为它能够直接从原始图像输入中学习并学会，仅通过观察大量数据进行特征提取，在计算机视觉领域流行的是面部检测和面部识别，您实际上可以在左上角或左上角看到人眼的图标，从图片上我，用于表示我们感知到的图像。

我们还可以通过神经网络，预测这些面部特征，现在深度学习已经改变了这个领域，因为它可以，机器学习或深度学习算法的创建者可以轻松地交换最终任务，给定足够的数据以在视觉和任务之间的中间学习该神经网络。

并尝试解决它，所以在这里我们执行面部检测的最终任务，但同样，最终的任务可能是在自动驾驶的背景下，在这里我们将图像，您实际上可以在右下角看到的输入，我们尝试直接学习，输出的转向控制。

并直接从这一观察结果中直接学习，汽车应该控制的场景，那么应该执行的方向盘是什么，完全端到端完成了整个控制系统，这辆车在这里是一个单一的神经，网络现在完全从数据中学到的知识。

这与大多数其他知识有很大的不同，像您这样的无人驾驶汽车公司将与Waymo和tesla et cetera见面，我们将再谈更多，关于此事，但我实际上想与您分享此剪辑，因为这是其中之一。

我们一直在实验室中建造的自动驾驶汽车，在这里我属于，而且我们还将在演讲的后面看到更多有关该内容的信息。就像我提到的那样，在医学和医疗保健领域有很多应用，在这里我们可以获取这些原始图像和患者扫描图像。

并学会检测诸如，乳腺癌，皮肤癌，现在最近是对患者的肺部进行扫描以检测covid19。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

最后，我想分享这个关于如何使用计算机视觉来帮助人们的鼓舞人心的故事，视障人士，因此在此项目中，研究人员实际上制造了支持深度学习的设备，可以检测跑步路线并向视障用户提供听觉反馈，这样他们就可以运行了。

现在演示一下，让我分享一下这个非常简短的视频，我们拥有的机器学习算法可以检测到该行，并可以判断是否，线是到跑步者的左，右或中线，然后我们可以向跑步者发送信号，以指导。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们第一次外出时根据他们的位置来左右他们，我们什至不知道。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果声音足以指导我，那么您就可以进行那种Beta测试，从人眼看，很明显认识到教导，机器学习模型要做到这一点并不是那么容易，因为您在跑步时向左和向右行走，因此，一旦您开始户外运动。

左右两侧的线就会像在摇晃一样。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在的光线多了很多树影飘落的落叶，还有地面上的线，可能非常狭窄，可能只有几个像素供计算机视觉模型识别，没有系绳，没有棍子，没有毛茸茸的狗，只是和自己在一起，啊，这是我几十年来第一次进行加载。

所以这些通常是我们人类视为理所当然的任务，但是对于计算机而言，看到深度学习是如何应用的，确实非常了不起，嗯，其中一些问题集中在真正做好事上，只是在这里帮助人们，视力障碍的人。

一个以前从未没有导盲犬奔跑过的人现在可以奔跑了，借助此计算机视觉系统等，独立地穿过小径，我说过，我们经常将这些任务视为理所当然，但因为每个有视力的人都很容易，让我们可以例行地做它们。

但实际上我们可以训练计算机按顺序地做它们，为此，尽管我们需要特别问自己一些非常基础的问题，源于我们如何构建可以用引号引起来的计算机，特别是a，通过计算机处理图像，到目前为止。

让我们以图像作为我们计算机站点的基本示例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以对于计算机图像来说，数字就是二维的，数字列表假设我们有一张图片，这是亚伯拉罕·林肯的，它只是由，这些数字中的每一个都可以用所谓的像素来表示，现在一个像素就是我在这里所说的一个数字，范围为零到一或。

在0到255之间，并且由于这是灰度图像，如果您，有一个彩色图像，您将用三个数字表示它，一个红色，一个绿色和一个蓝色通道rgb，现在计算机看到了什么，所以我们可以将该图像表示为这些图像的二维矩阵。

为图像中的每个像素编号一个数字，这就是计算机看到图像的方式，就像我说的，如果我们有一个rgb图像而不是一个灰度图像，我们可以代表这个，通过一个三维数组现在我们有三个二维数组堆叠在。

二维数组中的一个彼此对应的顶部对应于红色通道，绿色代表蓝色代表此rgb图像，现在我们有一种方法来代表，图像到计算机，我们可以开始考虑什么类型的计算机视觉算法，我们可以执行此操作。

因此有两种非常常见的学习任务类型。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

就像我们在第一和第二类中看到的那样，这是一个回归，而那些是，在回归任务中也进行分类任务，我们的输出采用连续值的形式，并且，在分类中只需要一个类标签，所以让我们首先考虑分类问题。

我们希望为每个图像预测一个标签，例如，假设我们有一个包含所有图像的数据库，我们的先例，我们想建立一个分类管道来告诉我们，该图像是哪个先例的，所以我们提供此图像，我们可以在左手看到，到我们模型的一边。

我们想输出该图像是其中任何一个的概率，该数据库所包含的特定先例，以便对这些图像进行正确分类，尽管我们的管道需要能够分辨出亚伯拉罕照片的真正独特之处，林肯与其他任何总统的照片，例如乔治·华盛顿。

杰斐逊或奥巴马。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我以另一种方式思考这些之间的差异，图像和图像分类管道在功能方面处于较高水平，确实是该特定类的特征，例如，这些特征是什么。

定义亚伯拉罕·林肯（Abraham Lincoln）现在的分类只需通过检测以下特征即可完成，给定图像，因此，如果图像中存在特定类别的特征，那么我们可以预测，非常有把握地确信该类发生的可能性很高。

所以如果我们，建立图像经典分类管道，我们的模型需要知道特征是什么，它们是什么，还有两个它需要能够检测出全新图像中的那些特征，因此，例如，如果我们要检测人脸，则可能需要识别某些特征，会是鼻子和眼睛。

而如果我们想检测汽车，我们可能会看着，图像中的某些特定内容，例如车轮牌照和前照灯，以及用于房屋和，门和窗以及台阶都是较大对象类别的特征的所有示例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在解决此问题的一种方法实际上是利用有关特定知识的知识。假设我们说的是人脸，因此，如果要检测人脸，可以手动定义，在图像中，我们认为这些功能是什么，并实际上使用了我们的结果，检测算法进行分类。

但这种方法实际上存在很大的问题。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

那就是图像只是亮度值数量的3d数组，每个，图像可能会有很多变化，其中包括场景中的遮挡物，照明条件和照明条件也可能会有所不同，甚至考虑同一类图像内的类内变化变化，我们的分类。

我们正在构建的管道实际上必须对所有这些类型都是不变的，的变化，但仍然需要敏感地挑选出不同的，类间的差异，因此能够区分该类独有的功能，与班级中存在的功能或该功能的变体相比，现在即使可以使用我们的管道。

也可以使用人类定义的功能，那就是如果一个人要知道这个有关的东西而陷入这个问题，他们可以先验地定义问题或手动提取并分解问题，他们想为这项特定任务检测什么功能，即使我们可以做到。

由于图像数据场景的不可思议的可变性，通常这些图像的检测，在实践中，功能仍然是一个极具挑战性的问题，因为您的检测算法需要，对所有这些不同的变体都是不变的，所以实际上不是手动，定义这些。

我们如何才能做得更好，而我们真正想要做的就是能够提取特征，并自动以分层方式检测它们在图像中的存在，这应该提醒，当我们谈到层次结构是深度学习的核心组成部分时，您将回到第一堂课。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们可以使用基于神经网络的方法直接从中学习这些视觉特征，数据并学习特征层次结构以构建图像表示，内部网络，因此再次像我们在第一堂课中看到的那样，我们可以检测到这些底层的。

功能并将它们组合在一起以构建这些中级功能，然后，在后面的层中，这些更高级别的功能可以真正执行您感兴趣的任务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此神经网络将使我们能够从数据中学习视觉特征的这些层次结构，如果我们，巧妙地构建它们，因此这将需要我们使用一些不同于现有结构的体系结构，在课程中到目前为止所看到的，即从第一讲到前馈的架构，密集层。

在第二讲课中是递归层，用于处理本讲课的顺序数据，将专注于另一种类型的方式，我们可以提取专门针对。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

视觉领域，所以让我们回顾一下在第一堂课中学到的知识，这些完全连接的神经网络也称为密集神经网络，您可以在其中拥有多个，彼此重叠的隐藏层，每个隐藏层中的每个神经元都连接到，现在。

我们说上一层中的每个神经元都想使用一个完全连接的网络，执行图像分类，我们将尝试激励使用某种东西，首先从我们已经知道的知识开始，比这更好，我们将看到此方法的局限性，所以在这种情况下。

请记住我们的输入是这个二维图像，它是一个向量，二维向量，但是如果您将其堆叠，则可以将其折叠为一维向量，所有这些尺寸都在像素值彼此重叠的基础上，我们要做的是。

将像素值的矢量输入到与下一层中所有神经元相连的隐藏层，现在在这里，您应该已经欣赏了一些东西，那就是我们所有的空间信息，该图像中的“ had”会自动消失，这是因为自从我们将其展平以来，将二维图像变成一维。

我们现在基本上已经删除了任何空间信息，我们之前在下一层工作过，现在我们的网络必须重新学习所有这些内容，重要的空间信息，例如一个像素靠近其相邻像素，这在我们的输入中非常重要。

但是在完全连接的层中立即丢失了，所以问题是我们如何才能在模型中建立一些结构，以便能够，实际为学习过程提供信息，并为模型提供一些先验信息并提供帮助，它学习了非常复杂且庞大的输入图像，因此。

让我们保持其代表性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们图像的二维图像是一个像素值的二维数组，我们不，现在将其折叠成一维，这是我们可以使用空间结构的一种方式，实际是连接我们输入的补丁而不是整个输入，而只是连接输入的补丁，隐藏层中有两个神经元。

因此在从输入层到，隐藏层，但现在我们只将单个补丁中的内容连接到，现在在说下一层中的下一个神经元，实际上就是说每个神经元只会看到，在此输出神经元处，该神经元只会看到来自先前补丁的值。

它不仅会减少模型中权重的数量，而且还将使我们，利用以下事实：在图像中，空间上接近的像素可能有点相关，并且，彼此相关，这是一个事实，我们应该真正考虑到这一点，所以请注意。

仅有输入层的一小部分会影响此输出神经元，这就是，因为我们要保留这种空间关联的想法，并将其作为该体系结构的一部分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以现在要定义整个输入中的连接，我们可以应用相同的连接原理，在我们的输入层中将其修补到后续层中的单个神经元，我们基本上可以做到这一点，通过在输入图像上滑动该补丁，每次滑动它，我们将获得一个，现在。

通过这种方式，我们可以在随后的层中添加新的输出神经元，实际上，我说的是我们输入中固有的空间结构，但请记住，我们的最终任务，不仅要保留空间结构，还要实际学习视觉特征，我们。

通过加权斑块和神经元之间的连接来做到这一点，这样我们就可以检测到，特定功能，以便每个补丁都将尝试执行该功能的检测，所以现在我们问自己：我们如何评价这个补丁，以便我们可以很好地检测到这些功能。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在实践中，有一个称为卷积的运算，我们首先考虑一下，在较高的水平上，假设我们有一个4x4的补丁或一个包含16个权重的滤镜，我们将对输入中的四个补丁应用相同的过滤器，并使用其结果。

定义下一层神经元状态的操作，因此下一层中的神经元，通过使用带有滤波器的补丁来定义单个神经元的输出，具有相等的大小和学习的权重，然后我们将移动该补丁，比方说，在这种情况下，我们有两个像素。

我们可以抓取下一个色块，从而，现在计算下一个输出神经元，这就是我们如何在非常高的水平上考虑卷积的方法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但您可能想知道这里的卷积运算符实际上如何使我们能够，提取功能，我想通过一个非常简单的示例来使它变得非常具体。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，假设我们要在一组字母的黑白图像中对字母x进行分类，黑色等于负一，白色等于正一，现在进行分类显然不可能简单地将两个图像与两个矩阵进行比较，彼此说是平等的，因为我们也想对此x进行分类。

不管它是否有一些轻微的变形，如果它移动了，或者它是否扩大了旋转，或变形，我们需要构建一个对所有这些变化都比较稳健的分类器，所以我们该怎么做呢？我们想要检测定义x的特征，所以我们想要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们的模型基本上是将一个x片段的图像与实际，它应该寻找的重要部分正是我们所称的功能，如果我们的模型可以找到那些重要的特征，那些在同一位置定义x的粗糙特征，位置大致相同的位置，则可以更好地理解相似性。

即使存在这些类型的畸变，x的不同示例之间。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，我们假设每个功能都像一个微型图像，它是一个补丁，它也是一个很小的图像。排列一个小的二维值数组，我们将使用这些过滤器选择特征，在x的情况下，x的共同点，例如我们可能想要的过滤器。

注意可能代表诸如边缘上的对角线以及交叉的东西，您可以在此处的第二个补丁中看到的要点，因此我们可能希望捕获这些功能，在x的手臂和中心，以检测所有这些不同的变化，因此请注意，这些较小的过滤器矩阵如我们在。

这些最上面的行代表权重过滤器，我们将在其中使用权重过滤器，卷积运算以检测输入图像中的相应特征，因此，我们需要定义的实际上就是该卷积运算的实际方式。

看起来像以及如何在这些情况下利用这些功能（在这种情况下为三个），过滤器，以便如何检测给定的过滤器发生此过滤器的位置或此功能的位置，发生在这张图片中，而这正是卷积运算的意义所在。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

关于卷积的全部思想是保留之间的空间关系，现在，通过学习图像数据的小块小块中的图像特征来获得像素，在滤波器矩阵和输入图像的色块之间执行逐元素乘法，尺寸相同，因此，如果我们有一个3x3的补丁，我们将其与。

输入过滤器或我们的过滤器，该过滤器的大小也为3x3，并具有获悉的权重，您可以在左上角看到的过滤器的所有条目都是正数或正数，或负数，当我们将此滤镜乘以相应的绿色输入图像块时，我们逐个元素相乘。

我们实际上可以看到结果，在这个矩阵中，将所有正数乘以正数，我们将得到一个正数，将负数乘以负数也将得到正数，因此所有，我们的逐元素乘法将是所有矩阵的三乘三矩阵，现在是下一个，作为卷积运算的一部分。

步骤是将所有这些按元素乘法相加，在一起，所以我们在添加这些输出后的结果将是9。所以这意味着什么。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

实际上，在我们开始之前，让我开始，另一个非常简短的示例假设我们现在要计算卷积而不是，非常大的图像，但这只是5 x 5的图像，我们这里的过滤器是3 x 3，因此。

我们可以将这三乘三滤镜滑动到整个输入图像上，然后执行，逐元素乘法，然后添加输出，让我们看一下它是什么样子。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们首先在输入的左上角滑动此过滤器，我们可以明智地，将此过滤器的此补丁程序的条目与此补丁程序相乘，然后将它们加在一起，并，对于此部分，此三乘三滤镜放置在此图像的左上角，逐元素相加。

我们得到的神经元输出结果为4，然后我们可以将此滤镜一个接一个地滑动到下一个补丁，然后重复结果，现在第二个条目中的对应于已应用到此过滤器的激活，在这种情况下，图像的这一部分是三个。

我们可以在整个过程中继续进行此操作。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图片，直到我们完全填满此激活或功能图以及此功能为止，map确实告诉我们此过滤器激活了输入图像中的哪个位置，例如，我们看到此模式在原始输入图像中传达，该图像就是该特征图所要到达的位置，具有最高价值。

这就是我们现在已经需要最大程度地激活的地方，通过卷积运算的机制，让我们看看如何使用不同的过滤器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用来生成特征图，所以给女人的女人画照片，给女人的照片画照片，面对这个女人的名字叫lena，使用这三个卷积滤波器的输出，可以在每张图片的右下角看到我们正在考虑的三个滤镜，通过简单地改变这些过滤器的权重。

这里的每个过滤器都有不同的权重，学会检测图像中非常不同的特征，因此我们可以学会锐化图像，通过应用这种非常特定类型的锐化滤镜，我们可以学习检测边缘。

或者我们可以通过修改这些滤镜来学会检测图像中非常强的边缘，所以这些过滤器不是学习过的过滤器，而是构造的过滤器，历史上有关开发手动工程这些滤波器的研究，但是什么是卷积。

神经网络学会要做的实际上是学习定义这些过滤器的权重，因此，网络将了解不需要检测图像中的哪些功能，边缘检测或强边缘检测，还是需要检测某些类型的边缘曲线，某些类型的几何对象等需要什么特征。

从这张图片中提取出来，并通过学习卷积滤波器，可以做到这一点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以我希望现在您能真正体会到卷积如何使我们能够利用，非常重要的空间结构，并使用权重集来提取非常局部的特征，图像，只需使用不同的权重集和，现在使用不同的过滤器这些保留空间结构和局部特征提取的概念。

使用卷积运算实际上是卷积神经网络的核心，用于计算机视觉任务，这就是我现在想深入了解的内容。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们已经掌握了运算的数学基础，我们可以开始考虑如何利用这个操作这个卷积操作，实际构建用于计算机视觉任务的神经网络，并将整个过程与此相关联，这些网络现在已经在前几讲中介绍了学习的范式。

恰当地将其适当地命名为卷积神经网络，首先我们来看一下，在专为图像分类任务设计的cnn或卷积神经网络上。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

那么如何使用cnns进行分类，让我们考虑一个为目标而设计的简单cnn，直接从图像数据中学习特征，我们可以使用这些学习的特征，要将它们映射到这些图像的分类任务中，现在有三个主要组成部分。

和CNN核心的操作是第一部分，我们已经对此有所了解，在本讲座的第一部分中，这是卷积运算，它允许，就像我们之前看到的那样，我们可以生成这些特征图并检测图像中的特征，第二部分是应用非线性。

我们看到了非线性的重要性，在第一和第二讲中，以帮助我们处理我们提取的这些功能，高度非线性第三，我们需要应用某种池化操作，这是，降采样操作的另一个词，这使我们可以缩小，现在每个特征图都计算一类分数。

这是我们在定义时要执行的操作，使用我们获得的这些功能实际上执行了图像分类任务，通过卷积非线性和合并，然后将那些学习到的特征传递给，完全连接的网络或密集层，例如我们在课程的第一部分中了解到的，第一堂课。

我们可以从图像输入到班级预测输出端到端地训练该模型，使用完全连接的层和卷积层端到端，这是我们学习的一部分，卷积层每个卷积层的过滤器权重集，作为定义这些完全连接的层的权重，这些层实际上执行了我们的分类。

最后完成任务，我们将详细介绍这些操作中的每一项，以真正，分解这些卷积神经网络的基础知识和体系结构。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以首先我们要考虑cnn的卷积运算，就像每个神经元一样，在隐藏层中，将计算其每个输入的加权总和，就像我们在，密集层，我们还需要添加一个偏差以允许我们移动激活函数，并应用一些非线性来激活它。

这样我们就可以处理非线性数据，现在，这里的真正特别之处在于保留了每个本地连接，您可以在中间看到的隐藏层中的神经元只能看到其特定区域，输入它没有看到完整的输入神经元，就像它是完全连接的一样，层。

但在这种情况下没有，每个神经元输出仅观察到非常局部连接的斑块，输入，我们对这些补丁进行加权求和，我们计算出加权和，并应用偏差，然后，应用并使用非线性激活函数激活它，这就是，在卷积层结束时剩下的要素地图。

现在我们可以定义此实际，更具体地讲，使用数学方程式进行运算我们这里剩下一个4x4的滤波器矩阵，对于隐藏层中的每个神经元，其输入是来自，上一层，我们在这种情况下应用了这套权重wi j，就像我说的是四乘四。

过滤器，我们对w中的每个元素乘以，输入x中的对应元素，我们加上了偏差，并以此非线性方式激活了它，记住我们的逐元素乘法和加法就是卷积，我们之前讨论过的运算，所以如果您查找卷积含义的定义，实际上。

它实际上是元素方式的乘法，然后是所有，结果，这实际上也定义了卷积层如何与这些思想联系起来。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

但是通过这个单一的卷积层，我们可以如何拥有多个过滤器。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们在上一张幻灯片中看到的是如何获取此输入图像并学习单个特征图，但实际上，我们的图像中有很多类型的特征，我们如何使用卷积层。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

学习堆栈或许多不同类型的功能可能对执行有用，我们的任务类型，现在我们如何才能使用它来进行多特征提取，仍然是卷积，但现在具有体积尺寸，高度和宽度分别为，空间尺寸取决于输入层的尺寸，过滤器的尺寸，跨度。

步幅，每次应用过滤器时都会跳过，但我们还需要考虑一下，这些层中神经元之间的联系，即所谓的感受野，他们的输入在模型路径中在模型中的位置，它们连接到现在，这些参数实际上定义了神经元的空间排列。

在卷积层中连接，以及如何真正定义这些连接，以便输出，在这种情况下，一个卷积层的大小将具有此体积尺寸，而不是一个，我们沿着图像滑动的滤镜地图，每个滤镜都会有一定数量的滤镜，将要在图像上滑动。

并逐个计算此卷积运算，过滤每个卷积运算的结果，定义特征图，即该卷积，该过滤器将最大程度地激活，因此现在我们可以真正定义cnn是什么了。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

下一步实际上是在每次卷积运算之后应用该非线性，实际上需要将此非线性激活函数应用于该层的输出量，并且，就像我在第一讲中所说的，这非常相似，第二讲中我们也看到了，之所以这样做，是因为图像数据是高度非线性的。

这是图像域中的常见示例，将使用relu的激活函数，该函数是经过整流的线性单位，在像素方向上，将所有负值都替换为零并保持所有正值不变的操作，他们的价值是我们可以将其真正视为阈值运算，因此任何小于零的值。

阈值设为零负值表示对卷积的负检测，但这，非线性实际上是某种程度上的钳位，这是一个非线性运算，因此，作为我们神经网络模型的一部分，它确实满足了我们学习非线性动力学的能力。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以卷积神经网络的下一个操作是池化操作，池化是一种通常用于减少输入和维数的维数的操作。我们的特征图在仍然保留空间不变性的情况下，现在已成为一种通用技术和通用，在实践中通常使用的池类型称为最大池。

如本示例所示，max pooling实际上是超级简单和直观的，呃，只是将这两个中的最大值，通过补丁中的两个过滤器并在输入上滑动该补丁，这与卷积非常相似，但是现在，我们不再只是应用按元素的乘法和求和。

而是，将占用该补丁的最大值，因此在这种情况下，当我们将两个乘以两个补丁，滤镜并在整个图像上以2的倍数跨过该补丁，我们实际上可以将最大值，输入中的两个像素乘以两个像素，然后传播并激活到下一个神经元，现在。

我鼓励大家真正考虑我们可以执行的其他一些方式，这种类型的池化，同时仍要确保我们对采样进行下采样并保留空间不变性，在那个补丁上使用最大值是一个想法，一种非常常见的替代方法是，也取平均值称为均值池。

取平均值即可，表示执行池化操作的一种非常平滑的方法，因为您不只是，最大值，可能会受到异常值的影响，但是您正在对它求平均，或者也可以得到一个，使输出层更平滑，但它们都有优点和缺点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以这是卷积运算的三个运算的三个关键运算，神经网络，我想现在我们已经准备好将所有这些真正整合在一起，开始使用cnns端到端构建我们的第一个卷积神经网络，再次提醒您。

我们可以在整个过程中对这些操作进行分层，是我们要学习图像数据中存在的特征的这种层次结构，从将它们组合在一起的低级功能开始，到中级功能，然后，再次使用可用于完成任务的高级功能，现在为图像构建了一个cnn。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分类可以分为两部分，首先是特征学习部分，尝试学习输入图像中可用于执行特定任务的功能，该功能学习部分实际上是通过到目前为止我们已经看到的那些部分完成的，在本讲座中，卷积非线性和池化以保持空间不变性。

现在第二部分卷积层和池提供输出，这些输出对不起，第一部分是输入的高级功能，第二部分实际上是在使用，这些功能来执行分类或在这种情况下执行的任务是什么，任务是输出输入图像中存在的类概率。

因此我们将这些概率提供给，将特征输出到完全连接或密集的神经网络中以执行分类，现在可以做到这一点，我们不介意失去空间不变性，因为我们已经失望了，如此采样我们的图像，以至于它甚至不再是图像，实际上更接近于。

数字向量，我们可以直接将密集神经网络应用于该数字向量，现在它的维数也要低得多，我们可以使用，称为softmax的函数，其输出实际上表示分类概率分布，它的总和等于一，所以确实使它成为正确的分类分布。

它是其中的每个元素都严格在零和一之间，所以它们都是正数，并且确实是和，如果您的任务是图像分类，那么它非常适合第二部分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所以现在让我们将所有这些放在一起端到端卷积神经网络看起来像什么，我们首先定义特征提取头，该头以32的卷积层开始，功能映射了3x3像素的滤镜大小，我们使用最大池化操作对其进行了下采样，池大小为2。

步幅为2。这与我们看到的结果完全相同，首先介绍了卷积运算，接下来我们将这32个特征图馈入下一个，卷积卷积和池化层的集合，现在我们从32个特征中增加，映射到64个要素地图，结果仍然缩小了图像的比例。

因此我们缩小了图像的比例，但是我们正在增加我们正在检测的功能的数量，这使我们能够，实际上在这个维空间中扩展自己，同时对空间信息进行下采样，现在，我们已经通过以下方法完成了特征提取。

现在终于有了不相关的空间信息，在这种情况下，只有两个卷积层我们可以将所有这些信息压平为一个，向量并将其馈送到我们的密集层中，并预测最后的10个输出，并请注意此处。

我们使用softmax的激活函数来确保这些输出是分类的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

分布还不错，到目前为止，我们已经讨论了如何使用cnns进行图像分类，任务这种架构实际上是如此强大，因为它可以扩展到许多不同的任务。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不只是图像分类，其原因是您可以真正使用此功能，提取此功能的学习部分，您可以将第二部分放到第二部分，终端网络，无论您想使用什么网络，都可以将第一部分真正地看作是，功能学习部分。

第二部分作为您的任务学习部分，现在该任务是什么，完全取决于您和您的需求，这就是使这些网络真正产生的原因，非常强大，例如，我们可能要看一下不同的图像分类域。

我们可以针对诸如图像和对象之类的特定事物引入新的架构，检测语义分割，甚至可以使用图像标题之类的东西，这是我们在第二堂课中看到的一些顺序网络的输入。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此，让我们看一下并更深入地研究这些不同类型的任务中的每一个，例如，在分类的情况下，我们可以使用卷积神经网络，实际上，深度学习模型在医学和医疗保健领域会产生重大影响。

现在被用于分析医学图像扫描的全部输入，在自然界中发表的论文，实际上证明了cnn可以胜过专家，放射科医生直接从乳房X射线照片中检测乳腺癌，而不是给出二进制。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

预测什么是癌症输出或不是癌症输出，或例如在什么类型的对象中，我们可能会说这个图像是出租车的图像，我们可能想让我们的神经网络，做一些更精细的分辨率，并告诉我们这张图片，您可以预测哪些物体，是。

实际上是绘制了一个边界框来定位此图像或将该对象定位在我们的图像中，这是一个非常困难的问题，因为我们的场景中可能有很多物体，并且它们可能是，彼此部分重叠等重叠，所以我们不仅要定位对象。

我们还希望对该对象执行分类，因此实际上比简单地困难，分类任务，因为我们仍然必须进行分类，但是我们还必须检测。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

所有这些对象除了对每个对象进行分类之外，现在我们的网络还需要灵活，实际并且能够推断出，现在，如果我们有一个仅包含一个场景的场景，则该场景中的对象数量是一个动态的，一辆出租车。

它应该只在那辆出租车上输出一个边界框，边界框应告诉，我们将其中一个角的xy位置以及该边界框的高度和宽度设置为，如果我们的场景包含许多不同类型，则可以很好地定义边界框。

甚至可能具有不同类型类别的对象的数量，我们希望我们的网络能够输出，还有许多不同的输出，甚至可以灵活应对我们输入中的这种类型的差异，一个单一的网络，因此我们的网络不应只输出一个输出，或一定数量的输出。

它需要有一个灵活的范围来动态地推断出。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

场景中的物体，所以解决这个非常复杂的问题的一种可能是幼稚的解决方案，以及如何使用cnns来做到这一点，所以我们可以做的就是从这张图片开始，让我们考虑一下，解决此问题的最简单方法是。

我们可以先放置一个随机盒，在此图像上的图像中，它有一些随机的位置，也有一个随机的大小，我们可以把那个盒子装进我们的普通图像分类网络，例如，我们在讲座的前面看到这只是拍摄一张图片，或者现在，子图像。

但它仍然是单个图像，它通过我们的网络进行馈送，现在该网络是，负责预测什么是该图像的类别，而不是进行对象检测，并且它预测，如果此框没有类，则它具有某个类，那么它就可以忽略它，然后重复此过程。

然后在场景中选择另一个框，然后将其传递给，网络来预测其类别，我们可以继续使用场景中的不同盒子来做到这一点，并保持，这样做，随着时间的推移，我们基本上可以对所有这些盒子进行许多不同的类预测。

因为它们在某种意义上是通过我们的分类网络传递的，如果这些框中的每个，我们是一个预测类，我们可以选择其中有一个类的框并将其用作框，如果找不到对象，则在哪里找到对象，我们可以简单地将其丢弃。

然后移至下一个框，因此，这口井的问题是，有太多的输入，这基本上，结果出现在盒子里，并考虑了许多盒子，它们的缩放比例也太多了，许多位置，尺寸太多，我们不可能在所有这些维度上迭代图像。

和并将其作为幼稚的溶质并将其作为我们的对象检测问题的解决方案。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因此我们需要做得更好，而不是选择随机的框或遍历所有，我们在图像中的方框中使用简单的启发式方法来识别图像中的某些位置，可能包含有意义的对象，并使用这些对象来馈送我们的模型，但是即使通过这种区域提案的提取。

商店的其余部分仍然是准确的，同样，我们提取提案区域，并通过网络的其余部分提供给我们，然后将其扭曲到，是正确的大小，然后如果没有任何内容，则将其输入到分类网络中，框，如果存在，我们将其丢弃，然后保留它。

并说该框实际上包含此图像，但这仍然有两个非常重要的问题，我们必须考虑的一个问题是，超级超级慢我们必须将每个区域独立地馈送到模型，所以如果我们提取，在这种情况下，我们有2000个区域，我们必须在这里供餐。

我们必须运行该网络2 000次，仅针对单个图像获得答案，它也往往非常脆弱，因为在实践中，我们如何很好地完成这一地区提案？完全是基于启发式的，而不是，通过神经网络学习，它甚至更重要，也许它是。

从特征提取部分分离出来，所以我们的特征提取是学习一件，但是我们的区域提议网络或该体系结构的部分是完全分离的，因此。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

该模型无法学习预测可能特定于给定任务的区域，现在，对于某些应用来说，它变得非常脆弱。实际解决并解决其中一些问题，并将其向前推进以实现目标，检测，但我想非常快速地进行操作，只是将您指向该方向。

对于那些感兴趣的人，这是实际学习这些区域的更快的rcnn方法，提出这里的想法，而不是将这张图片提供给基于启发式的反馈，或者，区域提案网络或方法，我们可以让我们的网络中的一部分经过培训以识别。

我们的图像模型的提案区域，使我们可以直接理解或，在我们的原始图像中识别出这些区域，在这些区域中我们应该探索候选斑块，为了我们的分类和我们的物体检测，现在这些区域中的每一个都是。

作为神经网络和个人的一部分，使用自己的特征提取器进行处理，或者，在他们的cnn头中，然后为每个提案提取这些特征后，我们可以，这些单个区域中每个区域的正常分类与以前非常相似，但是现在这样做的巨大优势在于。

只需要对模型进行一次正向传递，我们只有在拥有提取区域的区域建议网络后才提供此图像，并且所有这些区域都被馈送以对图像的其余部分进行分类，因此，与以前的方法相比，它超级快，因此在分类中，我们可以预测一个类。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

对于物体检测中模型的整个图像，我们预测了所有物体的边界框，为了定位它们并识别它们，我们可以做得比这更远，在这个想法中，我们仍然使用cnns进行预测，也可以预测此输出，但不是，预测相当粗糙的边界框。

我们可以让我们的网络在这里也进行预测，整个图像，现在的一个例子是语义分割，其中输入是rgb，图像只是正常的rgb图像，而输出将是像素级的，每个像素的概率是它属于给定类别的概率。

所以在这里您可以看到一个例子，这个例子是在草地上的一些两头牛，馈入神经网络，而神经网络实际上预示着崭新的形象，但是现在这个图像不是rgb图像，而是语义分割图像，它有可能，对于每个单个像素。

它都在进行分类问题，并且正在学习对每个单个像素进行分类，像素取决于它认为是什么类，在这里我们实际上可以看到母牛像素的情况，与草像素和天空像素分开进行分类，此输出实际上是。

使用上采样操作而非下采样操作创建的，而是使用上采样创建的，以允许，卷积解码器实际上增加了其空间尺寸，因为这些层是模拟的，您可以说一下我们在讲座前学到的普通卷积层，它们也已经在tensorflow中实现。

因此将它们放到模型中非常容易，并允许您的模型学习如何实际预测其他图像，或者代替。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

单类概率，这种语义分割思想非常强大，因为它也可以应用于医疗保健中的许多不同应用，尤其适用于在医学扫描中分割例如癌变区域或，甚至可以识别出血液中感染了疟疾等疾病的部分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

让我们在这里看到一个最后的示例，说明如何使用卷积特征提取来执行，另一个任务，该任务与我们在分类中看到的前三个任务不同，对象检测和语义分割现在我们将考虑连续的任务，用于自动驾驶汽车的机器人控制。

并直接从原始视觉数据导航，具体来说，该模型将作为输入，如您在左上角看到的那样，车辆的原始感知，例如来自汽车上的摄像头，还会看到嘈杂的街景地图表示，您可能会看到，您的智能手机上的Google地图中的示例。

它的任务是不预测分类。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

问题或物体检测，而是了解整个空间的完整概率分布，在给定情况下该车辆可能采取的所有可能的控制命令。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在它是如何做到的，实际上整个模型实际上是在使用我们学到的所有知识，在今天的讲座中，可以通过将这些照相机中的每一个通过它们的末端来进行培训。专用的卷积特征提取器，然后基本上提取所有这些特征。

然后将它们串联在一起，将它们压平，然后将它们串联成一个特征，提取向量，所以一旦我们具有提取的所有特征的完整表示，从我们所有的相机和地图中，我们实际上可以使用此表示来预测，在确定控制的基础上。

将全部控制参数提供给目标的所需目的地，车辆，这种概率控制功能非常强大，因为在这里我们实际上正在学习，只是优化在任何给定时间车辆应该转向的位置上的概率分布，您实际上可以在地图上看到该概率分布的可视化。

并对其进行了简单的优化，负对数似然是此分布的负对数似然，是一个正态分布的正态混合，这几乎与您在，以及在该域中的分类，您尝试使交叉熵损失最小化，这也是对数似然优化或概率函数的负数，因此请记住。

这是由卷积层组成的，以实际执行此操作，特征提取这些与我们今天在本讲座中了解到的完全相同，以及这些平坦化的池层和串联层，以真正生成此单个，输入的表示形式和特征向量，最后在这种情况下可以预测这些输出。

该车辆应持续控制的表示形式，因此功能非常强大。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

因为人类实际上可以输入所需的目的地，而端到端的cnn，输出控制命令以使车辆朝着该目的地致动，此处注意，车辆能够在接近交叉路口时成功识别并采取正确的措施，控制命令以在这些全新环境中实际导航该车辆。

在训练数据集中从未见过且从未驾驶过的东西，cnns的影响已经远远超出了这些例子，我今天在这里解释了它已经涉及到计算机视觉中的许多不同领域，特别是，我很想今天结束本讲课，看一下我们介绍的内容，今天。

我们真的涵盖了大量材料，我们涵盖了计算机视觉的基础，图像是如何，表示为亮度值的数组，以及如何使用卷积以及它们如何工作，我们看到我们可以将这些卷积构建为定义卷积的基本体系结构，神经网络。

并讨论了如何使用cnns进行分类，最后，我们讨论了如何使用这些基本功能的许多扩展和应用程序，卷积神经网络架构作为特征提取模块，然后使用它，来执行您的任务，以及有关如何实际可视化行为的一些信息。

我们的神经网络，并通过幕后了解了它在做什么，这些语义分割图的一些方法，并获得了更细粒度的视角，这些输入图像的超高分辨率分类，因此，我想结束本讲课，并指出每个人都指向下一个实验室。

今天即将到来这将是一个专门研究计算机视觉的实验室，您将非常熟悉我们今天讨论的许多算法，首先建立您的第一个卷积神经网络，然后建立这个，一些面部检测系统，并学习如何使用无监督的生成模型，例如。

将在下一个讲座中看到，以确保这些计算机视觉可以确保面部，分类算法是公平且公正的，因此请继续关注下一课。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传