人工智能
文章平均质量分 93
wilbertzhou
人生是一系列的逗号,不是句号。
展开
-
剖析强化学习 - 第二部分
作者:Massimiliano Patacchiola欢迎来到剖析强化学习系列的第二部分。如果您顺利完成了第一部分,那么恭喜!您学会了强化学习的基础,即动态编程方法。正如我在第一部分中所承诺的那样,第二部分将深入进行无模型强化学习(用于预测和控制),对Monte Carlo(MC)方法进行概述。这篇文章与第一部分(弱)相关,我将使用相同的术语,例子和数学符号。在这篇文章中,我将结合Russel...翻译 2018-04-07 22:18:20 · 1563 阅读 · 1 评论 -
剖析强化学习 - 第八部分
作者:Massimiliano Patacchiola在上一篇文章中,我介绍了函数逼近作为在强化学习设置中表示效用函数的方法。我们使用的简单逼近器基于特征的线性组合,并且它非常有限,因为它无法模拟复杂的状态空间(如XOR网格世界)。在这篇文章中,我将介绍人工神经网络作为非线性函数逼近器,向您展示如何使用神经网络来模拟效用函数。我将从名为Perceptron 的基本架构开始,然后转向称为多层感知...翻译 2019-02-01 20:13:10 · 1157 阅读 · 1 评论 -
Neural Networks for Machine Learning Lecture 6 Quiz
Neural Networks for Machine Learning Lecture 6 Quiz每个人的题目可能有略微不同。原创 2018-10-28 19:31:18 · 499 阅读 · 0 评论 -
分布式TensorFlow
通过使用多个GPU服务器,减少神经网络的实验时间和训练时间。作者:Jim Dowling说明:可以在这里找到示例的完整源代码。2017年6月8日,分布式深度学习的时代开始了。在那一天,Facebook发表了一篇paper,展示了他们将卷积神经网络(ImageNet上的RESNET-50)的训练时间从两周减少到一小时的方法,该方法使用32个服务器的256个GPU。在软件中,他们引入了一种具有非常大的...翻译 2018-06-18 10:27:01 · 2882 阅读 · 1 评论 -
解决几乎任何机器学习问题的方法
作者:Abhishek Thakur 一位数据科学家平均每天处理大量数据,有人说,超过60-70%的时间花在了数据采集、数据清理、数据整理上,使得机器学习模型可以应用于这些数据。本文重点介绍第二部分,即应用机器学习模型,包括预处理步骤。这篇文章中讨论的流水线是我参与过的一百多次机器学习竞赛的结果。必须指出,这里的讨论虽然普通,但非常有用,也存在非常复杂的方法,可供专业人员练习。我们将在这里使用py...翻译 2018-06-03 19:10:04 · 3633 阅读 · 0 评论 -
剖析强化学习 - 第五部分
作者:Massimiliano Patacchiola正如我在上一篇中承诺的那样,我将在第五部分介绍进化算法,特别是遗传算法(GA)。如果你阅读完第四篇文章,你应该知道GA可以被认为是Actor-only的算法,这意味着他们直接在策略空间中搜索而不需要效用函数。GAs通常被认为是与强化学习分开的,实际上,GA不关注潜在的马尔可夫决策过程以及Agent在其生命周期中选择的动作。使用这些信息可以实...翻译 2018-04-27 22:06:01 · 1171 阅读 · 0 评论 -
剖析强化学习 - 第六部分
作者:Massimiliano Patacchiola你好!欢迎来到“解剖强化学习”系列的第六部分。到现在我们已经了解了强化学习如何工作。然而,我们将大部分技术应用于机器人清洁示例,我决定采用这种方法的原因,是因为我认为应用于不同技术的同一个例子,可以帮助读者更好地理解从一种场景到另一种场景的变化。现在是将这些知识应用于其他问题的时候了。在下面的每一节中,我将介绍一个强化学习问题,并且将向您展...翻译 2018-05-03 22:08:32 · 3150 阅读 · 0 评论 -
剖析强化学习 - 第七部分
作者:Massimiliano Patacchiola到目前为止,我们已经通过查找表(或者矩阵)表示效用函数。这种方法有一个问题,当潜在的马尔可夫决策过程很大时,有太多的状态和动作存储在内存中。此外,在这种情况下,访问所有可能的状态是非常困难的,这意味着我们无法估计这些状态的效用值。关键问题是泛化:如何产生一个只有很小子集的大状态空间的良好近似。在这篇文章中,我将向您展示如何使用特性的线性组合...翻译 2018-05-09 22:08:30 · 1604 阅读 · 0 评论 -
剖析强化学习 - 第四部分
作者:Massimiliano Patacchiola这是“解剖强化学习”系列的第四篇。在这篇文章中,我将介绍另一组广泛用于强化学习的技术:Actor-Critic(AC)方法。我经常将AC定义为一种元技术,它使用以前的帖子中介绍的方法来学习。基于AC的算法是强化学习中最流行的方法之一。例如,Google DeepMind的一些研究人员最近推出的Deep Determinist Policy ...翻译 2018-04-22 19:08:31 · 1576 阅读 · 0 评论 -
剖析强化学习 - 第一部分
作者:Massimiliano Patacchiola前言 [本文是对强化学习的介绍,适合已经有一些机器学习背景,并且懂一些数学和Python的读者。当我研究一种新算法时,我总是希望了解底层机制,从这个意义上讲,使用一种编程语言从头开始实现算法对理解算法是有帮助的。我在这篇文章中采用了这种方法,虽然需要花更长时间阅读但值得这样。我不是以英语为母语的人,所以如果你发现一些难以理解的错误句子,请在...翻译 2018-04-05 11:36:49 · 2101 阅读 · 2 评论 -
剖析强化学习 - 第三部分
作者:Massimiliano Patacchiola欢迎来到“剖析强化学习”系列的第三部分。在第一篇和第二篇文章中,我们分析了动态规划和蒙特卡罗(MC)方法。第三部分要讲的强化学习技术称为时间差分(TD)方法。TD学习解决了MC学习中出现的一些问题,在第二部分的结论中我描述了这个问题之一,使用MC方法,需要等到episode结束才更新效用函数,这是一个严重的问题,因为一些应用程序可能会有很长...翻译 2018-04-16 20:40:58 · 2852 阅读 · 3 评论 -
世界模型【论文】
Agent可以在自己的梦境中学习吗?概述我们探索建立支撑流行强化学习环境的生成型神经网络模型,我们的世界模型可以以无监督的方式快速训练,以学习针对环境的压缩时空表示。通过使用从世界模型中提取的特征作为agent的输入,我们可以训练一个非常紧凑和简单的策略,可以解决所要求的任务,甚至可以完全在其世界模型生成的梦境中训练agent,并将此策略迁移到实际环境。介绍世界模特,来自斯科特麦...翻译 2019-04-07 21:35:48 · 6451 阅读 · 0 评论