强化学习代码实战(1)--- 介绍

机器人领域:控制,规划,感知等都可以用,可以把它作为一个优化过程,那么任何需要优化的问题都可以用它解决。

1.应用

深度学习:智能感知,解决智能如何理解这个世界的问题。

强化学习:智能决策,解决智能体对这个世界做什么的问题。

相同点:都是从数据中学习,

不同点:深度学习需要静态的标签数据,强化学习需要动态(交互)的标签数据(宏观上),深度学习,主要识别和分类目标,强化学习解决最优决策问题。

2.单智能体强化学习

      强化学习损失函数是回报,下图第一个式中,J是优化目标,\mu ^{\pi }是state分布,\pi是在状态s时选a的概率,R是在状态s时选a的回报。深度学习求解优化目标用梯度下降,但强化学习的损失函数无写出解析形式,所以成为一个对偶问题,也就是求最优值函数,用贝尔曼方程求解。

      强化学习最开始是一种表格型方法,常用Q(s,a)表示,但很多任务中,s和a是无穷尽的,这就带来了维数灾难问题,导致计算机无法求解,后来就用CNN(卷积神经网络)拟合Q,出现了DQN,但DQN,有存在过优问题,后来用DDQN解决,在实际应用中,发现RNN(循环神经网络),在有些任务中效果更好,所以又出现了DRQN,在对数据进行学习时DQN一般是随机选择,但如果有策略性的选择数据,比方说用加权法,有时候效果更好,所以出现了Prioritized DQN,DQN中评估时只有值函数,后来又加入了优势值函数进行评估,得到了更好的效果,又出现了Dueling DQN,最后一个改变略显革命性,Distributioal DQN(分布式深度强化学习),DQN中我们学习(优化)的目标是R的期望值,但累计回报误差很大,而分布式,是想把值函数的概率分布学习出来。

      进一步对模型已知问题的求解,就是对HJB方程(偏微分)方程求解,偏微分方程一般没有数值解,除非是二次可解析的用最优控制(LQR)求解,二维以上这种方法就不能搞了,同样会遇到维数灾难问题,所以用神经网络逼近,于是出现了自适应动态规划方法(ADP)。以及后面的群智能和基于模型的强化学习方法(都是解决数据高维问题)。

      对于模型未知,提出了策略搜索方法,首先提出策略梯度的方法(似然率),但这个方法,方差很大,所以又出现了值梯度方法,这种方法方差小(PG,PPO,SAC)。以及后面出现的基于AC(DDPG,A3C),基于统计的方法(MPO),所有的方法都是为了解决方法问题。

注意一下值梯度方法的公式。

 3.多智能体强化学习

      单智能体强化学习是多智能体强化学习的特殊形式。一种动态的马尔可夫过程,一般用纳什均衡策略解决。常用方法MADDPG,CoMa,MAAC,AlphaStar,其中A代表attention,AlphaStar用了博弈理论,也是一个超级工程,集合了不同神经网络,像卷积,循环等。

4.困境和挑战

 5.学习路线图

参考文献

1.深入浅出强化学习 编程实战 郭宪

2.博文视点学院

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 《深入浅出强化学习编程实战》是一本以深入浅出的方式介绍强化学习编程实践的教材。强化学习是一种机器学习的方法,其通过与环境进行交互,不断试错并根据反馈进行学习,以最大化获取奖励的策略。 这本书从实际应用的角度出发,为读者提供了丰富的强化学习编程实例,并用简洁明了的语言进行讲解。书中首先对强化学习的基本概念进行了介绍,包括马尔科夫决策过程、值函数、策略梯度等核心理论。接着,作者通过具体的案例,如迷宫问题、扫地机器人等,演示了如何应用强化学习算法解决实际问题。 《深入浅出强化学习编程实战》的编写极富教学性,每个实例都配有详细的代码解释和算法原理分析,使读者能够更好地理解和掌握强化学习的编程实现。同时,书中还介绍了一些在实践中常用的强化学习库和工具,如OpenAI Gym、TensorFlow等,让读者能够更加便捷地进行实验和应用。 这本书适合对强化学习感兴趣的初学者阅读,也适合已有一定编程基础的读者进行进一步的学习和实践。通过读完本书,读者可以了解到强化学习的基本概念和常用算法,并能够运用所学知识解决实际问题。 总之,《深入浅出强化学习编程实战》是一本循序渐进、实用性极高的强化学习编程实践指南,帮助读者快速入门和应用强化学习算法。无论是学术研究还是工程实践,都能够从中获得丰富的经验和知识。 ### 回答2: 《深入浅出强化学习编程实战》pdf是一本讲解强化学习编程实践的电子书籍。强化学习是一种机器学习的分支,其主要目标是让智能体通过与环境的交互,最大化累积奖励。这本书以深入浅出的方式,向读者解释了强化学习的基本原理和相关算法。 这本书首先介绍强化学习的基本概念和背景知识,包括马尔可夫决策过程、值函数和策略等重要概念。然后,书中详细介绍了一些经典的强化学习算法,如Q-Learning和Deep Q-Networks等。通过学习这些算法,读者可以了解如何通过强化学习方法来解决实际问题。 此外,该书也提供了一些实际项目案例,帮助读者将理论知识应用到实际场景中。这些案例涵盖了不同领域,如机器人、游戏和金融等,读者可以通过这些实例了解强化学习在不同领域的应用。 为了更好地帮助读者理解和掌握强化学习编程实践,该书还提供了大量的代码示例和实验练习。读者可以通过编写代码并运行实验来巩固所学的知识,并且可以在实验中探索不同的参数和算法,以实现更好的性能。 总的来说,《深入浅出强化学习编程实战》pdf以通俗易懂的方式介绍强化学习的基本理论和算法,并通过实际案例和实验帮助读者深入理解和运用强化学习。这本书适合对强化学习编程实践感兴趣的读者阅读,不仅可以学到理论知识,还能够通过实践提升编程和问题解决能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值