百度飞桨强化学习7日打卡营——世界冠军带你从零实践（结营心得总结）

最新推荐文章于 2024-08-04 18:00:11 发布

joker-wt

最新推荐文章于 2024-08-04 18:00:11 发布

阅读量420

点赞数 1

分类专栏：百度paddle深度学习系列文章标签：百度人工智能

本文链接：https://blog.csdn.net/wtlll/article/details/106945356

版权

百度paddle深度学习系列专栏收录该内容

1 篇文章 0 订阅

订阅专栏

和世界冠军一起学习PARL的那几天

破茧——张韶涵
在这里插入图片描述

学习就是一个不断突破自我的过程，如同破茧一样，唯有多磨难，方能知其美丽。
——joker-wt

课程介绍

百度NeurIPS全球顶会冠军团队授课，7日全直播教学，5次实战打卡，带你从零实践强化学习。

详细地址：百度飞桨RL7日打卡训练营

课程大纲

DAY1-强化学习(RL)初印象

RL 概述、入门路线
实践：环境搭建
课后作业：搭建GYM环境+PARL环境，把QuickStart 跑起来

DAY2-基于表格型方法求解RL

MDP、状态价值、Q表格
实践： Sarsa、Q-learning代码解析，解决悬崖问题及其对比
课后作业：使用Q-learning和Sarsa解决16宫格迷宫问题。

DAY3-基于神经网络方法求解RL

函数逼近方法
实践：DQN代码解析，解决CartPole问题
课后作业：使用DQN解决 MountianCar问题

DAY4-基于策略梯度求解RL

策略近似、策略梯度
实践：Policy Gradient算法理解、代码解析，解决CartPole问题
课后作业：使用Policy Gradient解决Atari的Pong问题

DAY5-连续动作空间上求解RL

连续动作空间、DDPG算法介绍
PARL DDPG代码解析
大作业题目
RLSchool 飞行器仿真环境介绍

在这里插入图片描述

RL学习体验&总结

强化学习（Reinforcement Learning ，RL）,又称增强学习，是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或者惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在许多领域都有应用，例如博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法。

关于PaddlePaddle/PARL

PaddlePaddle PARL 凝聚了百度多年来在强化学习领域的技术深耕和产品应用经验。与现有强化学习工具和平台相比，PaddlePaddle PARL 具有更高的可扩展性、可复现性和可复用性，强大的大规模并行化和稀疏特征的支持能力，以及工业级应用案例的验证。这个框架对于初步踏入强化学习领域的新手来说，相对友好，封装了RL相关的经典算法，方便使用，并进行验证诸多RL场景。
在这里插入图片描述

个人体会

虽然此前从未接触过RL的内容，但在和科科老师学习的过程中，觉得关于RL的世界很精彩，科科老师深入浅出的讲解为我们打开了一扇通往 RL的大门，因为我个人是零基础学习RL，也不是AI 专业的，所以学习RL还是较其他的同学要困难一点，在这几天中遇到了很多问题，比如：库的调用，模型的下载，网络层的构建等等，尤其是最后一天的大作业，由于训练模型的时间太长了，在提交作业之前，我也就训练了2次而已，得出的效果也不是很好，没有对参数怎么进行优化，后续再改进吧。
不过此次课程还是一如既往的棒啊，安排的即合理又人性化，和此前百度其他的课程一样，可以看出各位老师的用心。
ok，最后再次感谢为此次课程付出的各位老师！！！

我们下个阶段再会！！！

你要悄悄拔尖，然后惊艳所有人！！！

在这里插入图片描述

joker-wt

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
百度飞桨强化学习7日打卡营——世界冠军带你从零实践（结营心得总结）

和世界冠军一起学习PARL的那几天破茧——张韶涵学习就是一个不断突破自我的过程，如同破茧一样，唯有多磨难，方能知其美丽。 ——joker-wt课程介绍百度NeurIPS全球顶会冠军团队授课，7日全直播教学，5次实战打卡，带你从零实践强化学习。详细地址：百度飞桨RL7日打卡训练营课程大纲DAY1-强化学习(RL)初印象RL 概述、入门路线实践：环境搭建课后作业：搭建GYM环境+PARL环境，把QuickStart 跑
复制链接

扫一扫