百度飞桨世界冠军带你从零实践强化学习第一天


大家好,这里是三岁,百度飞桨强化学习,零基础小白三岁又双叒来了,带大家从入门到准备放弃到苦苦支撑!!!

课程源于百度AI品台,飞桨学院,世界冠军带你从零实践强化学习课程(点击查看

强化学习

理论:智能体在环境中学习,通过环境执行动作,通过反馈奖励来指导更好的动作(白话:就是机器在学习往有利的方向前进(人类赋予了某个特征一定的意义,实际上机器学习的就是010101……))在这里插入图片描述
强化学习对于机器的奖励是延迟的只有一系列动作完成以后才可以得到奖励(反馈)

举例:
1.智能推荐(他好像知道我要干什么,他好像在窥视我!)
2.股票预期(我不会炒股,咦他给我推荐的好像不错!)
3.交通信号灯时长(为什么一个红灯各各都是红灯?)

其实没有什么偷窥,只不过是机器比你更了解你自己,
机器比你更懂股票,只不过是机器比你先到一步,
他预判了你的预判!!!

不不不算法处理好我叫人工智能,处理不好嘛!
大家好!我是人工智障!!!

试错中吸取经验

深度学习中特别是强化学习,不畏枯燥,一遍一遍的尝试,那么广大的秃头小能手们还等什么,不断试错,吸取经验啦!

agent学习方案

1. 基于价值
2. 基于策略
算法库及框架库

在这里插入图片描述

强化学习最初印象

在这里插入图片描述

作业问题及个人解决方案(仅供参考)

使用方法

好多大佬都是新手对ai studio 的 netbook 不是很了解,可以看看链接(点击查看)(链接没有登录无法查看)

  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

三岁学编程

感谢支持,更好的作品会继续努力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值