百度飞桨从零实践强化学习第一天
大家好,这里是三岁,百度飞桨强化学习,零基础小白三岁又双叒来了,带大家从入门到准备放弃到苦苦支撑!!!
课程源于百度AI品台,飞桨学院,世界冠军带你从零实践强化学习课程(点击查看)
强化学习
理论:智能体在环境中学习,通过环境执行动作,通过反馈奖励来指导更好的动作(白话:就是机器在学习往有利的方向前进(人类赋予了某个特征一定的意义,实际上机器学习的就是010101……))
强化学习对于机器的奖励是延迟的只有一系列动作完成以后才可以得到奖励(反馈)
举例:
1.智能推荐(他好像知道我要干什么,他好像在窥视我!)
2.股票预期(我不会炒股,咦他给我推荐的好像不错!)
3.交通信号灯时长(为什么一个红灯各各都是红灯?)
其实没有什么偷窥,只不过是机器比你更了解你自己,
机器比你更懂股票,只不过是机器比你先到一步,
他预判了你的预判!!!
不不不算法处理好我叫人工智能,处理不好嘛!
大家好!我是人工智障!!!
试错中吸取经验
深度学习中特别是强化学习,不畏枯燥,一遍一遍的尝试,那么广大的秃头小能手们还等什么,不断试错,吸取经验啦!
agent学习方案
1. 基于价值
2. 基于策略
算法库及框架库
强化学习最初印象
作业问题及个人解决方案(仅供参考)
使用方法
好多大佬都是新手对ai studio 的 netbook 不是很了解,可以看看链接(点击查看)(链接没有登录无法查看)