强化学习和生成对抗网络

强化学习是机器学习的重要分支,涉及代理、环境、行动和奖励四个要素。学习方式包括价值函数和策略函数优化,其中确定性策略在相同状态下始终给出相同行动,而随机策略则带有不确定性。强化学习在连续决策和优化问题中表现出色。
摘要由CSDN通过智能技术生成

1. 强化学习的定义

强化学习(reinforcement learning)是机器学习的一个重要分支,是一门多领域交叉学科,它的本质是自行解决决策问题,并且能进行连续决策。
强化学习有四个主要组成部分∶
1.代理(Agent)reward action state
2.环境(Environment)
3.行动(Action Environment)
4.奖励(Reward)

简而言之,强化学习是一个让代理在环境中不断尝试各种行动,并能通过奖励来影响行动模式,使得奖励最优化(或者趋近于最优)的一种算法。
在这里插入图片描述

2. 两种学习任务

在这里插入图片描述

两种学习RL的方式
Value Based
写出一个value function,这个value function可以告诉我们每一步的未来rewards会有多大
在这里插入图片描述

3. Policy Based

在这里,我们希望最优化一个policy function而不是一个value function
在这里插入图片描述

有两种policy可以选择∶
Deterministic∶相同state下,永远给出相同的action,简单来说就是每次在同样的情况下做出一样的选择
Stochastic∶给出一个所有action的可能性的distribution,意思是在选择具有随机性,在某些对抗性游戏中,随机决策是必须的

4. 生成模型

在这里插入图片描述

5. 生成模型大家族

在这里插入图片描述

6. DCGAN

在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>