强化学习--概念之

agent(代理,智能体)

  增强学习要解决的是这样的问题:一个能感知环境的自治agent,怎样通过学习选择能达到其目标的最优动作。这个很具有普遍性的问题应用于学习控制移动机器人,在工厂中学习最优操作工序以及学习棋类对弈等。当agent在其环境中做出每个动作时,施教者会提供奖励或惩罚信息,以表示结果状态的正确与否。例如,在训练agent进行棋类对弈时,施教者可在游戏胜利时给出正回报,而在游戏失败时给出负回报,其他时候为零回报。agent的任务就是从这个非直接的,有延迟的回报中学习,以便后续的动作产生最大的累积效应。

  视频游戏和机器人是机器学习得到应用的一个巨大领域。一般来说我们有一个Agent(游戏角色或机器人),它必须根据环境(视频游戏中的虚拟环境或者对于机器人来说的真实环境)来行动。
  机器学习可以使这个Agent执行任务,比如移动到某个环境中而同时避开障碍或者敌人。在这些情形下一个最受欢迎的机器学习技术是强化学习,Agent通过学习环境的强化系数(如果Agent碰到了障碍物强化系数则为负,如果达到目标则为正)来执行任务。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值