利用人工智能玩智龙迷城,神魔之塔,转珠游戏(三)白话说明强化学习中的特征工程,奖励工程

什么是特征工程?

一句话:把特征转换为输入
但是单纯的转换不满足我们的需求,要根据实际需要来

比如要判断身高能否通过一个门,我们选取的特征就是身高的标量
如果只是把身高的分类(高,矮)作为评价标准,那只需要onehot就行了(比如高就变成:高:1 矮:0)
当然 上述两种方法都可以被接纳,因为深度学习就是从特征中学习,但是通过对特征预处理,可以有效降低噪音影响(就是让模型少学些无关东西,人为过滤掉无用的特征)

顺带一提标准的特征工程包含以下几大类:时间戳处理、离散型变量处理、特征提取、分区、交叉特征、特征选择、特征缩放。

强化学习中比较关键的是前三项,这影响了模型是否可以收敛

什么是奖励工程?

强化学习不同于有监督学习,我们的奖励是通过环境获取的
但是环境过于复杂会导致模型没办法有效的学习
比如围棋游戏,只有玩完一局才会得到奖惩,所以合理的奖励可以极大提高学习效率

白话开始

讲白了 特征工程就是:输入是什么
大部分强化学习都是直接和环境交互,其实就是直接调游戏接口,或者直接干脆做一个游戏从里面跑模拟。拿到的数据都是实实在在的,所以我只需要拿要的特征,然后丢进模型跑就行了。

但是这个加工还是有学问的,你知道什么特征是有用的?当然,宁多不宁少,大部分强化学习任务里的特征都可能没啥用,或者用处很低,反正丢进去让机器自己学呗,就当噪音了。比如我

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值