DQN
文章平均质量分 86
活塞君
这个作者很懒,什么都没留下…
展开
-
利用人工智能玩智龙迷城,神魔之塔,转珠游戏(三)白话说明强化学习中的特征工程,奖励工程
什么是特征工程? 一句话:把特征转换为输入 但是单纯的转换不满足我们的需求,要根据实际需要来 比如要判断身高能否通过一个门,我们选取的特征就是身高的标量 如果只是把身高的分类(高,矮)作为评价标准,那只需要onehot就行了(比如高就变成:高:1 矮:0) 当然 上述两种方法都可以被接纳,因为深度学习就是从特征中学习,但是通过对特征预处理,可以有效降低噪音影响(就是让模型少学些无关东西,人为过滤掉无用的特征) 顺带一提标准的特征工程包含以下几大类:时间戳处理、离散型变量处理、特征提取、分区、交叉特征、特征选原创 2021-07-23 10:56:11 · 602 阅读 · 1 评论 -
利用人工智能玩智龙迷城,神魔之塔,转珠游戏(二)DQN
前言 我们知道了使用q-learning可以解决延迟奖励问题,但是还是有一个问题,他的表格太大了 所以我们使用神经网络来代替q表格,就是DQN啦 DQN 我们先设定一堆超参数(实际上跑一遍代码就知道他们分别有什么作用了): # 超参数 BATCH_SIZE = 8 #一次抽8个batch训练 LR = 0.005 # learning rate EPSILON = 0.9 # 就是0.1的几率瞎选 GAMMA = 0.原创 2021-07-16 13:57:58 · 661 阅读 · 4 评论 -
利用人工智能玩智龙迷城,神魔之塔,转珠游戏(一)强化学习介绍
强化学习 为什么是强化学习? 为了方便理解,这里就用最白话的方式说明 在之前的转珠算法中,想要实现记忆化存储,即记录每个状态下每个动作的结果,通过查表即可直接获取数据。 举个例子,比如版面是: 1 1 2 2 2 3 3 3 4 将第二行第三个数字向下移动一格就可以完成一次combo(reward) 从数据角度来看 就相当于 动作1 动作2 … 状态1(112,223,334的版面) (2,3)的珠子往下移动一格 … … … … 所以我们在状态1的时候采取了动作1,得到一次原创 2021-07-09 16:56:46 · 464 阅读 · 0 评论