第四节：action动作和observation观察值的值类型

windanchaos

已于 2023-08-23 21:35:13 修改

阅读量248

点赞数

分类专栏：强化学习和股票文章标签：机器学习 python 量化交易深度学习人工智能

于 2023-08-23 20:51:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/windanchaos/article/details/132202020

版权

强化学习和股票专栏收录该内容

7 篇文章 0 订阅 ¥299.90 ¥399.90

订阅专栏

本专栏是强化学习运用在买卖股票之上的入门学习内容。
主要解决强化学习代码落地和代码实践，不需要学习相关数学原理，直观简单的带领读者入门强化学习炒股。
查看本专栏完整内容，请访问：https://blog.csdn.net/windanchaos/category_12391143.html
本文发布地址：https://blog.csdn.net/windanchaos/article/details/132202020

本章是强化学习的基础，需要至少理解Discrete。

为什么要学习值类型

一句话，认识和学习action的值以及observation观察值（环境返回给agent的值）可取哪些非常重要，因为这是输入-输出模型中负责输入和输出的部分，搞懂这个，我们便能更好的驾驭强化学习。

我们直接看源码（gym.space目录下），并给出说明：

空间值简单描述是一个数学集，并在Gym中用于指定有效的动作和观察值。

每个Gym环境必须具有action_space和observation_space属性。

例如，如果您的环境中可以执行三个可能的动作（0，1，2），并且观察结果是二维单位立方体中的向量，则环境代码可能包含以下两行：

self

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
第四节：action动作和observation观察值的值类型

强化学习中主要是输入和输出数据类型，一定要理解。才能利用输入-输出框架掌握强化学习炒股。
复制链接

扫一扫

专栏目录

windanchaos CSDN认证博客专家 CSDN认证企业博客

码龄15年

94: 原创

5万+: 周排名

6万+: 总排名

35万+: 访问

: 等级

2975: 积分

458: 粉丝

112: 获赞

38: 评论

420: 收藏

私信

关注

热门文章

分类专栏

最新评论

backtrader实战：如何提高backtrader调试代码的速度
windanchaos: 安装方法已更新到文章，简单说 conda create -c conda-forge -n my_pypy pypy python=3.9，安装完切过去，开发工具选择pypy，并安装依赖。
backtrader实战：如何提高backtrader调试代码的速度
yishuihanly: 请问怎么安装pypy呢？
【计算机理论基础】计算机是如何做运算的
做而论道_CS: 还有 “浮点数”，这就更没谱了：　浮点数和计算机，仅有四个字节的关系。　这就能和《计算机组成原理》扯在一起？用 32 位二进制数，表示一批更大范围的数，　这可以说是一种：加密解密的方法。　它们之间的换算，完全是 “数学知识”。浮点数的运算步骤，有：对阶、上下溢、规格化、...，　这些破事，与《计算机组成》，毛的关系都没有啊！　更不用说与《计算机原理》的关系了。请问计算机专家，在《计算机组成原理》中写这些干嘛？　你是打算暴露，你的基本概念不清吗？
【计算机理论基础】计算机是如何做运算的
做而论道_CS: 另外，由补码换算到十进制数，也极其简单。你只需记住：【补码首位的权，是负数】。一般的八位二进制数，各个位的权是：　　128、64、32、16、8、4、2、1；如果是八位的补码，各个位的权则是：　－128、64、32、16、8、4、2、1。　例如，有一个补码：1110 0001，它代表的十进制是：－128 + 64 + 32 + 1= －31。再看，另一个补码：0110 0001，它代表的十进制是：0 + 64 + 32 + 1 = ＋97。仅仅使用【进制转换】，不就完事了！－－－－－－－－－－－－－－－－－－－－－－那么，所谓的：　机器数真值符号位原码反补码正数三码与正数相同　负数取反加一符号位不变符号位也参加运算模同余 ... 这一大堆乱七八糟的概念，不都是垃圾嘛！进位，是小学二年级的知识点吧？舍弃进位，很难理解吗？老外竟然能弄出那么大一堆概念！老外的数学水平，由此可见一斑。谁要是跟老外学算术，立刻、马上，就掉沟里去了！我们的计算机老师，也不懂数学，只知道跟风。一天一天的，在大学里，兜着圈子讲小学的知识。真是毁人不倦坑人不浅！这些老师，捡个鞋拔子就当成玉如意了。天天蒙骗学生，自己赚取名声和丰厚的讲课费。顺便再抓几个学生挂科，抖一下威风！现在知道我们缺芯片用的原因了吧！
【计算机理论基础】计算机是如何做运算的
做而论道_CS: 正常的数字(正数)，怎么就当负数用？关键是：【舍弃进位】。并非是：符号位原码反码取反加一。在两位十进制运算时，舍弃的是：一百。那么，加 99，再减 100，当然就是 “－1” 了。八位二进制数是：0000 0000 ~ 1111 1111。相当于十进制数：0 ~ 255。如果出现进位，就是：256。那么，加 255，再减 256，这也就是 “－1” 了。所以：255 (1111 1111)，就是：－1；同理：254 (1111 1110)，就是：－2；　　　253 (1111 1101)，就是：－3；　　　。。。　。。。　　　128 (1000 0000)，即：－128。以上这些正数，就是计算机专家 “发明” 的补码了。由此可知：　所谓的 “补码”，也是正常的数字。　它与 “符号位原码反码” 没有任何关系。　之所以能代替负数，关键是【舍弃了进位】。由上述介绍，可以归纳出如下关系式：　负数的补码 = 256 + 该负数。一般化，就是：　负数的补码 = 2^n + 该负数。　n，是二进制数的位数。例：求－31 的 “补码” 是多少？解：256－31 = 225 = 1110 0001 (二进制)。这不就求出来了吗！哪还用到 “原码反码。。。” ！同理，求正数的补码，公式则为：　正数的补码 = 256 + 该正数。要知道，加上 256，就是出现一个进位。进位必须舍弃，所以，256 就不用加了。于是有：　正数的补码 = 该正数。在此处，这就证明了：　零和正数的补码，就该数字本身。举例，就不用了吧。计算机专家也是说：　正数的补码，就是其自身。但是，他们并没有给出任何证明。他们为什么不证明呢？因为，这些专家：　不懂什么是进位。　更不懂什么是舍弃进位。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

windanchaos 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。