第六节：第二版environment

windanchaos

已于 2023-08-23 22:06:05 修改

阅读量192

点赞数

分类专栏：强化学习和股票文章标签：量化交易机器学习深度学习程序员创富

于 2023-08-23 20:37:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/windanchaos/article/details/132306740

版权

强化学习和股票专栏收录该内容

7 篇文章 0 订阅 ¥299.90 ¥399.90

订阅专栏

本专栏是强化学习运用在买卖股票之上的入门学习内容。
主要解决强化学习代码落地和代码实践，不需要学习相关数学原理，直观简单的带领读者入门强化学习炒股。
查看本专栏完整内容，请访问：https://blog.csdn.net/windanchaos/category_12391143.html
本文发布地址：https://blog.csdn.net/windanchaos/article/details/132306740

优化

回顾上一节内容，我们已知，环境存在以下一些问题

单只股票不具备普适性
环境返回的数据没有归一化处理，普适性大大降低
award的计算可能并不科学，有很大的优化空间
训练集和验证集没有分开
机器人极容易陷入不作为，所以奖励函数和股价买卖可能需要分开

那么，我们针对这些问题，尝试进行优化，优化的方向：

加入多只股票，每次随机返回股票，共享index进度（本文未添加该逻辑）
observation(观察值）返回值的归一化处理
award的计算进行优化
训练集和验证集分开
award的计算进行优化后，单独计算最终收益

源码

经过多次调试，设置奖励的核心一定搞清楚一个核心原则：”奖励什么，惩罚什么”，而不是单纯的使用每次买卖得到获利数字来作为奖励值，亏钱了但是卖出是对的对你要鼓励，挣钱了但是卖错了就不能鼓励。反之亦

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
第六节：第二版environment

优化版的environment
复制链接

扫一扫

专栏目录

windanchaos CSDN认证博客专家 CSDN认证企业博客

码龄15年

94: 原创

5万+: 周排名

6万+: 总排名

35万+: 访问

: 等级

2975: 积分

458: 粉丝

112: 获赞

38: 评论

420: 收藏

私信

关注

热门文章

分类专栏

最新评论

backtrader实战：如何提高backtrader调试代码的速度
windanchaos: 安装方法已更新到文章，简单说 conda create -c conda-forge -n my_pypy pypy python=3.9，安装完切过去，开发工具选择pypy，并安装依赖。
backtrader实战：如何提高backtrader调试代码的速度
yishuihanly: 请问怎么安装pypy呢？
【计算机理论基础】计算机是如何做运算的
做而论道_CS: 还有 “浮点数”，这就更没谱了：　浮点数和计算机，仅有四个字节的关系。　这就能和《计算机组成原理》扯在一起？用 32 位二进制数，表示一批更大范围的数，　这可以说是一种：加密解密的方法。　它们之间的换算，完全是 “数学知识”。浮点数的运算步骤，有：对阶、上下溢、规格化、...，　这些破事，与《计算机组成》，毛的关系都没有啊！　更不用说与《计算机原理》的关系了。请问计算机专家，在《计算机组成原理》中写这些干嘛？　你是打算暴露，你的基本概念不清吗？
【计算机理论基础】计算机是如何做运算的
做而论道_CS: 另外，由补码换算到十进制数，也极其简单。你只需记住：【补码首位的权，是负数】。一般的八位二进制数，各个位的权是：　　128、64、32、16、8、4、2、1；如果是八位的补码，各个位的权则是：　－128、64、32、16、8、4、2、1。　例如，有一个补码：1110 0001，它代表的十进制是：－128 + 64 + 32 + 1= －31。再看，另一个补码：0110 0001，它代表的十进制是：0 + 64 + 32 + 1 = ＋97。仅仅使用【进制转换】，不就完事了！－－－－－－－－－－－－－－－－－－－－－－那么，所谓的：　机器数真值符号位原码反补码正数三码与正数相同　负数取反加一符号位不变符号位也参加运算模同余 ... 这一大堆乱七八糟的概念，不都是垃圾嘛！进位，是小学二年级的知识点吧？舍弃进位，很难理解吗？老外竟然能弄出那么大一堆概念！老外的数学水平，由此可见一斑。谁要是跟老外学算术，立刻、马上，就掉沟里去了！我们的计算机老师，也不懂数学，只知道跟风。一天一天的，在大学里，兜着圈子讲小学的知识。真是毁人不倦坑人不浅！这些老师，捡个鞋拔子就当成玉如意了。天天蒙骗学生，自己赚取名声和丰厚的讲课费。顺便再抓几个学生挂科，抖一下威风！现在知道我们缺芯片用的原因了吧！
【计算机理论基础】计算机是如何做运算的
做而论道_CS: 正常的数字(正数)，怎么就当负数用？关键是：【舍弃进位】。并非是：符号位原码反码取反加一。在两位十进制运算时，舍弃的是：一百。那么，加 99，再减 100，当然就是 “－1” 了。八位二进制数是：0000 0000 ~ 1111 1111。相当于十进制数：0 ~ 255。如果出现进位，就是：256。那么，加 255，再减 256，这也就是 “－1” 了。所以：255 (1111 1111)，就是：－1；同理：254 (1111 1110)，就是：－2；　　　253 (1111 1101)，就是：－3；　　　。。。　。。。　　　128 (1000 0000)，即：－128。以上这些正数，就是计算机专家 “发明” 的补码了。由此可知：　所谓的 “补码”，也是正常的数字。　它与 “符号位原码反码” 没有任何关系。　之所以能代替负数，关键是【舍弃了进位】。由上述介绍，可以归纳出如下关系式：　负数的补码 = 256 + 该负数。一般化，就是：　负数的补码 = 2^n + 该负数。　n，是二进制数的位数。例：求－31 的 “补码” 是多少？解：256－31 = 225 = 1110 0001 (二进制)。这不就求出来了吗！哪还用到 “原码反码。。。” ！同理，求正数的补码，公式则为：　正数的补码 = 256 + 该正数。要知道，加上 256，就是出现一个进位。进位必须舍弃，所以，256 就不用加了。于是有：　正数的补码 = 该正数。在此处，这就证明了：　零和正数的补码，就该数字本身。举例，就不用了吧。计算机专家也是说：　正数的补码，就是其自身。但是，他们并没有给出任何证明。他们为什么不证明呢？因为，这些专家：　不懂什么是进位。　更不懂什么是舍弃进位。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

windanchaos 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。