系统学习Pytorch笔记七:优化器和学习率调整策略

Pytorch官方英文文档:https://pytorch.org/docs/stable/torch.html?
Pytorch中文文档:https://pytorch-cn.readthedocs.io/zh/latest/

1. 写在前面

疫情在家的这段时间,想系统的学习一遍Pytorch基础知识,因为我发现虽然直接Pytorch实战上手比较快,但是关于一些内部的原理知识其实并不是太懂,这样学习起来感觉很不踏实, 对Pytorch的使用依然是模模糊糊, 跟着人家的代码用Pytorch玩神经网络还行,也能读懂,但自己亲手做的时候,直接无从下手,啥也想不起来, 我觉得我这种情况就不是对于某个程序练得不熟了,而是对Pytorch本身在自己的脑海根本没有形成一个概念框架,不知道它内部运行原理和逻辑,所以自己写的时候没法形成一个代码逻辑,就无从下手。 这种情况即使背过人家这个程序,那也只是某个程序而已,不能说会Pytorch, 并且这种背程序的思想本身就很可怕, 所以我还是习惯学习知识先有框架(至少先知道有啥东西)然后再通过实战(各个东西具体咋用)来填充这个框架。 而这个系列的目的就是在脑海中先建一个Pytorch的基本框架出来, 学习知识,知其然,知其所以然才更有意思 😉

今天是该系列的第七篇文章,依然是基于上次的

  • 44
    点赞
  • 150
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
《白话强化学习PyTorch》是一本介绍强化学习PyTorch框架结合的书籍。这本书引用了多个参考内容来支持它的内容。首先,它引用了论文《Playing Atari with Deep Reinforcement Learning》中提到的卷积神经网络架构,该架构用于在Atari游戏中进行强化学习。其次,书中讨论了一些重要的概念和技术,包括迁移学习、生成对抗网络和强化学习。最后,书中第八章使用了四种算法(nips-DQN、nature-DQN、double-DQN、dueling DQN)来训练Gym中的Atari游戏—pong,即乒乓球游戏。这些算法的目标是控制球拍与电脑玩乒乓球,通过奖励机制进行训练。然而,书中提供的代码在处理环境和图像方面存在问题,并且探索率的更新速度较慢,导致训练结果较差。此外,书中关于Double DQN的伪代码和讲解也有错误。因此,读者需要注意这些问题并参考其他资料来获得更准确的信息。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [《白话强化学习PyTorch学习笔记---第八章](https://blog.csdn.net/cat_ziyan/article/details/101712107)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [《白话强化学习PyTorch》第1章 强化学习是什么----读书笔记](https://blog.csdn.net/zhang_xiaomeng/article/details/120113433)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值