自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 ERROR: Could not find a version that satisfies the requirement

请注意,如果你在虚拟环境之外运行pip(即在没有激活虚拟环境的情况下),pip将会在你的系统Python环境中安装包,而不是在虚拟环境中。因此,确保在尝试安装包之前已经激活了正确的虚拟环境。当pip无法安装某库时可考虑网页下好再本地pip install。文件,你需要先确保该虚拟环境已经被激活,然后使用pip来安装。如果你想要在一个特定的Python虚拟环境中本地安装一个。替换为你的虚拟环境实际所在的路径。在虚拟环境激活后,使用pip来安装。如果一切正常,这将输出包的版本号。

2024-05-20 17:45:39 432 1

原创 强化学习第三课-深度强化学习DQN

由于更新过程中目标深度强化学习网络也在变导致与投喂给DQN的一勺一勺数据不稳定,因此考虑采用目标网络策略来解决孩子不稳定的问题。DQN除了上述探索策略还可以用其他策略,如softmax策略,贪心衰减策略。基于先前经验做出决定-利用。适合拿来学习不断变化的网络。

2024-05-15 16:58:11 137

原创 强化学习第二课-蒙特卡洛方法

由于动态规划需要环境模型已知,而实际情况却比较复杂,因此本处提出了蒙特卡洛方法来解决对环境模型要求已知的问题。动态规划的更新依赖贝尔曼方程,仅适用于问题规模较小的情况;蒙特卡洛方法需要更多的计算资源,更适用于预测问题和交互问题。

2024-05-15 16:38:00 126

原创 强化学习第一课-动态规划

动态规划需要模型已知,而强化学习强调解决不确定性环境中的决策问题,你不需要确定所选算法模型,它会自动决策。动态规划强调大问题化小问题,且符合最优原则,子问题之间有重叠,并递归调用。动态规划是算法设计和优化方法,而非动态编程。类似斐波那契数列的解决方式。

2024-05-15 16:21:30 202

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除