强化学习
文章平均质量分 78
理论最高的吻
当你身处绝境时,能救你的只有过去的自己!
展开
-
强化学习——马尔可夫决策过程(MDP)【附 python 代码】
本文介绍了马尔可夫决策过程,其中包括了马尔可夫过程,马尔可夫奖励过程,马尔可夫决策过程,蒙特卡洛方法,占用度量等等知识,并附上具体实现的 python 代码原创 2024-07-22 17:10:39 · 1693 阅读 · 0 评论 -
Python【Pycharm】 配置 numpy 和 matplotlib 模块
Pycharm 配置 numpy 和 matplotlib 模块的详细教程原创 2024-07-17 16:10:17 · 521 阅读 · 0 评论 -
强化学习——多臂老虎机问题(MAB)【附python代码】
有一个用于 K 根拉杆的老虎机,每一根拉杆都对应一个关于奖励的概率分布 R。每拉动一个拉杆,就可以从该拉杆的奖励概率分布中获得一个奖励 r。在各拉杆的奖励概率分布未知的情况下,从头开始尝试,目标是在操作 T 次拉杆后获得尽可能高的累积奖励。由于奖励的概率分布是未知的,因此我们需要在“探索拉杆的获奖概率”和“根据经验选择获奖多的拉杆”中进行权衡。【通俗易懂:有 K 个机器,你不知道每个机器的奖励概率分布,你只有 T 次机会选择机会,探索机器的奖励概率分布也算在 T 次内,然后尽可能获得最多的奖励。原创 2024-07-17 16:03:25 · 1004 阅读 · 0 评论