自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

wsy_Monkey的博客

原创【强化学习】周博磊第6章优化策略的进阶

详细推导 https://wiseodd.github.io/techblog/2018/03/14/natural-gradient/对于policy 的函数形式过于敏感，不同的softmax，gaussian都会导致不同的优化结果。x是基于p分布采样得到的数据，我们可以通过q分布采样得到数据，使用p q间的概率比值来重新娇艳结果。固定KL在一个常数c内，可以保证我们的分布以常数的速度进行优化。，是fisher information matrix 也是KL散度的二阶导数。在分布空间最大的提升。

2023-10-07 23:07:55 80 1

原创【强化学习】周博磊第5章策略优化基础

可以从Monte Carlo policy gradient 获得，虽然是无偏的，但是噪音过大。动作是连续的话：Gaussian Policy 动作服从正太分布。baseline b(s)可以减少方差，而不改变期望。Policy-based的RL是一个最优的随机策略。基于Value-Based的RL学到是确定性策略。动作是离散化的话：Softmax Policy。假设下面的环境中无法区分灰色的grid。在连续的环境上：要知道转移矩阵。我们的优化目标就是找出最优的。如果是一个可微分的函数,

2023-08-12 16:46:29 150 1

原创【强化学习】周博磊第4章价值函数的近似

为了减少学习和存储的成本，用函数近似的方式vsw≈vπsqsaw≈qπsaπsaw≈πsa。

2023-07-24 23:46:31 83

原创【强化学习】周博磊第3章无模型的价值估计和控制

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rngXFH0c-1690014648172)(img3/2023-07-22-11-39-49.png)]DP: 已知MDP，根据动态转移矩阵考虑后续所有状态，计算的状态的期望。TD：未知MDP，通过采样的方式进行。中采集数据并且学习，即目标策略和行动策略同样都是。更新目标策略真的实际采样，目标策略和行为策略一致。更新目标策略未进行真实采样，Imagine最大的。通过叠加计算的方式很重要，后续的推导经常采用。

2023-07-22 16:37:38 109

原创【强化学习】周博磊第2章马尔科夫决策过程

马尔科夫决策过程相比与奖励过程，加入了动作。也就是说，未来的状态由当前状态和动作共同决定的。Markov 链/ MRP: 像随波漂流的小船。Markov 决策过程：可以采取导航行为的小船。Policy 是指在某一状态执行某一动作的概率。动态转移方程和奖励由当前状态与动作共同决定。已知MDP，寻找最优价值函数和策略。未来的状态只与当前的状态相关。最优函数可以通过寻找最大化。MDP, 计算价值函数。

2023-07-17 23:36:12 79 1

原创 Mac 通过CMake 构建静态库和动态库及使用

cmake 基本使用

2022-09-03 19:33:40 1457 1

原创罗技 Logitech flow 连接

罗技 MaxKeys Logtech Flow 安装

2022-07-17 14:50:08 3276 2

原创 Mac M1 VSCode 搭建C++ 环境

Mac M1 Vscode C++ 环境搭建

2022-01-30 12:30:28 1277

原创 ROI Pooling 和 ROI Align

ROI Pooling 和 ROI Align：ROI Pooling 和 ROI Pooling 都是将RPN 提取的特征变成固定大小的特征。ROI Pooling 在Faster RCNN 中使用，而ROI Align 在Mask RCNN 中使用。ROI Align 可以看做ROI Pooling 的改进版，减少了对应到原始图像的像素偏差。下面的几个博客讲解的很好，可作为学习路线的参考。ROI Pooling 计算方法：https://blog.csdn.net/u0114364.

2020-05-31 17:02:45 210

原创 FCN 全卷积网络

FCN 全卷积网络语义分割，实例分割，全景分割语义分割：实例分割：全景分割：FCN 网络结构：代码：

2020-05-29 00:25:32 544 1

原创 NMS（Non-Maximum Suppression）非极大抑制的几种写法

NMS（Non-Maximum Suppression）非极大抑制的几种写法dets矩阵, thresh阈值定义：import numpy as npimport tensorflow as tfimport torchdets = np.array([[30, 20, 230, 200, 1], [50, 50, 260, 220, 0.9], [210, 30, 420, 5, 0.8], .

2020-05-24 17:08:30 498 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

TwoMonkey CSDN认证博客专家 CSDN认证企业博客

码龄7年

IP 属地：广东省

IP属地以运营商信息为准，境内显示到省（区、市），境外显示到国家（地区）

11: 原创

38万+: 周排名

87万+: 总排名

7871: 访问

: 等级

132: 积分

0: 粉丝

5: 获赞

8: 评论

4: 收藏

私信

关注

热门文章

分类专栏

最新评论

罗技 Logitech flow 连接
m0_74620014: 非常有用，问题解决了
NMS（Non-Maximum Suppression）非极大抑制的几种写法
遇见信念: 楼主，计算面积不用加1吗？很多地方计算面积是：area = (x2 - x1 + 1) * (y2 - y1 + 1)
【强化学习】周博磊第6章优化策略的进阶
CSDN-Ada助手: 恭喜作者继续坚持创作，第11篇博客内容看起来非常有深度，尤其是探讨了强化学习中优化策略的进阶。不过我觉得下一步可以考虑增加一些实际案例或者应用场景，让读者更容易理解和接受这些进阶内容。希望作者能够继续努力，期待看到更多精彩的内容！
FCN 全卷积网络
q32DNG: 可以给我说说701_StillsRaw_full.zip 在CamVid官网上的哪里吗？蟹蟹
【强化学习】周博磊第5章策略优化基础
CSDN-Ada助手: 恭喜您撰写了第10篇博客！标题中的内容也非常吸引人，关于强化学习的策略优化基础，我相信这篇博客会给读者提供很多有价值的信息。您在探索这个领域的努力是值得称赞的，希望您能继续保持创作的热情和努力。作为下一步的创作建议，我想提醒您可以考虑加入更多实际案例或者应用场景，这样读者可以更好地理解策略优化的基本概念。此外，如果可能的话，您可以分享一些个人的观点或者经验，这将使您的博客更加丰富和有趣。不过，请您不要过于自信，因为我相信您一定还有很多可以学习和完善的地方。期待您未来更多的精彩创作！

最新文章

提示

确定要删除当前文章？

取消删除