自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 【强化学习】周博磊 第6章 优化策略的进阶

详细推导 https://wiseodd.github.io/techblog/2018/03/14/natural-gradient/对于policy 的函数形式过于敏感,不同的softmax,gaussian都会导致不同的优化结果。x是基于p分布采样得到的数据,我们可以通过q分布采样得到数据,使用p q间的概率比值来重新娇艳结果。固定KL在一个常数c内,可以保证我们的分布以常数的速度进行优化。,是fisher information matrix 也是KL散度的二阶导数。在分布空间最大的提升。

2023-10-07 23:07:55 56 1

原创 【强化学习】周博磊第5章 策略优化基础

可以从Monte Carlo policy gradient 获得,虽然是无偏的,但是噪音过大。动作是连续的话:Gaussian Policy 动作服从正太分布。baseline b(s)可以减少方差,而不改变期望。Policy-based的RL是一个最优的随机策略。基于Value-Based的RL学到是确定性策略。动作是离散化的话:Softmax Policy。假设下面的环境中无法区分灰色的grid。在连续的环境上:要知道转移矩阵。我们的优化目标就是找出最优的。如果是一个可微分的函数,

2023-08-12 16:46:29 74 1

原创 【强化学习】周博磊第4章 价值函数的近似

为了减少学习和存储的成本,用函数近似的方式vsw≈vπsq​saw≈qπsaπsaw≈πsa。

2023-07-24 23:46:31 64

原创 【强化学习】周博磊第3章 无模型的价值估计和控制

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rngXFH0c-1690014648172)(img3/2023-07-22-11-39-49.png)]DP: 已知MDP,根据动态转移矩阵考虑后续所有状态,计算的状态的期望。TD:未知MDP,通过采样的方式进行。中采集数据并且学习,即目标策略和行动策略同样都是。更新目标策略真的实际采样,目标策略和行为策略一致。更新目标策略未进行真实采样,Imagine最大的。通过叠加计算的方式很重要,后续的推导经常采用。

2023-07-22 16:37:38 61

原创 【强化学习】周博磊第2章 马尔科夫决策过程

马尔科夫决策过程相比与奖励过程,加入了动作。也就是说,未来的状态由当前状态和动作共同决定的。Markov 链/ MRP: 像随波漂流的小船。Markov 决策过程:可以采取导航行为的小船。Policy 是指在某一状态执行某一动作的概率。动态转移方程和奖励由当前状态与动作共同决定。已知MDP,寻找最优价值函数和策略。未来的状态只与当前的状态相关。最优函数可以通过寻找最大化。MDP, 计算价值函数。

2023-07-17 23:36:12 58 1

原创 Mac 通过CMake 构建静态库和动态库及使用

cmake 基本使用

2022-09-03 19:33:40 1269 1

原创 罗技 Logitech flow 连接

罗技 MaxKeys Logtech Flow 安装

2022-07-17 14:50:08 2805 1

原创 Mac M1 VSCode 搭建C++ 环境

Mac M1 Vscode C++ 环境搭建

2022-01-30 12:30:28 1242

原创 ROI Pooling 和 ROI Align

ROI Pooling 和 ROI Align:ROI Pooling 和 ROI Pooling 都是将RPN 提取的特征变成固定大小的特征。ROI Pooling 在Faster RCNN 中使用,而ROI Align 在Mask RCNN 中使用。ROI Align 可以看做ROI Pooling 的改进版,减少了对应到原始图像的像素偏差。下面的几个博客讲解的很好,可作为学习路线的参考。ROI Pooling 计算方法:https://blog.csdn.net/u0114364.

2020-05-31 17:02:45 165

原创 FCN 全卷积网络

FCN 全卷积网络语义分割, 实例分割, 全景分割语义分割:实例分割:全景分割:FCN 网络结构: 代码:

2020-05-29 00:25:32 480 1

原创 NMS(Non-Maximum Suppression)非极大抑制的几种写法

NMS(Non-Maximum Suppression)非极大抑制的几种写法dets矩阵, thresh阈值定义:import numpy as npimport tensorflow as tfimport torchdets = np.array([[30, 20, 230, 200, 1], [50, 50, 260, 220, 0.9], [210, 30, 420, 5, 0.8], .

2020-05-24 17:08:30 448 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除