自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Proximal Policy Optimization (PPO) 原理

在TRPO中,我们通过解如下优化问题对策略参数进行更新:maximizeθEt[πθ(at∣st)πθold(at∣st)At],s.t.E[DˉKL[πθold(⋅,st),πθ(⋅,st)]]≤δ.(1)\text{maximize}_{\theta} \mathbb{E}_t[\frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)}A_t],\\s.t. \mathbb{E}[\bar D_{KL}[\pi_{\theta_{old}}(

2023-05-16 11:23:53 84 1

原创 Trust Region Policy Optimization (TRPO) 公式推导

记期望累计奖励ηπηπEs0​∼ρs0​at​∼πa∣sst1​∼Pst1​∣st​at​​t0∑∞​γtrst​)]1其中ρs0​为初始状态s0​的分布。

2023-05-15 23:46:49 147

原创 一些有用的数学定理

相应的概率分布密度函数为。

2023-05-04 22:08:17 153

原创 Probabilistic Movement Primitives (ProMP) 总结

论文Probabilistic Movement Primitives总结

2022-10-27 23:56:21 735

原创 Dynamical Movement Primitives (DMP) 总结

示教学习中通过动态系统建模示教数据的经典方法DMP的总结

2022-10-26 23:51:12 466

原创 Human-in-the-Loop Optimization of Exoskeleton Assistance Via Online Simulation of Metabolic Cost

Human-in-the-Loop Optimization of Exoskeleton Assistance Via Online Simulation of Metabolic Cost总结

2022-09-21 12:27:53 353 1

原创 利用Visual Studio创建C语言dll

利用VS2019创建dll方法UDP通信的定义Winsock用于通信的结构体服务端socket建立服务端程序源码用户端socket建立用户端程序源码信息的接收与发送UDP通信的特点UDP通信的定义Internet 协议集支持一个无连接的传输协议,该协议称为用户数据报协议(UDP,User Datagram Protocol)。UDP 为应用程序提供了一种无需建立连接就可以发送封装的 IP 数据包的方法。Winsock用于通信的结构体首先认识几个Windows提供的结构体:WORD:为微软SDK中的

2020-06-19 15:20:33 2265

原创 利用Winsock实现UDP通信

UDP通信的C语言实现UDP通信的定义Winsock用于通信的结构体服务端socket建立服务端程序源码用户端socket建立用户端程序源码信息的接收与发送UDP通信的特点UDP通信的定义Internet 协议集支持一个无连接的传输协议,该协议称为用户数据报协议(UDP,User Datagram Protocol)。UDP 为应用程序提供了一种无需建立连接就可以发送封装的 IP 数据包的方法。Winsock用于通信的结构体首先认识几个Windows提供的结构体:WORD:为微软SDK中的类型,为

2020-06-16 23:56:20 3306

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除