自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 (七)TRPO 算法 & PPO 算法

主要介绍强化学习的TRPO算法,主要是通过对目标函数泰勒近似、共轭梯度求解,同时利用线性搜索确定可靠步长,并配合GAE估计优势函数;同时介绍TRPO的改进算法PPO,包括PPO-Penalty和PPO-Clip两种形式

2025-10-31 20:41:01 1195

原创 (六)策略梯度算法 and Actor-Critic 框架

介绍基于策略(policy-base)的算法基础,同时介绍Actor-Critic 这种结合value-base和policy-base两种方法的算法框架

2025-10-28 22:15:36 799

原创 (五)DQN——开启深度强化学习

之前所讲的各种强化学习算法,如 Q-learning 等,大多是以矩阵的方式建立了一张存储每个状态下所有动作QQQ值的表格(一般叫 Q table),但用表格存储动作价值只适用于:环境的状态和动作均离散,且空间较小时,试想一下:当状态 or 动作连续,或者空间大,此时表格记录显得捉襟见肘。但聪明的你想到:函数拟合(function approximation)!即将这个复杂的Q table视作数据,使用一个参数化的函数QθQ_\thetaQθ​来拟合这些数据。很显然这是一种近似方式。

2025-10-20 22:14:54 917

原创 (四)强化学习RL——时序差分算法

介绍强化学习中求解 MDP 中价值函数的时序差分算法,主要是 Sarsa 和 Q-learning 两种策略。

2025-10-14 20:11:01 453

原创 (三)强化学习RL——动态规划算法

介绍强化学习中求解 MDP 价值函数的动态规划算法,主要是策略迭代和价值迭代两种方式

2025-10-14 20:09:51 1000

原创 (二)马尔可夫决策过程(MDP)

马尔可夫决策过程(MDP)是强化学习的理论基础,用于建模智能体与环境交互的问题。分别介绍MRP、MDP等的概念,最后引出求解MDP中价值函数的几种算法

2025-10-14 20:07:52 1353

原创 (一)多臂老虎机(MAB)

关于学习强化学习过程中,记录对MAB问题的个人理解

2025-10-03 15:20:51 426

原创 解决springboot报错! check …MySQL server ...for the right syntax to use near ‘order‘ at line 1

数据库的表我命名成:order,然后我在Mybatis的注解里写的select语句如下,这样生成的SQL语句其实语法不正确,犯了愚蠢的错误,哎....,大家引以为鉴。解决方法:可以把数据库的表名改成非SQL关键字的,同时代码里涉及到该表的SQL重新改就好啦!是数据库SQL的关键字。

2024-04-07 19:37:54 341 1

原创 npm报错:Invalid response body while trying to fetch https://xxx/:EPERM: operation not permitted, open

主要是权限不足的问题,以管理员身份身份运行cmd即可。

2024-02-22 16:21:26 12797 3

原创 npm 错误:request to https://registry.npm.taobao.org/ failed, reason: certificate has expired

从报错信息不难看出:以前经常使用的淘宝镜像https://registry.npm.taobao.org/的证书过期了,就是该域名的备案证书过期了。查看registry字段值,如果当前配置的镜像就是旧的淘宝镜像,就需要更改。既然淘宝已经换了新域名,那就将原先配置的npm镜像源更改就好了。

2024-02-22 16:00:38 3061 2

原创 Vue创建项目Error: command failed: npm install --loglevel error --legacy-peer-deps

一开始往下只看到错误信息:Error: command failed: npm install --loglevel error --legacy-peer-deps,但报错信息前文有提示了,这里有两个:

2024-01-17 15:50:36 1779 1

原创 VMware16pro+CentOS7

在本机安装VMWare后,创建虚拟机装载CentOS

2022-09-25 20:01:52 551

原创 Oracle19c下载安装和配置教程

首先,感谢谢谢前人、前辈们对Oracle数据库安装等相关事项的记录,我承认安装时确实小心翼翼、战战兢兢的哈哈哈,这里也建议各位读者安装前能做好准备工作:大致了解流程如何以免手忙脚乱、了解版本信息是否和设备匹配、以及用好度娘。很幸运我一次装成功,特此记录一下(部分图片来自网图)Oracle19下载安装和配置教程...

2022-04-03 23:22:27 48227 35

原创 C++输出菱形

一个初学者的日常小收获这是

2021-05-02 20:22:23 4381 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除