星谷罗殇-CSDN博客

原创（七）TRPO 算法 & PPO 算法

主要介绍强化学习的TRPO算法，主要是通过对目标函数泰勒近似、共轭梯度求解，同时利用线性搜索确定可靠步长，并配合GAE估计优势函数；同时介绍TRPO的改进算法PPO，包括PPO-Penalty和PPO-Clip两种形式

2025-10-31 20:41:01 1195

原创（六）策略梯度算法 and Actor-Critic 框架

介绍基于策略(policy-base)的算法基础，同时介绍Actor-Critic 这种结合value-base和policy-base两种方法的算法框架

2025-10-28 22:15:36 799

之前所讲的各种强化学习算法，如 Q-learning 等，大多是以矩阵的方式建立了一张存储每个状态下所有动作QQQ值的表格（一般叫 Q table），但用表格存储动作价值只适用于：环境的状态和动作均离散，且空间较小时，试想一下：当状态 or 动作连续，或者空间大，此时表格记录显得捉襟见肘。但聪明的你想到：函数拟合（function approximation）！即将这个复杂的Q table视作数据，使用一个参数化的函数QθQ_\thetaQθ来拟合这些数据。很显然这是一种近似方式。

2025-10-20 22:14:54 917

原创（四）强化学习RL——时序差分算法

介绍强化学习中求解 MDP 中价值函数的时序差分算法，主要是 Sarsa 和 Q-learning 两种策略。

2025-10-14 20:11:01 453

原创（三）强化学习RL——动态规划算法

介绍强化学习中求解 MDP 价值函数的动态规划算法，主要是策略迭代和价值迭代两种方式

2025-10-14 20:09:51 1000

原创（二）马尔可夫决策过程（MDP）

马尔可夫决策过程（MDP）是强化学习的理论基础，用于建模智能体与环境交互的问题。分别介绍MRP、MDP等的概念，最后引出求解MDP中价值函数的几种算法

2025-10-14 20:07:52 1353

原创（一）多臂老虎机（MAB）

关于学习强化学习过程中，记录对MAB问题的个人理解

2025-10-03 15:20:51 426

原创解决springboot报错! check …MySQL server ...for the right syntax to use near ‘order‘ at line 1

数据库的表我命名成：order，然后我在Mybatis的注解里写的select语句如下，这样生成的SQL语句其实语法不正确，犯了愚蠢的错误，哎．．．．，大家引以为鉴。解决方法：可以把数据库的表名改成非SQL关键字的，同时代码里涉及到该表的SQL重新改就好啦！是数据库SQL的关键字。

2024-04-07 19:37:54 341 1

原创 npm报错：Invalid response body while trying to fetch https://xxx/:EPERM: operation not permitted, open

主要是权限不足的问题，以管理员身份身份运行cmd即可。

2024-02-22 16:21:26 12797 3

原创 npm 错误：request to https://registry.npm.taobao.org/ failed, reason: certificate has expired

从报错信息不难看出：以前经常使用的淘宝镜像https://registry.npm.taobao.org/的证书过期了，就是该域名的备案证书过期了。查看registry字段值，如果当前配置的镜像就是旧的淘宝镜像，就需要更改。既然淘宝已经换了新域名，那就将原先配置的npm镜像源更改就好了。

2024-02-22 16:00:38 3061 2

原创 Vue创建项目Error: command failed: npm install --loglevel error --legacy-peer-deps

一开始往下只看到错误信息：Error: command failed: npm install --loglevel error --legacy-peer-deps，但报错信息前文有提示了，这里有两个：

2024-01-17 15:50:36 1779 1

原创 VMware16pro+CentOS7

在本机安装VMWare后，创建虚拟机装载CentOS

2022-09-25 20:01:52 551

原创 Oracle19c下载安装和配置教程

首先，感谢谢谢前人、前辈们对Oracle数据库安装等相关事项的记录，我承认安装时确实小心翼翼、战战兢兢的哈哈哈，这里也建议各位读者安装前能做好准备工作：大致了解流程如何以免手忙脚乱、了解版本信息是否和设备匹配、以及用好度娘。很幸运我一次装成功，特此记录一下（部分图片来自网图）Oracle19下载安装和配置教程...

2022-04-03 23:22:27 48227 35

原创 C++输出菱形

一个初学者的日常小收获这是

2021-05-02 20:22:23 4381 1

weixin_51487415的博客