- 博客(14)
- 收藏
- 关注
原创 (七)TRPO 算法 & PPO 算法
主要介绍强化学习的TRPO算法,主要是通过对目标函数泰勒近似、共轭梯度求解,同时利用线性搜索确定可靠步长,并配合GAE估计优势函数;同时介绍TRPO的改进算法PPO,包括PPO-Penalty和PPO-Clip两种形式
2025-10-31 20:41:01
1195
原创 (六)策略梯度算法 and Actor-Critic 框架
介绍基于策略(policy-base)的算法基础,同时介绍Actor-Critic 这种结合value-base和policy-base两种方法的算法框架
2025-10-28 22:15:36
799
原创 (五)DQN——开启深度强化学习
之前所讲的各种强化学习算法,如 Q-learning 等,大多是以矩阵的方式建立了一张存储每个状态下所有动作QQQ值的表格(一般叫 Q table),但用表格存储动作价值只适用于:环境的状态和动作均离散,且空间较小时,试想一下:当状态 or 动作连续,或者空间大,此时表格记录显得捉襟见肘。但聪明的你想到:函数拟合(function approximation)!即将这个复杂的Q table视作数据,使用一个参数化的函数QθQ_\thetaQθ来拟合这些数据。很显然这是一种近似方式。
2025-10-20 22:14:54
917
原创 (四)强化学习RL——时序差分算法
介绍强化学习中求解 MDP 中价值函数的时序差分算法,主要是 Sarsa 和 Q-learning 两种策略。
2025-10-14 20:11:01
453
原创 (二)马尔可夫决策过程(MDP)
马尔可夫决策过程(MDP)是强化学习的理论基础,用于建模智能体与环境交互的问题。分别介绍MRP、MDP等的概念,最后引出求解MDP中价值函数的几种算法
2025-10-14 20:07:52
1353
原创 解决springboot报错! check …MySQL server ...for the right syntax to use near ‘order‘ at line 1
数据库的表我命名成:order,然后我在Mybatis的注解里写的select语句如下,这样生成的SQL语句其实语法不正确,犯了愚蠢的错误,哎....,大家引以为鉴。解决方法:可以把数据库的表名改成非SQL关键字的,同时代码里涉及到该表的SQL重新改就好啦!是数据库SQL的关键字。
2024-04-07 19:37:54
341
1
原创 npm报错:Invalid response body while trying to fetch https://xxx/:EPERM: operation not permitted, open
主要是权限不足的问题,以管理员身份身份运行cmd即可。
2024-02-22 16:21:26
12797
3
原创 npm 错误:request to https://registry.npm.taobao.org/ failed, reason: certificate has expired
从报错信息不难看出:以前经常使用的淘宝镜像https://registry.npm.taobao.org/的证书过期了,就是该域名的备案证书过期了。查看registry字段值,如果当前配置的镜像就是旧的淘宝镜像,就需要更改。既然淘宝已经换了新域名,那就将原先配置的npm镜像源更改就好了。
2024-02-22 16:00:38
3061
2
原创 Vue创建项目Error: command failed: npm install --loglevel error --legacy-peer-deps
一开始往下只看到错误信息:Error: command failed: npm install --loglevel error --legacy-peer-deps,但报错信息前文有提示了,这里有两个:
2024-01-17 15:50:36
1779
1
原创 Oracle19c下载安装和配置教程
首先,感谢谢谢前人、前辈们对Oracle数据库安装等相关事项的记录,我承认安装时确实小心翼翼、战战兢兢的哈哈哈,这里也建议各位读者安装前能做好准备工作:大致了解流程如何以免手忙脚乱、了解版本信息是否和设备匹配、以及用好度娘。很幸运我一次装成功,特此记录一下(部分图片来自网图)Oracle19下载安装和配置教程...
2022-04-03 23:22:27
48227
35
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅