雨生晴朗-CSDN博客

原创论文总结：Soft Actor-Critic (SAC)

SAC 通过结合最大熵框架、随机策略和双评论家网络，解决了 DDPG 和 TD3 在高维连续控制任务中的样本效率低和稳定性差问题。SAC 通过引入最大熵框架、随机策略和双评论家网络，解决了 DDPG 和 TD3 在高维连续控制任务中的样本效率低和稳定性差问题。：通过最大化策略熵，SAC 鼓励探索，提升策略的鲁棒性和多样性，同时保持样本效率。使用两个独立评论家网络 \(Q_1\) 和 \(Q_2\)，取最小值减少高估偏差。：输出高斯分布策略 \(\pi_{\phi}(a|s)\)，最大化熵与累积奖励。

2025-03-07 10:14:30 870

原创论文总结：Twin Delayed Deep Deterministic Policy Gradient (TD3)

TD3 通过引入 Clipped Double Q-learning、延迟策略更新和目标策略平滑，解决了 DDPG 中存在的高估偏差和方差问题，显著提升了连续控制任务的性能。其核心创新在于将双评论家网络与延迟更新结合，为深度强化学习在高维连续动作空间中的稳定性提供了有效解决方案。TD3 通过引入 Clipped Double Q-learning、延迟策略更新和目标策略平滑，解决了 DDPG 中存在的高估偏差和方差问题，显著提升了连续控制任务的性能。并裁剪，平滑值函数估计，增强鲁棒性。

2025-03-07 09:50:21 709

原创论文总结：深度确定性策略梯度算法（DDPG）

。

2025-03-07 09:27:12 1039

原创论文阅读总结：确定性策略梯度算法（Deterministic Policy Gradient Algorithms）DPG

该论文通过理论推导和实验验证，证明了确定性策略梯度算法在高维动作空间中的显著优势，为强化学习在机器人控制等领域的实际应用提供了高效解决方案。其核心思想（离策略学习、兼容函数逼近）对后续研究具有深远影响。

2025-03-07 08:57:52 760 1

原创深入浅出机器学习实战（7）-基于Python工具包-决策树

决策树是一种监督学习的模型，用于解决分类问题。整个结构由三个部分构成，包括。每个内部节点的流程相当于做了一次的if-then-else的判断。内部节点：对于每个特征的测试；叶节点：代表决策的结果。根节点：全部样本集；

2025-03-07 08:43:50 98

原创关于coppeliasim中机器人运动学的一些设置

根据我的经验，如果你只进行运动学仿真，就是你把图3所示的gravity都设置为0，或者你把机器人的各个连杆的dynamic取消，这是机器人就没有重量了，纯运动学仿真。但是你也可以将机器人关节设置为Hybrid IK mode ，如图5所示，混合模式使用的范围更广，也可以用于机器人有重量的情况下，建议选这个，要不机器人就容易散落一地。最后，如果在测试的时候明明觉得自己是对的，但是机器人的运动却不一样，那么你可以尝试把程序关掉，还不行的话，就关久一点，说不定就解决了。然后机器人就可以进行逆运动学解算了。

2024-10-16 16:00:10 1263 1

原创 coppeliasim中的针对usrset的几个好用设置

即可出现旧版本的对话框，这样可以更加方便的寻找一些常用的命令，像正逆运动学解算，碰撞检测等，还有常用的路径模块也是。该软件允许使用外部软件编辑脚本，在usrset中搜索下图所示，把自己的编辑器路径放到后面，这样每次编辑代码时，就可以直接使用编辑器，而不是软件的编辑页面。只是添加路径并不足以完成使用python脚本的目的，还需要再额外下载两个python包，一个如下图，另一个忘记了，不过在打开软件时，软件会告诉你。这样做可以增加对代码语法方面的观察以及更正，但是就缺失了功能性代码的自动补全。

2024-10-14 17:03:00 558 1

原创 python中使用pyqt实现按键长按效果

之前做过的一个界面搭建项目，需要使用到按键长按功能，当时使用的是pyqt5+QTDesigner做的界面，当时费了心思使用pyqt去实现这个功能，但是到最后的效果还是没有达到预期的效果，但是当时使用Tkinter搭建的界面居然可以直接使用按键长按的功能，心有不甘。查了资料，问了GPT，还是没有解决，就放弃了。后面在网上看到了使用C++实现了这个功能，于是努力找了一下代码，还是找到了开源的代码。后面使用GPT和自己的理解，将C++的代码成功的转为了python的代码，并且也实现了相同的按键长按功能。

2024-10-08 21:11:36 384 1

原创深入浅出机器学习实战（6）-基于Python工具包-SVM回归

这里是经过数据预处理之后获得数据集得分情况，可以看到，对于线性内核而言，数据预处理的影响并不大，而对于高斯内核而言，进不进行数据预处理所产生的结果会有天壤之别。因此，我们应该体会到数据预处理所蕴含的强大能量，后面我们也会有对于数据预处理的部分。从结果中可以看出，当采用不同的内核时，模型对于数据集的适用程度也是大不相同，线性内核可以达到70%，而高斯内核却只有20%。我们最后输出的结果是经过数据预处理和调参之后的结果，可以看到两者结合起来之后能使得我们的数据集得分空前高涨。SVM到这里就结束了。

2023-09-11 17:03:24 117

原创深入浅出机器学习实战（5）-基于Python工具包的使用-SVM2

为了方便实现可视化，我们这里只截取酒数据集中的前两个特征，从结果图中我们可以看到SVM的不同内核在分类结果上出现的差异以及决策边界的划分。此外我们还通过使用交叉验证的方法，查看了使用不同的SVM内核时对于整个数据集的分类效果。从结果中可以看出，使用高斯核的SVM分类的准确率要高于其他几种内核。从评分结果中可以看出当参数gamma越小的时候分类的准确率也越高，分类效果图中表示出当gamma越小时，决策边界就会越平滑，分类效果就越好。首先我们使用常用的酒的数据集，来简单使用一下SVM的分类方法。

2023-09-06 10:48:41 135 1

原创深入浅出机器学习实战（4）-基于Python工具包的使用-SVM1

上图是使用高斯内核得到的分类结果，可以看出与线性内核的结果比较而言，高斯内核的决策边界是一条曲线，它在努力地将分裂结果包围起来，形成一个封闭区域；高斯内核与线性内核采用了相同的决策点，这说明两者在原理上是相近的。上图是使用线性内核时出现的分类结果，可以看到分类的效果还是挺好的。清楚的分出了决策边界点。今天向大家展示一下支持向量机（SVM）的分类与回归使用。

2023-09-06 09:56:22 109 1

原创深入浅出机器学习实战（3）-基于Python工具包的使用-线性回归

上面这张图得到的回归直线中，对于数据集中的十个特征分别对应的系数尺度大小，从图中可以看出当alpha=0.1时，岭回归的系数尺度与线性回归系数尺度基本相近。对于机器学习中的线性回归，有多种实现的方式，这里第一段代码是日常中我们最常用的线性回归方式——最小二乘法线性回归，相信大家还对数学中回归直线有一定印象，下面我们一起来看看Python的实现吧！从结果中可以看出线性回归与岭回归还是有一些区别的，但不知为何使用这个数据集得出的线性回归与岭回归结果并没有太大的差别，在某些情况下，岭回归是不如线性回归的。

2023-09-03 15:31:41 151