wxxw1-CSDN博客

原创 Search on the Replay Buffer: Bridging Planning and Reinforcement Learning论文简读

这篇论文提出了一种新颖的强化学习方法，旨在将计划（planning）和强化学习（reinforcement learning）相结合，以更好地利用回放缓冲区中的经验数据，提高学习效率和样本利用率。框架介绍：论文提出了一个名为 “Search on the Replay Buffer”（SORB）的框架，通过搜索回放缓冲区中的经验样本，来选择具有高度相关性的样本进行经验回放。它在经验回放的过程中，利用样本之间的相似性和依赖关系，选择更有价值的样本序列，用于训练和更新强化学习模型。

2023-07-30 15:03:05 117

翻译非线性时间序列分析

目录序言1 我们为什么关注非线性1.1 基本概念1.2 线性时间序列1.3 非线性时间序列的例子1.4 非线性检验1.4.1 非参数检验1.4.2 参数检验1.5 练习参考文献2 单变量参数非线性模型2.1 一般的形式化表示2.1.1 概率结构2.2 门限自回归模型2.2.1 两阶段门限自回归模型2.2.2 两阶段TAR(1)模型的特征2.2.3...

2022-01-15 23:10:01 2851 4

原创移动社交网络仿真环境

移动社交网络仿真环境一，sumoreal-world vehicle trace files and commercial simulators真实的车辆跟踪文件和商业模拟器二，SNAPStanford Large Network Dataset Collection (SNAP), which is a platform for open network data sets collected and maintained by Stanford University.一个由斯坦福大学收集和维

2020-06-29 15:55:44 455

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Search on the Replay Buffer: Bridging Planning and Reinforcement Learning论文简读

翻译 非线性时间序列分析

原创 移动社交网络仿真环境

空空如也

空空如也

翻译非线性时间序列分析

原创移动社交网络仿真环境