z樾-CSDN博客

原创 Basiliksk-增量编译

首次编译，时间比较长，但是增量编译只需要编译这个模块，编译时间会大大减少。第一个参数不进行全量编译，第二个参数指定而外（自定义）模块。我们构造了自定义模块之后。1.不再是全量编译；两个参数都需要被使用。

2025-12-30 21:48:22 200

原创 Basilisk-故障注入和通信

功率约束下的单星优化调度：涉及了一个非常好的奖励密度函数，通过预测未来的奖励密度，进而优化策略能够保存更多能量应对未来某个时间段内的成像任务，进而获得更高的奖励；

2025-12-08 17:35:46 169

原创 BSK-RL：航天器规划与调度环境

））是一个用于构建环境的 Python 包主要针对航天器任务问题的。它建在，一个模块化且高速的航天器仿真框架，使仿真环境高保真且计算高效（前面的文章已经介绍）。BSK-RL 还包含一系列工具和用于处理这些环境的示例。

2025-12-06 11:41:03 387

执行脚本，和上面的区别不大，基本构造逻辑都是先实例化sim，然后基于此构建进程，构建任务，创建模块，然后添加模块到任务中；具体介绍了一个模块包括什么函数，self.init(), reset(),update() 以及他们的执行时机。创建独立消息，正如图中所示有时候我们单元测试某些模块需要一个独立消息作为输入，而不是依靠其他模块给出；图中添加了消息订阅机制，m2会订阅m1的输出，m1也会订阅m2的输出，构成了一个回环；分成单元测试和集成测试（应对单模块，和多模块之间的组装）一些参数设置，优先级等等；

2025-12-05 21:23:00 840

原创 Basilisk-Install章节

文章摘要：本文详细介绍了Basilisk软件框架的编译构建过程，重点解析了conanfile.py的作用机制。当protobuf库出现编译报错时，需要降级进行全量编译，此时INTER和OPnv参数决定编译范围。在Windows环境下，buildProject=True时会根据.sln文件执行完整构建流程。文章还对比了增量编译与全量编译的区别，指出.sln文件作为构建蓝图的关键作用。最后提到通过升级VS成功解决__search报错问题，并介绍了通过pip安装预编译版本的优势，可避免繁琐的编译过程。

2025-12-05 15:41:31 656

原创 BSK-RL environment

2025-12-03 18:32:20 176

原创 PettingZoo 学习

继上上周和上周对TorchRL和BenchMARL的学习之后，基本了解相关库的实际操作；本周开启MARL环境PettingZoo的学习，该环境库类似SARL下的Gym；对于MARL，该库给了两种形式：AEC和Parallel；

2025-12-01 22:41:49 283

原创 TorchRL-编写DDPG损失函数

它属于AC算法，网络结构如下；对于这种连续动作空间，单纯使用value网络难以应对，此时如果加上actor，让其先行输出一个确定性动作，之后再根据动作和状态进行value评估；根据TorchRL的封装，DDPGLoss不仅包括损失函数，实际上整个DDPG算法都被包含在内；什么是DDPG，深度确定性策略，深度指的是NN，确定性指的是策略；value的不断拟合，将会使得policy也朝着目标前进；将算法封装进了loss模块，提升了可替代性；在不断的交替更新过程中，两个网络都将收敛。本小节将基于DDPG来编写；

2025-11-27 10:44:18 147

原创 Reinforcement Learning: An Overview 之MARL部分

内容主要涉及博弈理论，MARL最优目标定义，算法；我们使用MARL求解某个问题，首先需要确定，这是一个什么类型的环境，进而选定算法去求解；不同算法针对不同的博弈环境会引入相应的技巧解决其中又博弈理论带来的问题。

2025-11-26 22:17:37 1097

原创 TorchRL-多任务环境

重点：可以如果输入数据部分相同格式，可以共享shared前面的层，后续seq上不同的输出头；形成的网络如果碰到不适配的数据会skip掉；

2025-11-24 22:44:34 294

原创 TorchRL-MADDPG

此外，还跟以前一样，说明ENV不仅包括了基本simulator和transforms，这些元数据描述了执行过程中可能出现的情况。为了提高效率，TorchRL 对环境规范的要求相当严格，但您可以轻松检查您的环境规范是否足够。将done和terminated扩展到group而不再是全局，因为后面的V需要能被正确识别是否是done;其实就是对环境做上层的包装。根据参数构造分布，采样动作。构造原始网络得到分布参数。就是说智能体被分组了；可以看到分组的map;这段和之前的描述无区别。add噪声，增加探索；

2025-11-24 22:12:36 391

原创 TorchRL-模型导出

整个逻辑线路比较清晰，关于导入的包，像Module,seq等都属于tensordict;其他的一些包大部分数据torchrl;

2025-11-24 20:17:18 337

原创 TorchRL-ReplyBuffer

维度数据位置内存 (作为 Python 对象)内存 (作为连续张量)磁盘/文件系统形状要求无限制(最灵活)严格一致严格一致采样效率低最高高 (但有磁盘I/O)

2025-11-23 21:16:00 130

原创 BenchMARL-前置TorchRL11

依靠TensorDictModule的封装，网络能够指导自己要读取tensordict中的什么数据；已经要写入到tensordict这个字典中什么数据；done和trucated以及terminated的区别。

2025-11-23 20:08:35 158

原创 BenchMARL-前置TorchRL10

本文介绍了基于TORCHRL的多智能体强化学习(PPO)教程，重点讲解了VMAS多机器人模拟器的使用方法和MARL架构设计。教程详细说明了如何通过TensorDict处理多智能体数据，区分共享和特有参数，并阐述了MAPPO和IPPO两种方法的优缺点。文章还涵盖了环境元数据规范、策略定制三步法、价值网络设计以及训练流程中的数据收集和损失函数计算。尽管涉及多智能体场景，但整个代码框架保持了良好的封装性，使编写流程与单智能体情况基本一致。教程最后讨论了fork操作与GPU的关系，以及根目录下next目录的具体含义

2025-11-22 20:51:11 643

原创 BenchMARL-前置TorchRL9

Introduction to TorchRL TORCHRL 简介整个库如下：模块化的两种形式：组件可以重用；组件之间相互独立；

2025-11-21 20:05:03 326

原创 BenchMARL-前置TorchRL8

这节涉及到了自定义环境模块，和之前的gym还是存在一定区别首先是环境状态：有状态：环境本身会记录状态，我们只需要给出动作就行无状态：相当于一个函数，给出输入和动作，给出输出区别：教程结构：这些函数还是必须存在的；有时候可能需要接受一些参数，也就是start的参数；否则，调用gen_params动作和状态空间，初始化参数生成方法：改造环境

2025-11-21 17:14:58 147

原创 BenchMARL-前置TorchRL7

为什么会用到大量CPU，其实可以看到这里的环境或者simulator是在CPU上面运行，即使你看到的这段话是在告诉你：“别指望设个cuda就能加速 Gym 的物理计算，它还是得回 CPU 跑。除非你用的是 Isaac Gym 或 Brax 这种专门的 GPU 环境库。

2025-11-20 17:53:42 419

原创 BenchMARL-前置TorchRL6

从代码来看，无论是环境，策略，收集器和buffer，损失函数和优化器，日志记录器，训练模块整体都非常清晰；最后输出视频。

2025-11-20 15:27:35 758

原创 BenchMARL-前置TorchRL5

logger相当于接收器，负责接收所有数据，不论是scalar还是videorecoder传的pixel数据；库提供了多种日志记录器，其中wandb和tensorboard是用的最多的，对于我个人而言；并且，库也对这些API进行了统一，也就是接口的统一；对于录制视频先对初始环境设置，可以输出视频帧。这一节的内容是关于如何记录训练的信息。

2025-11-20 10:10:32 390

原创 DQN 和 DDQN

因此，常见方法就是用函数拟合，而NN具有强大的表达能力，能够拟合非线性函数，因此用NN来表示一个函数Q。利用NN来替代Q-Learning的表格法，引入了神经网络拟合表格数据，很显然这是一种近似方法，目标网络，确保了逼近目标不会一直改变，不然如果两个Q都在变，训练非常不稳定，很难拟合；因此先固定TD里面的Qw-，再去更新外面的Qw，间隔一段时间再更新Qw-;如果动作离散，可以只输入s,然后输出a - value 再max。由于状态空间连续，再用表格已经无法记录了；如果动作连续，那就输入s,a，输出标量。

2025-11-20 10:09:48 257

原创 PPO算法

TRPO算法通过约束策略更新的幅度（信任区域和KL散度限制）来稳定训练，但其计算过程复杂。PPO作为改进版简化了实现，通过参数裁剪（clip）直接限制新旧策略参数的变化范围，避免策略突变。相比TRPO依赖惩罚项调整，PPO的裁剪机制更直接有效，在保证训练稳定性的同时提高了计算效率。

2025-11-19 21:31:52 358

原创 BenchMARL-前置TorchRL4

这一节的教程还是比较简单的，主要介绍了数据收集器和buffer；两者关系是collertor收集的数据存在buffer中，用来训练。如果是on-policy也就没有buffer了，是否还需要collector不是必要的，但是可以利用collector去收集，然后反复更新网络为什么可以反复用：如果collector收集数据，即使是跨episode的可以用来更新？因为策略并没有改变？

2025-11-19 20:32:43 314

原创 BenchMARL-前置TorchRL3

本文介绍了TorchRL框架中强化学习训练的实现方式。TorchRL借鉴PyTorch的传统监督学习范式，使用专门设计的损失模块来优化模型，实现策略执行与训练的分离。以DDPG算法为例，展示了如何通过Actor和ValueOperator网络构建损失模块，并利用rollout生成训练数据。该方法通过字典形式返回多个可微分损失值，支持同时优化多个网络。同时介绍了目标网络参数更新机制（SoftUpdate/HardUpdate），强调这些算法创新主要体现在新的优化策略而非网络架构上。整体训练流程与传统深度学习相

2025-11-19 16:56:31 521

原创 BenchMARL-前置TorchRL2

TensorDict Module模块类似TensorDict,不过表示策略和值函数的模块也执行相同操作。核心很简单：将标准Module封装在一个类中；rollout执行上面是先创建module，然后传入policy，但是需要提供一些参数，in/out_keys但是包装器可以实现再次封装就是NN作为一个module用来构建policy，常见的是CNN和MLP；原来是从观测空间到动作空间的确定性映射现在是观测空间到参数空间的映射参数空间：假如是正态分布，那就对应均值和方差；输出两个参数然后据此形成分布；然

2025-11-18 19:54:42 1172

原创矩阵LU分解：定义、计算与应用

指将一个 ( n\times n ) 的矩阵 ( A ) 分解为：A = LU其中( L )（lower triangular matrix）是。

2025-11-18 11:23:20 314

原创 BenchMARL-前置TorchRL1

可以理解为转成了标准的mdp形式的存储数据，可以看到文档中所说，将根目录下的next导入到下一步操作中，也就是s_t = s_t+1；也就是说，如果想要使用环境，需要将gym等环境库先装了，TorchRL只是做一个上层包装器器的作用。环境 API，以及模拟后端（例如）的中央枢纽。就是说我采样步数到了但是环境也没有终止 not done，仅仅只是后续我停止采样了；和之前的库不一样的是，该库使用的是torchDict，更加清晰，便于管理；结果并不影响，只是很多时候我们用的是r_t来理解；

2025-11-17 22:47:45 825

原创 Energy-Efficient Satellite joint Computation and Communication

本文研究了卫星通信中考虑功率放大器的无线资源联合优化问题，提出了SHIELD和Sat2C两种算法。SHIELD算法结合Dijkstra和贪婪算法，利用次模函数约束路由选择；Sat2C算法则在路由基础上优化资源分配和任务卸载。研究重点考虑了功放子系统和数据尺寸对系统性能的影响，并指出现有CPU处理能力限制了卫星任务处理效率。未来研究方向包括部分卸载优化、网络建模改进和多目标优化，建议采用GNN建模网络拓扑，并重点解决大数据环境下卫星处理能力受限的问题。

2025-10-08 22:37:41 327

原创 RL Course by David Silver

本文摘要介绍了强化学习的基础概念与应用。第一部分区分了基于已知/未知环境模型的强化学习与规划方法，指出模型未知时需要交互学习，已知时可直接计算优化策略。第二部分阐释了马尔可夫决策过程(MDP)作为强化学习环境建模的核心地位，并以资源调度为例展示了如何构建时序环境数据用于训练。第三部分简要提及动态规划在策略评估中的应用。全文通过理论框架与代码示例相结合的方式，呈现了强化学习从基础概念到实践应用的关键知识点。

2025-09-22 16:57:43 289

原创 RL知识回顾

衡量交互过程中数据的分布，如果两个策略交互展示出来的数据分布一致可以认为策略相同；从数据角度来看，就是最优化数据分布；总结监督学习认为数据独立同分布，RL认为数据分布本身都是就存在2种随机性质。因此，学习过程RL将面临更加混沌的环境，学习难度也因此增加。

2025-09-20 21:28:35 292

原创 python语法记录

句柄之后，传的是先执行后的返回值，而不是传入这个函数；

2025-08-26 16:25:06 146

原创 RL实战指南：从需求到优化的全流程解析

本文探讨了强化学习（RL）应用的系统化流程和关键考量。首先需评估RL适用性，明确数据源和场景边界。在技术设计上，要重点关注动作空间的合法性和完备性、状态空间的任务相关性（区分POMDP/MDP）、以及回报函数的稀疏奖励设计。算法选择涉及策略网络优化方法，训练阶段需调参并持续优化性能。建议从热门平台快速上手，通过训练曲线分析超参数合理性，逐步增加任务目标。可借助MuJoCo等仿真环境，并对比不同算法效果。整个流程强调耐心迭代，必要时采用并行化加速训练。

2025-08-24 10:10:31 635

原创 Tensorboard可视化

2025-08-23 09:37:07 228

原创 AI实验管理神器：WandB全功能解析

本文介绍了基于WandB的实验跟踪与自动化调参工具的核心功能。主要包括：1）支持多账号登录和版本关联；2）交互式表格支持图像、音频等多媒体数据展示；3）自动化模型调参和并行训练能力；4）实验跟踪通过wandb.log记录指标，实现跨设备分布式训练；5）可视化Case分析功能简化大规模数据展示；6）Sweep功能实现超参数自动优化，支持多机分布式调参。系统通过sweep_id实现任务绑定，可在不同设备上继续运行，并提供完善的版本管理和指标追踪功能。

2025-08-22 22:36:50 315

原创直方图解读：光影色彩的秘密

文章摘要：直方图通过X轴（暗到亮）和Y轴（像素密度）展示图片颜色分布。浅蓝色集中在右侧表明天空和海洋较明亮，整体曝光正常。高光影响中间偏右较亮区域，白色色阶调控最亮部分（直方图最右端），两者共同调节图片亮度层次。

2025-08-21 15:47:34 204

原创深度学习核心技巧与实战指南

摘要：本文总结了深度学习中多项关键技术要点。1) Tensor存储机制通过共享storage减少内存占用；2) argparse模块实现命令行参数解析；3) BN层实现通道归一化，训练/验证阶段采用不同统计方式；4) Dataset和DataLoader构建数据管道；5) 优化器原理及Adam等改进算法；6) 网络结构调整方法；7) 混合精度训练实现；8) 损失函数理论基础；9) 训练日志管理；10) TensorBoard可视化工具；11) 图像插值方法比较。重点阐述了各技术的实现原理和典型应用场景，涵盖

2025-08-20 12:08:43 581

原创学术论文-写作全攻略

这篇内容总结了学术论文写作的核心要点，主要涉及Results、Discussion、Conclusion等部分的写作技巧。重点包括：Results部分要避免机械描述数据，而应突出对比、趋势和关键特征；Discussion要注意多角度分析原因，并展示研究的独特性；Conclusion需简明总结全文。此外还介绍了Abstract、Introduction、Method等部分的写作原则，强调逻辑清晰、观点明确的重要性，并提供了图表制作、段落结构等实用建议。

2025-08-17 13:34:48 530

原创强化学习实战：从环境到部署

本文摘要：文章系统介绍了强化学习（RL）的框架与应用。首先分析了传统控制方案与RL范式的区别，指出RL通过策略函数解决序列决策问题。接着详细阐述了RL的核心要素：环境搭建（区分model-free和model-based方法）、奖励函数设计（包括稀疏奖励和探索利用平衡）、智能体构建（基于值和策略的方法）以及训练部署流程。特别强调了神经网络在策略逼近中的作用，并比较了不同RL算法的特点。最后指出policy-based方法存在收敛问题和梯度噪声等挑战，而value-based方法适用于离散空间决策。全文为理解

2025-08-16 17:06:43 383

原创 SCI论文绘图：尺寸与字体设置全攻略

科研绘图规范及期刊图片要求科研绘图时，数据可通过直接复制或导入方式处理，并支持全选或按需选择数据列。SCI绘图需遵循期刊规范：单栏图宽8-9cm，双栏图宽17-18cm，高度不超过24cm；分辨率线图建议600-1200dpi，照片300-600dpi。文字大小需适配，标题推荐10磅，坐标标签8磅，图例6-8磅，字体建议Arial或Times New Roman。优先使用矢量格式，确保颜色对比清晰。不同期刊要求各异（如Nature单栏8.7cm，Science宽限19cm），投稿前需查阅具体指南。

2025-08-14 14:15:55 7913

空空如也

Ubuntu18.04关机异常