笔记
文章平均质量分 72
Xxwl.
道阻且长。
展开
-
Github下载任意版本的VsCode
固定部分+commit id+VSCode-win32-x64-版本号.zip。原创 2023-08-17 20:16:02 · 2299 阅读 · 0 评论 -
Git 传文件到github
git操作原创 2022-12-04 16:00:47 · 195 阅读 · 0 评论 -
【自学】C++Primer 变量和基本类型
C++ 变量及基本类型原创 2022-11-15 16:02:23 · 355 阅读 · 0 评论 -
Pytorch 深度强化学习模型训练速度慢
Pytorch 深度强化学习模型训练速度慢原创 2022-06-18 18:08:19 · 2937 阅读 · 0 评论 -
MODRL/D-AM论文笔记
MODRL/D-AM论文总结模型流程图模型训练流程图:结合NSGA-II流程图:一、问题的定义1.VRPTW定义一个vrptw类:class VRPTW(boject)class VRPTW(object):2.问题的状态定义StateVRPTW类class StateVRPTW(NamedTuple):3.问题数据集 VRPTWDataSet定义VRPTWDataSet类class VRPTWDataset(Dataset):二、模型1.Mod原创 2021-11-12 17:39:37 · 2239 阅读 · 1 评论 -
莫烦pytho之Pytorch 基础学习笔记
Pytorch 基础Activation Function (激励函数)假设神经网络为一个式子:y=Wx,其中y为神经网络输出值,W为神经网络参数,x为神经网络输入值;可知y为线性方程设激励函数为AF,AF可以将y激励成为一个非线性方程,且AF必须要满足可微分才能进行反向传递。则神经网络的输出可以表示为 y=(AF)Wx。比如使用了 relu 激励函数, 如果此时 Wx 的结果是1, y 还将是1, 不过 Wx 为-1的时候, y 不再是-1, 而会是0.常用的激励函数有:relu(),sigmo原创 2021-08-06 21:40:56 · 647 阅读 · 0 评论 -
莫烦Actor Crtic学习笔记
Actor Critic结合Policy Gradient(Actor)和Function Approximation(Critic)的方法。Actor:基于概率选取行为,Critic基于Actor选取的星期进行打分,Actor根据Critic的评分进行修改选行为的概率。优势:可以进行单步更新,比传统的PL要快 缺点:取决于 Critic 的价值判断, 但是 Critic 难收敛, 再加上 Actor 的更新, 就更难收敛。Actor 网络图:Actor网络的代码结构:class Actor(o原创 2021-08-06 20:05:13 · 978 阅读 · 0 评论 -
莫烦-强化学习
强化学习Q-Learning简单流程'''# T 就是宝藏的位置, o 是探索者的位置(主循环)伪代码:Initalize Q(s, a) arbitrarily #Q(s, a):Q表 每个状态对应的动作的Q值Repeat (for each episode): Initialize S Repeat (for each step of episode): Choose a from s using policy derived from Q (e.g原创 2021-08-06 15:51:55 · 1224 阅读 · 2 评论