读书笔记
文章平均质量分 84
西邮彭于晏
热爱学习,热爱生活
展开
-
DeepACO: Neural-enhanced Ant Systems for Combinatorial Optimization代码阅读
用于训练模型,创建神经网络模型,创建优化器,加载验证集数据,创建动画器,在训练开始前进行一次验证,将验证结果保存到列表中,记录训练总时间,开始训练,进行一次训练,记录训练时间,进行一次验证,将验证结果保存到列表中,输出训练总时间,输出每个epoch的验证结果,保存训练好的模型。首先,将模型设置为评估模式,获取启发式向量,创建ACO对象,进行采样,运行ACO算法,计算基线,获取采样成本的最小值和ACO算法的最小成本,返回结果。:用于训练一个epoch,遍历每个step,生成随机实例,生成图数据,训练实例。原创 2024-07-20 11:48:17 · 664 阅读 · 0 评论 -
《白话强化学习与python》笔记——第八章DQN 算法族
DQN算法。DQN,即Deep Q-Network,是一种结合了深度学习和Q学习的算法。原创 2024-04-14 20:59:13 · 769 阅读 · 0 评论 -
《白话强化学习与python》笔记——第七章Gym一一不要钱的试验场
总的来说,Gym为强化学习研究者和爱好者提供了一个功能强大且易于使用的实验平台。无论是学术研究还是个人兴趣,都可以通过Gym来探索和实践强化学习的最新进展。,它提供了一个标准化的接口来创建、管理和测试强化学习算法。Gym(全称为Gymnasium)是。原创 2024-04-14 20:39:16 · 473 阅读 · 0 评论 -
《白话强化学习与python》笔记——第五章时间分差
时间差分是一种用来估计一个策略的价值函数的方法,它结合了蒙特卡洛和动态规划算法的思想。时序差分方法和蒙特卡洛的相似之处在于可以从样本数据中学习,不需要事先知道环境;和动态规划的相似之处在于根据贝尔曼方程的思想,利用后续状态的价值估计来更新当前状态的价值估计。原创 2024-04-02 20:05:07 · 807 阅读 · 0 评论 -
《白话强化学习与python》笔记——第六章深度学习(二)
LSTM的核心思想是在传统的RNN结构中引入了一个复杂的单元称为“记忆块”(memory block),该记忆块包含三个主要部分:输入门(input gate)、遗忘门(forget gate)和输出门(output gate)。与传统的神经网络不同,RNN能够利用内部的状态(记忆)来处理序列中的每一个元素,并把前面的信息传递到后续的计算中。这是CNN的核心组成部分,它使用一个小型的权重矩阵(称为卷积核或滤波器)来扫描整个输入体积并生成特征图(feature map),特征图表示特定特征的存在情况。原创 2024-04-04 21:30:10 · 1224 阅读 · 0 评论 -
《白话强化学习与python》笔记——第六章深度学习(一)
在一些浅层的神经网络架构中,线性回归可以被用作网络的最后一层,用于生成最终的预测输出。例如,在一个用于房价预测的网络中,最后一层可能是一个简单的线性回归层,它将前一层的非线性变换映射到最终的房价估计。原创 2024-04-04 19:45:37 · 992 阅读 · 0 评论 -
《白话强化学习与python》笔记——第六章深度学习(三)
为了解决这个问题,正则化被引入作为一种约束手段,通过在损失函数中添加一个与模型参数(权重)相关的惩罚项,来限制模型的复杂度。正则化的核心思想是在损失函数中加入一个与模型参数(权重)相关的项,这通常会导致模型参数的值更加接近于零,从而减少模型的复杂度。正则化是机器学习中一个重要的技术,它通过合理的数学原理和技巧,帮助模型在复杂的数据中找到平衡点,既能够捕捉数据的重要特征,又不至于陷入数据的局部细节和噪声中。正则化有助于模型在减小训练误差的同时,保持模型的简洁性,避免模型对训练数据过度拟合。原创 2024-04-14 12:09:50 · 963 阅读 · 0 评论 -
《白话强化学习与python》笔记——第三章动态规划
在本章中,认识了动态规划。可以看出,这种方法的局限性还是非常明显的。我们已经反复强调,动态规划要求研究对象满足MDP,因此,在实际工作中,这种方法的应用并不广泛,我在编写程序的时候,一般也不使用动态规划的方法计算估值。作为一种非常典型的针对状态估值进行计算的方法,动态规划的思路是非常容易理解的。所以,将动态规划作为状态估值和策略优化的人门方法来学习,也是非常合适的。通过类似于递归求解的方式,逐层估算,如果每一层的估算都是准确的,就能迭代向上传递,把上面各层的各个状态的值估算准确。原创 2024-03-08 10:39:58 · 401 阅读 · 0 评论 -
《白话强化学习与python》笔记——第二章强化学习的脉络
用于预测环境中将发生什么的一套描述信息。原创 2024-03-07 21:32:10 · 855 阅读 · 0 评论 -
《白话强化学习与python》笔记——第四章蒙特卡洛法
本章介绍的是蒙特卡罗法的估值方法与优化方法。蒙特卡罗法有很多可取之处,毕竟比起动态规划法,它不要求一个完整的Model(或者环境满足MDP),也就是说,它对环境的适应性更强。每一次Episode结束,蒙特卡罗法都会对每个状态的值进行估算。随着试探次数的增加,这个估值将越来越客观、准确。原创 2024-03-11 21:16:32 · 883 阅读 · 0 评论