![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习阅读笔记
文章平均质量分 61
强化学习阅读笔记
西西弗的小蚂蚁
不要辜负这美好的时光!
展开
-
第 4 章 动态规划算法
本节分别对这两个过程进行详细介绍。4.3.1 策略评估策略评估这一过程用来计算一个策略的状态价值函数 主要是当前状态的价值4.3.2 策略提升。原创 2024-04-25 09:47:19 · 190 阅读 · 0 评论 -
Effectively Learning Spatial Indexes with a Support for Updates
本文工作迈出了使用机器学习构建更好的r树的第一步,相信它将为未来的工作打开几个方向:1)进一步探索和完善状态、动作和奖励信号的设计;该模型要能够和R树的实际情况结合起来,实现子树划分以及子节点的分裂,当然这种考虑在其他的索引树中也存在。开发了基于强化学习(RL)的模型,以决定在构建和更新r树时如何选择用于插入的子树以及如何分裂节点,而不是依赖于r树及其变体目前使用的手工设计的启发式规则。本文提出了一种完全不同的方法,使用ML技术来构建更好的r树,而不需要改变传统r树的结构或查询处理算法。原创 2023-02-24 15:55:28 · 54 阅读 · 0 评论 -
DBA bandits: Self-driving index tuning underad-hoc, analytical workloads with safety guarantees
综合经验结果表明,与最先进的商业调优工具相比,移动和临时工作负载的速度可提高75%,静态工作负载的速度可提高28%,与深度RL替代方案相比,速度可提高58%。自动化物理数据库设计一直是数据库研究的长期兴趣,这是由于优化结构所带来的显著性能提升。尽管取得了重大进展,但当今的大多数商业解决方案都是高度手动的,需要数据库管理员(dba)离线调用,dba需要识别并提供有代表性的培训工作负载。MABs 采取行动(选择指标)来最大化累积回报,权衡探索未尝试的行动和利用迄今观察到的回报最大化的行动(见图1)。原创 2023-03-20 13:59:19 · 60 阅读 · 0 评论 -
Buffer Pool Aware Query Scheduling via Deep Reinforcement Learning
调度策略被表示为一个函数Q(St, At),它输出在缓冲状态St上执行操作At(即接下来要执行的查询)的Q值,给定状态St和操作At, Q值Q(St, At)是通过将未来缓冲状态可获得的最大奖励与实现当前缓冲状态的奖励相加来计算的,从而通过潜在的未来奖励有效地影响当前调度决策。我们的系统模型如图1所示。query比较多的情况下,这种调度的效果才明显,所以一般情况下的查询,可能使用强化学习实现调度方法,效果并不一定好。从实验结果看出,查询时间,命中率都是这查询query数量的增加,比其他方法,效果上都要好。原创 2023-03-20 11:34:59 · 43 阅读 · 0 评论 -
Efficiently Learning Spatial Indices
在超过1亿个点的真实数据集上的实验表明,ELSI可以在不影响查询效率的情况下,一致地减少四种不同的学习空间索引的构建时间(最多减少两个数量级)。由于学习空间索引所需的模型训练成本很高,因此通过模型训练和再训练的方式在大数据集上高效地构建和重建已学习的空间索引是一项挑战。方法scorer的关键元素是两个ffn(图4中的组件2),一个估计方法P的索引构建成本,用CB(·)表示,另一个估计方法P构建索引的查询成本,用CQ(·)表示。这些方法并不构建新的索引类型,而是构建(或找到)类似于输入数据集D的小数据集。原创 2023-07-05 14:06:56 · 101 阅读 · 0 评论 -
Palette: Towards Multi-source Model Selection and Ensemble for Reuse
虽然源任务和目标任务应该足够相似,但任务相关度的计算通常需要额外的源训练数据存储和领域专家的大量工作,这在许多应用中是不切实际的。给定一组源模型,旨在选择一个源模型子集,并开发一个对目标任务达到最佳性能的集成模型。在MAB中,每个模型都可以看作是一个bandit的手臂,观察到的模型评估结果表明扮演一个想得到的bandit的奖励,目标是快速识别具有最高奖励的arms。总结来说:论文就是提出了一个集成方法,该模型主要借鉴了多臂老虎机的方式,选择最佳的模型。这里面的细节,比如每个模型选择的loss等。原创 2022-09-15 16:00:30 · 18 阅读 · 0 评论 -
DeepThermal: Combustion Optimization forThermal Power Generating Units Using Offline Reinforcement
MORE使用一种新颖的限制性探索方案,从预测可靠性(通过模型灵敏度衡量)和作为OOD样本的可能性(通过行为数据中的数据密度衡量)的角度,量化了不完美模拟器带来的风险。在量化了不完美模拟器带来的风险后,MORE引入了一种混合训练策略,以区分从限制性探索中获得的正负模拟样本的影响。DeepThermal的核心是一个新的基于模型的离线强化学习框架,称为MORE,它能够利用记录的数据集和不完美的模拟器来学习安全约束下的策略,并大大超越行为策略。我们开发了一个新的数据驱动的AI系统,即DeepThermal,原创 2022-09-08 10:42:31 · 177 阅读 · 0 评论 -
Model-Free Control for Distributed Stream Data Processing using Deep Reinforcement Learning(VLDB18)
为了验证和评估所提出的框架,基于广泛使用的DSDPS Apache Storm实现了该框架,并在连续查询、日志流处理和单词计数(流版本)3个具有代表性的应用上进行了测试。在本文中,我们重点研究了通用分布式流数据处理系统(dsdps),该系统可以在实时或接近实时的情况下处理大规模的无界连续数据流。DSDPS中的一个基本问题是调度问题(即,将工作负载分配给工人/机器),其目标是最小化平均端到端元组处理时间。DSDPS中的一个基本问题是调度问题(即,将工作负载分配给工人/机器),其目标是最小化平均元组处理时间。.原创 2022-08-17 10:22:11 · 57 阅读 · 0 评论 -
动手学强化学习(二)
本书之前介绍的 Q-learning、DQN 及 DQN 改进算法都是基于价值(value-based)的方法,其中 Q-learning 是处理有限状态的算法,而 DQN 可以用来解决连续状态的问题。在强化学习中,除了基于值函数的方法,还有一支非常经典的方法,那就是基于策略(policy-based)的方法。对比两者,基于值函数的方法主要是学习值函数,然后根据值函数导出一个策略,学习过程中并不存在一个显式的策略;而基于策略的方法则是直接显式地学习一个目标策略。......原创 2022-08-14 23:31:16 · 581 阅读 · 0 评论 -
动手学强化学习(一)
3.4. 马尔可夫决策过程如果有一个外界的“刺激”来共同改变这个随机过程,就有了。原创 2022-08-14 15:46:06 · 2005 阅读 · 1 评论 -
神经网络压缩(李宏毅)
算法上实现网络压缩 原创 2022-06-18 16:08:33 · 80 阅读 · 0 评论 -
强化学习1(李宏毅)
强化学习概述 其中网络根据 输入选择不同的网络结构 CNN ,RNN ,或者transformer 在return最大的约束下,找到Actor中network的参数,满足这个约束,使得R越大越好。但是network训练过程中存在大量的随机性,导致训练困难。RL类似GAN,可以将Actor看成GAN中的Generater;把Reward和环境 看成discriminater。RL只能通过梯度法优化Actor,但是不能优化reward 网络policy Gradient 奖励r存在正负性,将这样的轨迹作为原创 2022-06-18 15:06:19 · 173 阅读 · 0 评论 -
强化学习(周博磊)
有环境模型,直接和环境模型交互 模仿学习 RL分布式系统原创 2022-06-16 20:35:31 · 80 阅读 · 0 评论 -
强化学习二(周博磊)
在大规模状态下的价值函数求解过程 强化学习训练不稳定性的因素 策略优化基础 策略优化进阶原创 2022-06-16 19:30:32 · 67 阅读 · 0 评论 -
强化学习补充笔记(周博磊)
第一章 概述部分 Model-based 主要学习环境转移变量 第二章 马尔科夫决策过程 第三课 无模型的价值函数估计和控制 在模型无关中,agent和environment 不直接交互,主要原因在于 状态转移矩阵(或者状态函数)太复杂了 通过收集agent和environment之间的交互轨迹数据,来评估状态价值函数 TD介于MC和DP之间 无模型的价值函数估计和控制 下...原创 2022-06-16 16:10:03 · 64 阅读 · 0 评论 -
第 5 章 深度 Q 网络
传统的强化学习算法会使用表格的形式存储状态价值函数 V (s) 或动作价值函数 Q(s, a),但是这样的方法存在很大的局限性。深度 Q 网络(Deep Q-network, DQN)是指基于深度学习的 Q 学习算法,主要结合了价值函数近似与神经网络技术,并采用目标网络和经历回放的方法进行网络的训练。在 Q 学习中,我们使用表格来存储每个状态 s 下采取动作 a 获得的奖励,即状态-动作值函数 Q(s, a)。然而,这种方法在状态量巨大甚至是连续的任务中,会遇到维度灾难问题,往往是不可行的。因此,深度 Q原创 2022-06-13 17:16:14 · 656 阅读 · 0 评论 -
第 4 章 策略梯度
策略一般记作 π。假设我们使用深度学习来做强化学习,策略就是一个网络。网络里面有一些参数,我们用 θ 来代表 π 的参数。 在强化学习里面,除了环境与演员以外,还有奖励函数 我们可以根据 θ 算出某一个轨迹 τ 出现的概率,接下来计算 τ 的总奖励。总奖励使用 τ 出现的概率进行加权,对所有的 τ 进行求和,就是期望值。给定一个参数,我们可以计算期望值为 注意,一般策略梯度(policy gradient, PG)采样的数据只会用一次。我们采样这些数据,然后用这些数据更新参数,再丢掉这些数原创 2022-06-13 16:52:22 · 64 阅读 · 0 评论 -
第3章 表格型方法
表格型方法(tabular method) 来讲解如何使用基于价值的方法求解强化学习问题 马尔可夫决策过程也是强化学习里面一个非常基本的学习框架。状态、动作、状态转移概率和奖励 (S、 A、 P、 R),这 4 个合集就构成了强化学习马尔可夫决策过程的四元组,后面也可能会再加上折扣因子构成五元组。 3.2 Q 表格 3.3 免模型预测在无法获取马尔可夫决策过程的模型情况下,我们可以通过蒙特卡洛方法和时序差分方法来估计某个给定策略的价值。3.3.1 蒙特卡洛策略评估蒙特卡洛方法使用经验平均回报(原创 2022-06-13 16:25:19 · 139 阅读 · 0 评论 -
第 2 章 马尔可夫决策过程
策略评估智能体与环境之间的交互,智能体得到环境的状态后,它会采取动作,并把这个采取的动作返还给环境。环境得到智能体的动作后,它会进入下一个状态,把下一个状态传给智能体。 1. 马尔可夫奖励过程马尔可夫奖励过程(Markov reward process, MRP) 是马尔可夫链加上奖励函数。在马尔可夫奖励过程中,状态转移矩阵和状态都与马尔可夫链一样,只是多了奖励函数(reward function) 。奖励函数 R 是一个期望,表示当我们到达某一个状态的时候,可以获得多大的奖励。这里另外定义了折扣因子原创 2022-06-13 11:48:32 · 1983 阅读 · 0 评论 -
强化学习 第 1 章 绪论
1.1 强化学习概述强化学习(reinforcement learning, RL) 讨论的问题是智能体(agent)怎么在复杂、不确定的环境(environment)里面去最大化它能获得的奖励。如图 1.1 所示,强化学习由两部分组成:智能体和环境。在强化学习过程中,智能体与环境一直在交互。智能体在环境里面获取某个状态后,它会利用该状态输出一个动作(action),这个动作也称为决策(decision)。然后这个动作会在环境之中被执行,环境会根据智能体采取的动作,输出下一个状态以及当前这个动作带来的奖原创 2022-06-12 20:25:30 · 333 阅读 · 0 评论