关于量子强化学习:论文
Variational_Quantum_Circuits_for_Deep_Reinforcement_Learning:变分量子电路在深度强化学习中的应用
论文主要内容:将经典深度强化学习算法(如经验重放和目标网络)重塑为变分量子电路的表示
摘要
当前最先进的机器学习方法基于经典冯·诺伊曼计算架构,并在许多工业和学术领域得到广泛应用。随着量子计算的发展,研究人员和技术巨头们试图为机器学习任务设计新的量子电路。然而,由于深度量子电路的不可模拟性,现有的量子计算平台很难模拟经典深度学习模型或问题。因此,有必要为噪声中等规模量子 (NISQ) 设备设计可行的量子算法。这项工作探索了深度强化学习中的变分量子电路。具体来说,我们将经典深度强化学习算法(如经验重放和目标网络)重塑为变分量子电路的表示。此外,我们使用一种量子信息编码方案,与经典神经网络相比,减少了模型参数的数量。据我们所知,这项工作是变分量子电路首次证明可以近似深度 Q 值函数,用于具有经验重放和目标网络的决策和策略选择强化学习。此外,我们的变分量子电路可以部署在许多近期的 NISQ 机器上。
中等规模量子 (NISQ) 机器
Mitarai 等人设计了在具有噪声容限的设备上近似量子算法、电路和编码方案 [20]。具体来说,这项工作利用了量子计算中量子纠缠 [20]、[21] 的优势,将模型大小减少到一个本质上很小的数字,并利用迭代优化将量子电路深度减少到一个实际的低值,从而使混合量子-经典算法能够在现有的量子平台上实现,这些平台被称为噪声中等规模量子 (NISQ) 机器 [21]
通过利用量子计算参数数量显著较少的优势 [21],NISQ 上的变分量子电路成功地在经典基准数据集上实现了标准分类和聚类算法 [20]、[23]、[24]。此外,还可以使用量子电路在 NISQ 机器上实现新的深度学习算法,例如生成对抗网络 [25] (GAN)
由于强化学习 (RL) 和深度强化学习 (DRL) 是两种复杂的顺序决策系统范式,并满足在不确定性下自动学习策略的要求,因此我们的工作侧重于在 NISQ 计算上增强 DRL。这指的是智能体与环境交互以获取背景知识并根据相应的策略进行决策 [26]、[27]。我们提出了一种新型的变分量子电路,该电路可以在当前的 NISQ 平台上实现,并与经典计算机上的迭代参数优化相结合,以解决电路深度挑战。此外,我们将变分量子电路推广到标准 DRL 的动作值函数近似 [27]、[28]。
变分量子电路
变分量子电路(Variational Quantum Circuit, VQC)是一种混合经典-量子算法,结合了经典计算和量子计算的优势。它被认为是当前噪声易干扰量子设备(NISQ)时代的一种实用量子算法。
变分量子电路的主要特点如下:
1. 混合架构:由一个经典的优化部分和一个可编程的量子电路部分组成。经典部分负责优化参数,量子部分执行计算。
2. 可调参数:量子电路使用一些可调参数,这些参数通过经典优化算法进行调整优化。
3. 反复迭代:通过多轮迭代,不断优化参数,使量子电路输出逼近所需的目标态或结果。
4. 适合NISQ设备:相比完全量子算法,变分量子电路对噪声和误差更加鲁棒,在当前的NISQ设备上表现更好。
强化学习
强化学习是一种机器学习范式,其中智能体与一个环境 E 在一系列离散时间步长内进行交互 [26]。在每个时间步长 t,智能体接收一个状态或观察 st,然后根据其策略 π 从一组可能的动作 A 中选择一个动作 at。策略是一个将状态 st 映射到动作 at 的函数。通常,策略可以是随机的,这意味着给定一个状态 s,输出动作可以是一个概率分布。执行动作 at 后,智能体接收下一个时间步长的状态 st+1 和一个标量奖励 rt。该过程一直持续到智能体达到终止状态。 一次回合被定义为智能体从一个随机选择的初始状态开始,并遵循上述过程直到终止状态。
定义 Rt = PTt′=t γ t′−trt′ 为从时间步长 t 开始的总折扣回报,其中 γ 是位于 (0, 1] 之间的折扣因子。原则上,γ 由调查者提供,以控制未来奖励如何给予决策函数。当考虑一个大的 γ 时,无论折扣率如何,智能体都会考虑未来奖励。至于一个小的 γ,智能体可以快速忽略几个时间步长内的未来奖励。智能体的目标是最大化每个状态 st 在训练过程中的预期回报。
动作值函数或 Q 值函数 Qπ(s, a) = E[Rt|st = s, a] 是基于策略 π 在状态 s 中选择动作 a 的预期回报。最佳动作值函数 Q∗(s, a) = maxπ Qπ(s, a) 在所有可能的策略中给出最大的动作值。状态 s 在策略 π 下的值 V π(s) = E [Rt|st = s] 是智能体遵循策略 π 从状态 s 开始的预期回报。在强化学习任务中,经典的时序差分 (TD) 误差 [26] 用于更新值函数
A. Q-学习
Q-学习 [26] 是一种无模型的强化学习算法。在学习过程开始之前,Q 被赋予一个任意的固定值(由程序员选择)。然后,在每个时间步长,智能体选择一个动作 at(例如,使用来自 Q 的 ϵ-贪婪策略),观察一个奖励 rt,并进入一个新的状态 st+1(可能依赖于前一个状态 st 和所选的动作),然后 Q 使用学习率 α 更新。Q-学习是一个离策略学习器,因为它使用观察到的奖励 rt 和下一个状态 st+1 对所有可能的动作 a 的最大奖励 maxa Q (st+1, a) 来更新其 Q 值。更新是根据基准公式进行的:
Q (st, at)←Q (st, at)
α h rt +γ max a Q (st+1, a)−Q (st, at) i . (1)
B. 状态-动作-奖励-状态-动作 (SARSA)
一个 SARSA [26] 智能体与环境交互并根据执行的动作更新策略。Q 值表示在状态 st 中采取动作 at 后在下一个时间步长可能获得的奖励,加上来自下一个状态-动作观察的折扣未来奖励,并通过时序差分和从状态-动作对 (st, at) 到状态-动作对 (st+1, at+1) 的转换进行更新,学习率 α 调整如下:
Q (st, at) ← Q (st, at) +α [rt + γ Q (st+1, at+1) − Q (st, at)] . (2)
C. 深度 Q-学习
动作值函数 Q(s, a) 可以用一个二维表明确表示,该表包含 s × a 个条目,即可能状态的数量乘以可能动作的数量。然而,当状态 空间或动作空间很大或甚至是连续的时,表格方法不可行。在这种情况下,动作值函数用函数逼近器(如神经网络 [27]、[28])表示。这种基于神经网络的强化学习称为深度强化学习 (DRL)。
使用神经网络作为函数逼近器来表示 Q 值函数的研究已经进行了广泛 [27]、[28],并在许多任务中取得了成功,例如玩电子游戏。在这种情况下,动作值函数 Q(s, a; θ) 由 θ 参数化,θ 可以通过来自其他机器学习任务的优化方法的迭代系列来推导。最简单的形式是 Q-learning。在这种情况下,目标是直接通过最小化均方误差 (MSE) 损失函数来近似最佳动作值函数 Q∗(s, a):
L(θ)=E[(rt +γ max a′ Q(st+1, a′; θ−)−Q(st, at; θ))2]. (3)
在这里,预测是 Q(st, at; θ),其中 θ 是策略网络的参数,目标是 rt + γ maxa′ Q(st+1, a′; θ−),其中 θ− 是目标网络的参数,st+1 是在状态 st 执行动作 at 后遇到的状态。当使用非线性逼近器(如神经网络)表示动作值函数时,DRL 中的损失函数通常很难收敛,并且可能会发散 [28]。有几个可能的罪魁祸首。当状态或观察沿着轨迹相互关联时,从而违反了样本需要独立同分布 (IID) 的假设,Q 函数会急剧变化并大规模地改变策略。此外,动作值 Q 和目标值 rt + γ maxa′ Q(st+1, a′) 之间的相关性可能很大。与监督学习不同,监督学习中目标被给出并且是恒定的,DRL 的设置允许目标随 Q(s, a) 变化,导致 Q(s, a) 追逐一个非平稳目标。
深度 Q 学习 (DQL) 或深度 Q 网络 (DQN) [28] 通过两种机制解决了这些问题:
经验重放:为了执行经验重放,智能体存储遇到的每个转换。转换以以下形式的元组存储:在每个时间步长 t,(st, at, rt, st+1)。为了更新 Q 学习参数,从重放记忆中随机抽取一批经验,然后使用以下 MSE 损失函数执行梯度下降:
L(θ) = E[(rt +γ maxa′ Q(st+1, a′; θ−)−Q(st, at; θ))2],
其中,损失函数是在从重放记忆中抽取的批次上计算的。经验重放的关键重要性是降低训练 Q 函数的输入之间的相关性。
目标网络:θ− 是目标网络的参数,并且这些参数仅在有限时间步长内更新。与动作值函数相比,这种设置有助于稳定 Q 值函数的训练,因为目标相对稳定。
两个强化学习的例子,用于测试和验证
A. 冻结湖
我们在这项工作中考虑的第一个测试环境是冻结湖,这是 openAI Gym [29] 中的一个简单迷宫环境。在这个环境中,站在冻结湖上的智能体被期望从起点 (S) 到达目标点 (G)(见图 1)。由于湖并非全部冻结,沿途有几个洞 (H),智能体应该学会避免踩到这些洞的位置,否则智能体将获得一个大的负奖励,并且回合将结束。此外,智能体还被期望采取最短的可能路径。为了完成这项任务,我们在智能体的每次移动上都设置了一个小的负奖励。在这里,我们演示了冻结湖环境的三个不同配置,如图 1 所示,用于训练。
冻结湖环境映射如下:
观察:所有时间步长的观察记录。
动作:动作空间中有四个动作 LEFT、DOWN、RIGHT、UP。如何在变分量子电路中选择动作将在第 VI-A 节中描述。
奖励:在这个环境中,成功达到目标的奖励为 +1.0,失败任务的奖励为 -0.2,即踩进其中一个洞。此外,为了鼓励智能体采取最短路径,每走一步也有 -0.01 的奖励。
B. 认知无线电
在第二个测试环境中,我们在现实世界应用中研究了所提出的变分量子-DQN 或 -DQL (VQ-DQN; VQ-DQL) 智能体。我们考虑认知无线电实验。在这种情况下,智能体被期望在每个时间步长选择一个未被占用或未被干扰的信道(见图 2)。如果智能体成功了,那么它将获得 +1 奖励,否则它将获得 -1 奖励。请注意,如果智能体收集了三个失败的选项或智能体玩了超过 100 步,则回合将结束。这项任务对于现代无线多信道环境至关重要,因为信道可能会被占用或受到干扰。
为了进行这项工作的演示,我们假设智能体可以选择 n 个可能的信道,并且信道的变化遵循一个简单的周期性模式,每个完整周期包含 n 个时间步长。在这里,我们演示了认知无线电环境的三个不同配置,如图 3 所示。
认知无线电环境映射如下:
观察:ns3 [30] 统计数据,带有无线电信道容量,具有自定义信道数 = n。(例如,状态 [1 0 0 0] 表示 n = 4 个信道,并且主用户在第 1 个信道上。)
动作:在 n 个信道中选择一个信道,供次级用户访问无线电信道。如何选择认知无线电场景中的动作将在第 VI-A 节中描述。
奖励:与主用户发生碰撞时为 -1;无碰撞时为 +1。测试环境中奖励列表如表 1 所示。智能体可以达到最高 100 分。
变分量子电路和深度 Q 学习
变分量子电路是一种混合量子-经典方法,它利用了量子计算和经典计算的优势。它是一种量子电路,具有可调参数,这些参数可以通过经典计算机以迭代方式优化。这些参数可以被视为人工神经网络中的权重。变分量子电路方法已被证明在电路深度和抗噪声方面具有灵活性 [31]–[33]。因此,即使 NISQ 设备中仍然缺乏量子纠错和容错量子计算,由变分量子电路驱动的量子机器学习算法也可以规避现有量子设备中存在的复杂量子错误。
基于变分量子电路的 DRL 及其相关组件的概述。强化学习智能体包括一个量子部分和一个经典部分。变分量子电路的量子部分采用两组参数并输出测量结果,这些测量结果决定了可能的动作。经典计算机的经典部分执行优化过程并计算新的参数集应该是哪些。图 5 显示了 DRL 的通用量子电路架构(量子电路的详细描述将在后面介绍),VQ-DQL 或 VQ-DQN 的算法如算法 1 所示。我们使用相同的电路架构构建两组电路参数。主电路参数每步更新一次,而目标电路参数每 20 步更新一次。对于经验重放,重放记忆设置为冻结湖测试环境的长度为 80,认知无线电测试环境的长度为 1000,训练批次的大小为 5。优化过程需要计算量子测量的期望值的梯度,这可以通过相同的电路架构和略有不同的参数分别进行 [37]。此外,我们使用计算基编码方案。在我们考虑的冻结湖环境 [29] 中,总共有 16 个状态。因此,需要 4 个量子比特来表示所有状态(见图 5)。在认知无线电实验中,我们应用了类似的方法和电路架构,并使用不同数量的量子比特来匹配可能的信道数量(见图 6)。此外,[38] 对不同的编码方案进行了讨论。我们将讨论计算基编码的概念以及冻结湖和认知无线电问题的量子电路。
本文探索了用于深度强化学习的变分量子电路。具体来说,我们将经典深度强化学习算法(如经验回放和目标网络)重塑为变分量子电路的表示形式。此外,我们使用了一种量子信息编码方案,与经典神经网络相比,可以减少模型参数的数量。据我们所知,这项工作是首次证明变分量子电路可以近似用于决策和策略选择强化学习的深度Q值函数,并具有经验回放和目标网络。此外,我们的变分量子电路可以部署在许多近期的NISQ机器上。
主要贡献:
首次将变分量子电路应用于深度强化学习,并证明了其在近似深度Q值函数方面的可行性。
设计了一种量子信息编码方案,与经典神经网络相比,可以减少模型参数的数量。
在冻结湖和认知无线电环境中测试了所提出的变分量子深度Q学习(VQ-DQL)算法,并展示了其在性能和内存消耗方面的优势。
总结
文章提出了一种对于深度Q学习算法的改进方式,通过差分量子电路来对算法进行优化,通过使用量子电路对强化学习中的动作部分进行优化,来完成传统计算机中需要大量计算取期望的部分。通过测量量子的状态判断行动的策略,减少模型参数的数量。
下一步方向
深度Q学习原理和论文的冷冻湖实验中量子电路的搭建和其具体的实现原理