Pointerformer: Deep Reinforced Multi-Pointer Transformer for the Traveling Salesman Problem阅读

在这里插入图片描述

Pointerformer 应用由 多头自注意力和前馈层组成的多个注意力层对输入节点进行编码 以获得每个节点的嵌入。然后,采用具有单头注意力的多指针网络根据由增强上下文嵌入组成的查询顺序解码。这里,增强的上下文嵌入不仅包含有关实例本身和要访问的节点的信息,还包含有关已访问的节点的信息。解决方案是根据解码器给出的概率分布在每一步选择一个节点来生成的,所有访问过的节点都被屏蔽,使其概率为 0。最后,使用改进的REINFORCE 算法对所提出的 Pointerformer进行训练,该算法基于在策略梯度的共享基线上,同时统一一批实例的均值和方差。

初始嵌入(Initial Embedding) 是指在自然语言处理中,将文本数据转换为数值表示的过程。这个过程通常包括以下几个步骤:

分词(Tokenization):将文本分割成单词或子词(subwords)的序列。
建立词汇表(Vocabulary):统计文本中所有不同的单词或子词,并为它们分配唯一的整数索引。
编码(Encoding):将文本中的每个单词或子词替换为其在词汇表中对应的整数索引。
嵌入(Embedding):使用预训练的词向量模型(如Word2Vec、GloVe等)将整数索引转换为固定大小的向量表示。

基于可逆残差网络逆残差网络是一种用于处理可逆操作的神经网络结构,它在反向传播过程中无需存储所有层的激活值,而是直接通过前向和后向传播来计算梯度,从而节省了内存的编码器用于表示当前状态,并作为查询与待选择节点的嵌入进行交互。随着更多节点的选择,上下文嵌入不断更新,直到获得可行路径。在编码过程中,使用了可逆残差网络(Reversible Residual Network, RRNN)来显著减少内存消耗。具体来说,在编码器中采用了可逆残差网络代替了标准的Transformer结构,通过这种方式,可以在不牺牲性能的前提下大幅度减少内存占用。

基于多指针网络的解码器 是用于对输入的TSP实例进行编码后,根据一个由增强型上下文嵌入组成的查询,依次解码生成解决方案的部分。在解码过程中,使用了多指针网络,它结合了单头自注意机制来处理每个待选择节点与查询之间的交互,从而得到下一个节点的概率分布。这个概率分布是通过将查询和节点的嵌入通过线性投影变换到相同的维度上,然后使用点积和归一化操作来计算的。最终输出概率向量是通过softmax函数得到的。

基于多指针网络的解码器 是用于对输入的TSP实例进行编码后,根据一个由增强型上下文嵌入组成的查询,依次解码生成解决方案的部分。在解码过程中,使用了多指针网络,它结合了单头自注意机制来处理每个待选择节点与查询之间的交互,从而得到下一个节点的概率分布。这个概率分布是通过将查询和节点的嵌入通过线性投影变换到相同的维度上,然后使用点积和归一化操作来计算的。最终输出概率向量是通过softmax函数得到的。

Multi-Pointer 是一种基于多指针Transformer的端到端深度强化学习方法,用于解决大规模旅行商问题(TSP)。它通过采用可逆残差网络(Reversible Residual Network, RRNN)作为编码器的一部分和多指针网络(multi-pointer network)作为解码器的核心,有效控制了编码器-解码器架构的内存消耗。具体来说,在多指针网络中,使用了单头自注意机制来处理每个待选择节点与查询之间的交互,从而得到下一个节点的概率分布。这个概率分布是通过将查询和节点的嵌入通过线性投影变换到相同的维度上,然后使用点积和归一化操作来计算的。最终输出概率向量是通过softmax函数得到的。

Context Embedding 用于表示当前状态,并作为查询与待选择节点的嵌入进行交互。在Pointerformer算法中,它被用于编码器和解码器中。在编码器中,Context Embedding包含关于实例本身以及待访问节点的信息,还包括已访问节点的信息。在解码器中,Context Embedding被用作一个查询,与所有待访问节点的嵌入进行交互以输出它们的概率分布。此外,还提出了增强型上下文嵌入(Enhanced Context Embedding),它在计算过程中考虑了路径长度信息和动态更新的最后访问节点信息。

归一化层(Normalization Layer) 通常在神经网络中用于调整输入数据的分布,使其具有零均值和单位方差。在文本片段中提到的“Enhanced Context Embedding”中使用了增强型的上下文嵌入,其中可能包括归一化层来确保每个节点的特征向量具有相同的尺度,这对于训练过程中的梯度下降和参数更新是有帮助的。此外,在改进的REINFORCE算法中,提到了变异一致性归一化机制,这可能涉及到对不同实例之间成本差异的归一化处理,以便于模型能够更有效地收敛。

  • 10
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值