【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

最新推荐文章于 2022-08-22 16:43:15 发布

Vajuw

最新推荐文章于 2022-08-22 16:43:15 发布

阅读量2.6k

点赞数 2

分类专栏： ML&CO 文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44363614/article/details/106208618

版权

该论文探讨了使用强化学习（RL）策略梯度方法结合指针网络解决组合优化问题，如旅行商问题（TSP）和背包问题。通过actor-critic算法，论文展示了RL在训练和优化过程中的优势，对比了抽样搜索和主动搜索策略。实验结果显示，RL预训练能显著提升性能，接近最优解，并在背包问题上优于传统启发式方法。

摘要由CSDN通过智能技术生成

目录

论文

论文

强化学习+指针网络+组合优化

一、概论

主要是用强化学习中的策略梯度方法，来计算为TSP建立的指针网络模型的参数。同时发现策略梯度+主动学习的效果更好

二、模型

参数

s：是输入的序列坐标集
$\theta$ ：网络的参数
$\pi$ ：一种策略（参数）的输出结果

公式

定义结果好坏
$\pi$ 结果出现的可能性【链式展开】
定义在 $s$ 的空间中，参数为 $\theta$ 的L的期望值

最低0.47元/天解锁文章

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
【论文笔记】NEURAL COMBINATORIAL OPTIMIZATION WITH REINFORCEMENT LEARNING

目录论文概论模型参数公式网络Critic网络论文强化学习+指针网络+组合优化概论主要是用强化学习中的策略梯度方法，来计算为TSP建立的指针网络模型的参数。同时发现策略梯度+主动学习的效果更好模型参数s：是输入的序列坐标集θ\thetaθ：网络的参数π\piπ：一种策略（参数）的输出结果公式定义结果好坏π\piπ结果出现的可能性【链式展开】定义在sss的空间中，参数为θ\thetaθ的L的期望值sss是SSS空间中的一个分布（子集），所以定义总的LLL为——期望
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。