Sequential Classification-Based Optimization for Direct Policy Search

论文信息

题目:Sequential Classification-Based Optimization for Direct Policy Search
期刊会议:the Thirty-First AAAI Conference on Artificial Intelligence
年份:17
论文地址:论文链接
代码:

内容

动机

策略优化任务通常非常复杂,涉及许多局部优化,在这种情况下,无导数优化可能很有用。许多无导数优化方法都是基于模型的,主要包括两个步骤:

  • 从当前模型中采样解决方案,
  • 从采样解决方案及其评估值中更新模型。

典型的无梯度方法:EA以及相似的方法交叉熵方法,但是这些方法较少的理论支持 。除此之外, optimistic optimization methods以及贝叶斯优化有很好的理论支持但是可拓展性不强(应用于不同目标函数)

动机:Classification-based optimization是最近研究的基于模型的无导数优化方法的理论框架,Racos算法在各种应用中表现出出色的性能,为直接策略搜索提供了非常好的优化工具

  • 但是与其他批处理的算法一样存在低效率步骤,它仅在对一批solution进行采样和评估之后才更新其模型,即使该模型没有必要对不好的solution进行采样。同时,在直接策略搜索中,通常必须对策略进行顺序评估,而不是同时进行评估
  • 因此,原始批处理方式的Racos对于直接策略搜索可能无效,所以该论文提出了SRacos,在通过利用历史样本对每个solution进行抽样之后,更新模型。(提出了三种利用历史样本的替换策略)

核心算法

RACOS

  • 该算法不同于其他无梯度优化算法,RACOS的采样区域通过简单的分类器学习。算法步骤大致分为:从解空间中均匀采样得到 S 0 S_{0} S0,然后得到solution-value元组集合 B 0 B_{0} B0,从行3到行11寻找记录best-so-far solution,具体为
    • 将旧的元组集 B t − 1 B _{t-1} Bt1拆分为由最佳k个解决方案的元组组成的正集 B t + B ^{+ }_{t} Bt+,剩下的为 B t − B ^{- }_{t} Bt
    • 通过一个循环采样m个解,通过学习算法C得到假设 h i h_{i} hi,用于从所有负解中随机选择正解,然后再从 D h i D_{h_{i}} Dhi U X U_{X} UX中均匀采样分别乘以权重系数 λ \lambda λ, ( 1 − λ ) (1-\lambda) (1λ),得到新的采样点加到集合中
  • RACOS是一种批处理的算法:该模型依赖于算法的 B t + B ^{+ }_{t} Bt+ B t − B ^{- }_{t} Bt在行7,并且在迭代循环(行6至10)中,这两个集合不变。也就是说,即使该分布不够好,也从相同的分布生成采样区域。批处理方式采样可能会产生冗余,并且不适合用于直接策略搜索之类的顺序评估问题。因此,我们提出了SRacos。
    在这里插入图片描述
    SRacos:算法中重复部分在下图中未展示。
  • 行7到行8与Racos一样,
    在这里插入图片描述

核心图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

创新

在Racos基础上进行改良,该算法显示出更好的收敛速度和更强的可扩展性

  • 8
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
回答: Sequential Self-Attention是一种用于顺序推荐系统的模型。传统的顺序推荐系统模型如马尔可夫链、循环神经网络和自我注意,都将交互历史视为一个有顺序的序列,但没有考虑交互物品之间的时间间隔。而Sequential Self-Attention则在序列模型框架中考虑了交互物品之间的时间间隔,以探索不同时间间隔对预测下一个物品的影响。这个模型被称为TiSASRec,它不仅考虑了物品的绝对位置,还考虑了序列中物品之间的时间间隔。研究表明,TiSASRec在不同的设置下,以及在稀疏和密集数据集上,都表现出很好的性能,并且优于其他先进的序列模型。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [论文笔记 Time Interval Aware Self-Attention for Sequential Recommendation](https://blog.csdn.net/weixin_39129550/article/details/105375259)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* [Time Interval Aware Self-Attention for Sequential Recommendation](https://blog.csdn.net/buduxiyi2/article/details/116146096)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

pinn山里娃

原创不易请多多支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值