强化学习
文章平均质量分 92
麦香猪扒饭
这个作者很懒,什么都没留下…
展开
-
Expressing Arbitrary Reward Functions as Potential-Based Advice论文阅读
Abstract在强化学习领域,结合外部的知识是个很重要的问题。基于势能的reward shaping为agent提供了指定形式的additional reward,这种做法是能保证最优策略不变的。这篇文章的主要工作是原创 2021-05-24 23:24:20 · 465 阅读 · 0 评论 -
Policy shaping and generalized update equations for semantic parsing from denotations论文阅读
Abstractsemantic parser的难点有二,其一是只提供了答案,其二是如何优化模型。为了解决这两个问题,作者提出了两个方法首先是采用policy shaping,在model搜索的过程中会更倾向于搜索语义上和文本更契合的,提供更好的监督信号。其次提出了三种不同的学习算法,加快模型的探索。Introductionsemantic parsing是将一些文本映射成一些逻辑形式或者程序。在这过程中是没有正确的label的,只有执行后的结果。所以搜索程序需要两步走,首先是搜索出候选者,然后使用这原创 2021-05-16 16:37:59 · 239 阅读 · 0 评论 -
Memory augmented policy optimization for program synthesis and semantic parsing论文阅读
Codeneural-symbolic-machines有一份pytorch实现的代码https://github.com/pcyin/pytorch_neural_symbolic_machines.git这份代码是用pytorch实现,加入了taBert,并使用MAPO做为优化。运行脚本在table下的experiment.py文件。OMP_NUM_THREADS=1 python -m \ table.experiments \ train \ seed 0 \ --cuda原创 2021-04-13 22:35:17 · 297 阅读 · 0 评论 -
Learning reward machines for partially observable reinforcement learning论文阅读
Abstract这篇文章是基于前面两篇RM文章进行的工作。Reward Machine是一种对reward function基于自动机,结构化的表示,将问题分解成多个子问题,并通过off-policy的方法进行学习。这篇文章提出了一种能够在部分可观测环境下通过经验学习RM的方法。Introduction这篇文章的方法应用场景是在partially observable MDP。前面的high-level task和multi-agent task都基于full observable的场景。Parti原创 2021-01-23 17:55:32 · 466 阅读 · 2 评论 -
MathDQN : Solving Arithmetic Word Problems via Deep Reinforcement Learning论文阅读
Abstract这篇文章是解决MWP中的arithmetic word problem,MWP的综述之前已经阅读过。Arithmetic word problem问题注重介绍。Arithemetic word problem主要有四种方法。rule-based method,这是一种基于人工特征的方法,比如WORDPRO系统就是先把问题文本转化成一种命题的形式,然后基于命题做简单的推理。Statistic-based method,统计的方法使用传统的机器学习对文本中的实体,规则和数量做识别,然后逻辑原创 2020-12-02 17:15:23 · 422 阅读 · 1 评论 -
Using reward machines for high-level task specification and decomposition论文阅读
Abstract论文完整题目是《Using reward machines for high-level task specification and decomposition in reinforcement learning》,太长了写不下。这篇论文是在《Reward Machines for Cooperative Multi-Agent Reinforcement Learning》文章之前所写的,这篇论文先提出的RM,然后《Using reward machines for high-leve原创 2020-11-30 21:13:11 · 509 阅读 · 0 评论 -
The Gap of Semantic Parsing: A Survey on Automatic Math Word Problem Solvers论文阅读
Abstract这是一篇综述论文,主要是介绍Math word problem solver的一些研究现状和主要方法。Math Word Problem一下简称MWP。首先什么数学单词问题,这类问题输入由一些文本描述组成,文本里包含了一些数字q1,q2,...,qnq_1, q_2,...,q_nq1,q2,...,qn和一个需要被求解的变量xxx。我们的目的是提取相关的数字并把这些数字映射成一些表达式,求解表达式得到解。需要solver映射...原创 2020-11-27 21:20:18 · 1325 阅读 · 0 评论 -
Reward Machines for Cooperative Multi-Agent Reinforcement Learning论文阅读
Abstract本文提出了一种使用Reward Machine作为reward function编码任务的方法。其实就是把传统的Q值使用reward Machine替代了。使用reward Machine把team-level的任务,一个团队合作的任务拆分成多个子任务,然后使用不同的agents来学习这些子任务。最后把所有求得的最优policy集合一起。 并且每一个agent学习不同的子任务时,只会根据自己的local state(自己看到的环境)和其他agent的抽象表示。既然有提到拆分,那拆分出来的原创 2020-11-24 17:19:35 · 1252 阅读 · 0 评论