zz_ytj
码龄8年
关注
提问 私信
  • 博客:9,733
    9,733
    总访问量
  • 10
    原创
  • 1,231,755
    排名
  • 8
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2016-07-22
博客简介:

zz_ytj的博客

查看详细资料
个人成就
  • 获得13次点赞
  • 内容获得4次评论
  • 获得25次收藏
创作历程
  • 7篇
    2020年
  • 3篇
    2019年
成就勋章
TA的专栏
  • 笔记
    1篇
  • MaxEnt RL
    1篇
  • Inverse RL
    1篇
  • Off-Policy Evaluation
    1篇
  • policy gradient
    1篇
  • meta learning
    4篇
  • imitation learning
    1篇
  • continual learning
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

181人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

论文笔记--Unsupervised (Meta) RL

无监督的(元)强化学习总结DIAYNKey IdeaFormulationDIAYN全名‘Diversity Is All You Need: Learning skills without a reward function’。关键词:learning skills without reward function; pretrained skills for downstream tasks...
原创
发布博客 2020.08.21 ·
713 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

Off-policy evaluation的一些知识点

最近做试验中遇到用off-policy数据估计策略性能提升的问题,估计的准确性直接影响到后面对这些数据的利用。然后就一不小心看到了一个RL的未接触过得领域----Off-Policy Evaluation(OPE)。发现有篇综述介绍的很详细,并且给出了benchmark,所以简单记录一下这个领域的一些概念和当前研究的进展及其分类,详细了解转[PAPER]。OPE的定义首先是off-policy evaluation问题的定义,直接来说就是利用behavior policy πb\pi_bπb​采样的数据
原创
发布博客 2020.07.30 ·
1941 阅读 ·
3 点赞 ·
2 评论 ·
3 收藏

policy gradient推导和问题

Policy Gradient的推导以及存在的问题Policy Gradient TheoryPolicy Gradient Theory策略梯度法广泛应用在model-free类型的强化学习算法中,其基本思想是通过梯度迭代方法对策略动作分布π(a∣s)\pi(a|s)π(a∣s)更新,使其达到最优策略π∗(a∣s)\pi^*(a|s)π∗(a∣s)。最优策略满足条件:Vπ∗(s)≥Vπ(s...
原创
发布博客 2020.04.06 ·
333 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

MaxEnt框架下的RL

MaxEnt的一些推导和理解策略概率分布最大熵的角度采样轨迹分布匹配的角度MaxEnt RL框架下Bellman等式的推导策略概率分布最大熵的角度从策略概率分布最大熵的角度理解,我们对最优策略的要求不仅仅是最大化长期奖励η(π)=Eτ[∑t=0∞γtr(st,at)]\eta(\pi)=\mathbb{E}_{\tau}\left[\sum_{t=0}^\infty\gamma^tr(s_t,...
原创
发布博客 2020.04.06 ·
523 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

论文笔记--Meta-Inverse RL with Probabilistic Context Variables

PEMIRL:Probabilistic Embeddings for Meta-Inverse RL核心思想方法IRL基本框架AIRLProbabilistic Context VariableMI regularization over Latent Variable总结核心思想其实这篇论文就就会meta learning with latent variable和IRL框架的结合。IRL...
原创
发布博客 2020.02.21 ·
721 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

论文笔记--InfoGAIL

InfoGAIL:Interpretable Imitation Learning from Visual DemonstrationMotivationMethodFormulationGAIL:InfoGAIL总结Motivation模仿学习将强化学习(RL)转换成一个监督学习(SL)\mathbf{(SL)}(SL)问题。通常来说imitation learning学习一个策略来模仿专家...
原创
发布博客 2020.02.19 ·
1582 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

opt课程笔记

最优化课程笔记基本的约束和非约束集合优化一维搜索方法Golden section method(only uses fff)Fibonacci method(only uses fff)Bisection method(only uses f′f'f′)Newton's method(only uses fff and f′′f''f′′)Secant method(only uses f′f'f...
原创
发布博客 2020.01.06 ·
371 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

论文笔记--Meta Learning for Better RL

online meta-critic learning for off-policy actor-critic methods核心思想FormulationBi-level OptimizationMeta-critic Design总结核心思想一般的元学习是用来在任务分布上学习,通过以往的大量任务训练过程来总结出经验指导分布中未曾见过的新任务的学习。然而这篇论文关注的是一般的single-t...
原创
发布博客 2019.12.23 ·
514 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

论文笔记--Guided Meta-Policy Search

论文笔记-- Guided Meta-policy Search--nips19核心思想Guided Meta-Policy Search元学习阶段(二阶段)专家策略学习阶段(一阶段)一点思考核心思想传统的元强化学习方法在meta-training过程中需要大量的数据,因为很多是on-policy的。在许多问题中很难满足。本文的思想是在元学习阶段(learn a RL procedure;外循...
原创
发布博客 2019.12.13 ·
828 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

论文笔记--Meta learning with implicit gradient

Meta-learning with implicit gradients--nips19论文思想Few-shot case formulaImplicit MAML AlgorithmPractical Algorithm论文思想原始的MAML算法一个很大的挑战是外循环(元更新)需要通过对内循环(梯度自适应)过程进行求导,一般就要求存储和计算高阶导数。这篇论文的核心是利用隐微分方法,求解过程...
原创
发布博客 2019.12.12 ·
2163 阅读 ·
2 点赞 ·
1 评论 ·
10 收藏