(2)强化学习分类

xyh@华子

于 2023-08-28 18:24:37 发布

阅读量368

点赞数

分类专栏：强化学习文章标签：数据挖掘机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44921938/article/details/132544758

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、强化学习分类

1.从学习方式分类：

基于价值的方法：Q学习，学习状态-动作价值函数。
基于策略的方法：策略梯度等，直接学习策略函数。
Actor-Critic方法：同时学习价值函数和策略函数。

2.从策略类型分类：

确定性策略：如DDPG，输出确定动作。
随机策略：输出动作概率分布。

3.从环境类型分类：

表格型方法：如Q学习，用于离散小状态空间。
函数逼近方法：如DQN，适用于大状态空间。

4.从决策时间分类：

单步决策：每次决策只关注当前状态。
多步决策：关注当前决策的长期影响。

5.从环境类型分类：

基于模型：先学习环境模型，然后规划。
无模型：直接与环境交互学习

二、各类强化学习分类优缺点

1.学习方式分类：

优点：可以根据任务采用不同学习方式。
缺点：部分方法表示能力有限。
分类依据：考虑如何表达喝优化策略或价值函数。
算法：基于价值的(Q学习),基于策略的(策略梯度),Actor-Critic(A2C)

2.策略类型分类：

优点：匹配适合得策略表示。
缺点：某一类型表示不够灵活。
分类依据：考虑动作空间类型。
算法：确定性策略(DDPG),随机策略(PPO)

3.环境类型分类：

优点：使用合适的状态表示。
缺点：表格型或函数逼近各有局限。
分类依据：考虑状态空间复杂度。
算法：表格型(Q学习),函数逼近(DQN)

4.决策时间分类：

好处：匹配任务的短长期需求。
缺点：单步或多步思考都可能非最优。
分类依据：考虑决策的时间范围。
算法：单步决策,多步决策(蒙特卡洛树搜索)

5.从环境类型分类：

优点：可利用环境模型进行规划。
缺点：对模型准确性敏感。
分类依据：考虑是否可以建模
算法：基于模型(Dyna),无模型

三、各类强化学习在推荐系统中优缺点

1、学习方式分类：

（1）基于价值的好处：基于价值可以建模用户购买转换率,收益等长期价值指标。
（2）基于价值的缺点：基于价值方法在商品数量非常大时,计算每种商品的Q值非常耗时;。
（3）基于策略的好处：基于策略可以直接学会用户-商品映射关系,快速匹配推荐。
（4）基于策略的缺点：基于策略方法需要收集大量用户反馈来训练策略,收敛速度慢。
实例:商品数量少时,使用Q学习快速找到每个用户的最优推荐;商品数量多达百万级时,策略学习可以直接输出个性化推荐策略。

2.从策略类型分类

（1）基于确定性策略的好处：可以仅推荐一个最匹配的商品,简单直接。
（2）基于确定性策略的缺点：限制了商品曝光量,可能错过其他潜在购买。
（3）基于随机性策略的好处：随机策略可以增加推荐多样性,提供多个备选。
（4）基于随机性策略的缺点：无法确定哪件商品最合适用户。
实例：针对新用户确定推荐热销产品;针对活跃用户采用随机策略增加推荐商品种类。

3.环境类型分类

（1）表格型的优点：可以记录老用户所有特征。
（2）表格型的缺点：无法扩展到千万用户等级。
（3）函数逼近的优点：可以处理数十亿商品和用户。
（4）函数逼近的缺点：需要设计复杂的深度神经网络结构。
实例:少量老用户采用表格记忆购买特征;大量新用户采用基于深度学习的推荐算法。

4.决策时间分类

（1）多步决策的优点：可以最大化用户长期生命价值。
（2）多步决策的缺点：需要计算用户的历史购买轨迹,计算量大。
（3）单步的优点：单步决策可以实时快速匹配推荐。
（4）单步缺点：容易推荐用户短期内感兴趣但重复度高的商品。
实例:考虑新用户的多步购买意向;针对老用户使用实时单步决策快速匹配。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
(2)强化学习分类

强化学习与推荐系统
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。