一、强化学习分类
1.从学习方式分类:
- 基于价值的方法:Q学习,学习状态-动作价值函数。
- 基于策略的方法:策略梯度等,直接学习策略函数。
- Actor-Critic方法:同时学习价值函数和策略函数。
2.从策略类型分类:
- 确定性策略:如DDPG,输出确定动作。
- 随机策略:输出动作概率分布。
3.从环境类型分类:
- 表格型方法:如Q学习,用于离散小状态空间。
- 函数逼近方法:如DQN,适用于大状态空间。
4.从决策时间分类:
- 单步决策:每次决策只关注当前状态。
- 多步决策:关注当前决策的长期影响。
5.从环境类型分类:
- 基于模型:先学习环境模型,然后规划。
- 无模型:直接与环境交互学习
二、各类强化学习分类优缺点
1.学习方式分类:
- 优点:可以根据任务采用不同学习方式。
- 缺点:部分方法表示能力有限。
- 分类依据:考虑如何表达喝优化策略或价值函数。
- 算法:基于价值的(Q学习),基于策略的(策略梯度),Actor-Critic(A2C)
2.策略类型分类:
- 优点:匹配适合得策略表示。
- 缺点:某一类型表示不够灵活。
- 分类依据:考虑动作空间类型。
- 算法:确定性策略(DDPG),随机策略(PPO)
3.环境类型分类:
- 优点:使用合适的状态表示。
- 缺点:表格型或函数逼近各有局限。
- 分类依据:考虑状态空间复杂度。
- 算法:表格型(Q学习),函数逼近(DQN)
4.决策时间分类:
- 好处:匹配任务的短长期需求。
- 缺点:单步或多步思考都可能非最优。
- 分类依据:考虑决策的时间范围。
- 算法:单步决策,多步决策(蒙特卡洛树搜索)
5.从环境类型分类:
- 优点:可利用环境模型进行规划。
- 缺点:对模型准确性敏感。
- 分类依据:考虑是否可以建模
- 算法:基于模型(Dyna),无模型
三、各类强化学习在推荐系统中优缺点
1、学习方式分类:
-
(1)基于价值的好处:基于价值可以建模用户购买转换率,收益等长期价值指标。
-
(2)基于价值的缺点:基于价值方法在商品数量非常大时,计算每种商品的Q值非常耗时;。
-
(3)基于策略的好处:基于策略可以直接学会用户-商品映射关系,快速匹配推荐。
-
(4)基于策略的缺点:基于策略方法需要收集大量用户反馈来训练策略,收敛速度慢。
-
实例:商品数量少时,使用Q学习快速找到每个用户的最优推荐;商品数量多达百万级时,策略学习可以直接输出个性化推荐策略。
2.从策略类型分类
- (1)基于确定性策略的好处:可以仅推荐一个最匹配的商品,简单直接。
- (2)基于确定性策略的缺点:限制了商品曝光量,可能错过其他潜在购买。
- (3)基于随机性策略的好处:随机策略可以增加推荐多样性,提供多个备选。
- (4)基于随机性策略的缺点:无法确定哪件商品最合适用户。
- 实例:针对新用户确定推荐热销产品;针对活跃用户采用随机策略增加推荐商品种类。
3.环境类型分类
- (1)表格型的优点:可以记录老用户所有特征。
- (2)表格型的缺点:无法扩展到千万用户等级。
- (3)函数逼近的优点:可以处理数十亿商品和用户。
- (4)函数逼近的缺点:需要设计复杂的深度神经网络结构。
- 实例:少量老用户采用表格记忆购买特征;大量新用户采用基于深度学习的推荐算法。
4.决策时间分类
- (1)多步决策的优点:可以最大化用户长期生命价值。
- (2)多步决策的缺点:需要计算用户的历史购买轨迹,计算量大。
- (3)单步的优点:单步决策可以实时快速匹配推荐。
- (4)单步缺点:容易推荐用户短期内感兴趣但重复度高的商品。
- 实例:考虑新用户的多步购买意向;针对老用户使用实时单步决策快速匹配。