Feature and Instance Joint Selection: A Reinforcement Learning Perspective

特征选择和实例选择是两种重要的数据处理技术。然而,这种选择大多是单独研究的,而现有的联合选择工作是粗略地进行特征/实例选择;因此忽略了特征空间和实例空间之间潜在的细粒度交互。为了解决这一挑战,我们提出了一种强化学习解决方案,以完成联合选择任务,并同时捕获每个特征选择和每个实例之间的交互。特别地,设计了顺序扫描机制作为智能体的行动策略,并利用协作变化环境来增强智能体的协作能力。此外,交互式范式引入先验选择知识,帮助agent进行更有效的探索。最后,在真实数据集上的大量实验证明了改进的性能。

阅读者总结:这篇论文是强化学习实现特征与示例选择问题,应该说是一种新颖的观点。创新点明显。1)这种复杂问题可以分解为不同模型分别处理,2)分别处理的结果实现协同 

注意:文中特别适用了外部知识和强化学习的结合,使得强化学习的效果很明显好于传统模型。在将外部知识传递给模型过程中,文中使用了teacher模型方式,将外部知识传递给模型,这点值得学习。

首先,如何制定强化学习的联合特征实例选择任务 .      到这两种选择,我们自然地用双主体强化学习范式重新构建联合选择。  具体地说,我们创建了两个RL代理:1)一个特征代理旨在选择最优的特征子集;2)实例代理的目标是选择最优的实例子集。两个agent将被选择的特征和实例感知为环境的状态,收集数据特征作为奖励,并相互交互以搜索最优的选择结果。

第二,如何使两个主体同时协作进行联合选择    因此,我们提出了一种序列扫描机制来设计agents的作用。具体地说,我们将特征的选择决策组织为一个序列,并让特征代理迭代地扫描这个序列,每次(去)选择一个特征。实例代理采用相同的策略。为了实现联合选择的全局最优,两个agent需要协作学习特征和实例的相互影响

第三,两个agent如何学习先验知识来提高学习效率?  交互式RL [Amir等人,2016]通过向人类专家或先验知识学习,在加速智能体探索方面显示了其优越性。为此,我们利用两个外部训练器,通过交互式强化学习分别教两个智能体:引入了1)一个具有特征重要性知识的基于随机森林的训练器,教特征智能体选择特征。2)使用基于隔离森林的训练器识别实例异常,教会实例代理如何过滤实例。

 

我们提出了一个名为双agent交互式增强选择(DAIRS)的框架,用于对联合特征和实例选择任务建模,并向agent引入先验选择知识。 

 Dual Agents

这两个智能体是:特征智能体对特征-特征相关性建模,选择最优特征子集;实例代理对实例-实例相关性进行建模,以选择优化的实例子集。然而,特征或样例选择的局部最优不能保证特征-样例联合选择的全局最优。因此,两个agent需要相互进行战略协作。 

State of the Environment

我们没有为特征代理和实例代理分别创建两个环境,而是开发了一个共享环境来支持代理之间的同时交互。状态是定量地表示协作变化的环境的情况。

 Trainers

将交互式强化学习中类教师训练器的概念引入到框架中。为特征智能体开发了一个随机森林训练器,为实例智能体开发了一个孤立森林训练器。这两个训练者可以指导智能体探索更好的选择策略。

Model Training

双重代理拥有自己的Deep Q - network (DQNs) [Mnih等人,2013]作为行动策略。两个外部训练器分别对特征代理和实例代理进行指导,以提高探索效率。 

 

 

 图5显示了每个变量在当前步骤之前的效率比较。结果表明,如果没有训练者的帮助,agent需要更多的步骤进行探索才能获得更好的结果,而两个训练者都可以帮助更高效的探索和agent学习,尤其是当特征agent和实例agent都接受外部建议时

 图4显示了这些变体在Madelon数据集上的性能比较。与单agent的探索相比,我们可以很容易地观察到双agent的性能提升。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值