【领域报告】主动学习年度进展|VALSE2018

本文介绍了主动学习领域的年度进展,重点关注弱监督、代价敏感性和复杂模型的需求。作者黄圣君探讨了在噪声 oracle、标注成本和深度学习模型适应性等方面的研究成果,展示如何在有限标注数据下优化学习模型。
摘要由CSDN通过智能技术生成

编者按:白居易在《忆江南》中曾写道,

“山寺月中寻桂子,郡亭枕上看潮头。”

诗人结合“月中桂树”的传说,从江南众多景色中,选择了灵隐寺的皎月和钱塘江的潮头,这两处具有代表性的场景来追忆江南。而这两处样本的选择,也体现了诗人对江南风光的充分理解。

其实,在机器学习任务中,由于数据标注代价高昂,我们也面临着如何以最少量的样本,来获得最有效学习模型的问题。 如果能够从任务出发,通过对任务的理解来制定标准,挑选最重要的样本,使其最有助于模型的学习过程,将大大减少监督学习的成本。

因此,学术界衍生出了主动学习这一研究方向。本文中,来自南京航空航天大学的黄圣君副教授,将为大家介绍主动学习领域的年度进展。

文末,大讲堂提供文中所提到参考文献的下载链接。



640?wx_fmt=png

本次报告的题目是《recent progress on active learning 》,我们知道对于监督学习任务,要训练好模型,一般有标记的训练数据越多越好,但很多任务里面有标记的数据非常稀少,而且标注过程往往需要专业的知识,耗时耗力,导致代价昂贵。所以我们希望用更少的标注数据,训练出更好的模型。

640?wx_fmt=png

主动学习就是解决这个问题的重要手段。虽然有标记数据很少,但可以廉价获得非常多未标注的数据。在主动学习里有一个标注专家,我们可以迭代地从未标注数据里面挑选出一部分重要数据去标注,从而获得更多有标记数据。所以主动学习的目标是希望用最小标注代价获得最好的学习模型。

640?wx_fmt=png

主动学习里面最核心的问题就是需要制定标准,使得挑选出来的样本确实是对模型最有帮助的。

640?wx_fmt=png

这个问题在过去几十年间,一直是主动学习这个方向研究最关注的一点。以往的方法大概可分为这两类:一类方法,倾向于选择最有信息的样本,例如,我去教你最不会的东西应该是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值