MIML学习

这篇博客探讨了现实世界中对象可能与多个实例和标签关联的情况,如图像分类和文本分类。针对关系抽取的挑战,尤其是重叠关系和噪声标签问题,提出了多实例多标签学习(MIML)方法。MIML-RE是最早应用MIML解决关系抽取的模型,通过概率图模型处理实体对的多个实例和标签。远程监督学习用于自动标注训练数据,但也面临错误标签的挑战。MIL(多示例学习)则旨在从带标签的实例包中学习并预测新实例的标签。
摘要由CSDN通过智能技术生成

Z.-H. Zhou and M.-L. Zhang. Multi-instance multi-label learning with application to scene classification. In: Advances in Neural Information Processing Systems 19 (NIPS’06) (Vancouver, Canada), B. Schölkopf, J. C. Platt, and T. Hofmann, eds. Cambridge, MA: MIT Press, 2007, pp.1609-1616.
 

在现实世界中,现实世界的对象可能同时与多个实例和多个标签关联。例如,一个图像通常包含多个补丁,每个补丁可以由一个实例表示,而在图像分类中,这样的图像可以同时属于多个类别,例如图像。图像既可以属于山脉,也可以属于非洲。另一个示例是文本分类,其中文档通常包含多个部分,每个部分都可以表示为一个实例,并且如果从不同的角度(例如,从不同的角度来看),则可以将该文档视为属于不同的类别。文件可以归类为科学小说,朱尔斯·韦恩(Jules Verne)的著作,甚至是旅行书籍。 Web挖掘是另一个示例,其中每个链接都可以视为一个实例,而网页本身可以被识别为新闻页面,体育页面,足球页面等。

以下参考:

万字综述:行业知识图谱构建最新进展 (qq.com)

3.4.2 远程监督模型

基于深度学习的关系抽取需要大量的训练数据,但是人工标注这些训练数据非常费时昂贵。为了解决这一问题,[47] 在 2009 年最早使用远程监督技术将输入文本中的句子与 Freebase 知识图谱中的三元组对齐,这时三元组提供了监督信息。然而,使用远程监督的关系抽取方法面临两个主要问题:

  • 无法建模重叠关系:两个实体之间可能存在多个不同的关系,例如(马云,建立,阿里巴巴)和(马云, CEO,阿里巴巴),因此无法确定知识图谱中实体间的哪个关系应该是当前句子需要抽取的关系。
  • 噪声(错误)标签:知识图谱中的三元组对有的句子中的实体对提供的关系标签是错误的,这给模型的训练带来了混淆和错误。

为了解决上述问题,目前主要是从多实例多标签学习、引入更多有效知识去噪这三个角度实现远程监督的关系抽取。

(1)多实例多标签学习(MIML)

为了解决重叠关系的问题,可以将多实例多标签学习应用于关系抽取任务中。单实例学习模型是从一个句子中预测一个关系类别,而多实例多标签学习方法放宽了这一条件,其从一个句子袋中预测其包含的多个关系类别。下图是一个多实例多标签的典型例子。可以看出,上图中(奥巴马,美国)这对实体对应多个实例(句子),同时知识图谱中(DB)为这对实体提供 2 个标签。

图片

[48] 最早提出基于多实例多标签学习的关系抽取方法 MIML-RE,通过使用概率图模型来表示实体对的“多个实例”和“多个标签”。多实例多标签方法已经能够较好地解决重叠关系的问题,因此,更多的远程监督的方法主要用来解决噪声标签的问题。在多实例学习任务中,如何从一个句子袋中找到与当前关系最相关的句子显得尤为重要。

远程监督学习就是给包打标签, 一个包里的所有句子包含的实体对是相同的. Figure 1也就是本文的做法就是将包里所有的句子一起处理, 确定实体对的关系(不是一个关系类型,一个包可能有多个关系)

这里写图片描述

图 1:新假设表明,两个实体之间的关系可以从所有提到这两个实体的句子中显式表达或隐式推断。

 以下参考:https://blog.csdn.net/Jason____zhou/article/details/50421119

一、Multiple-instancelearning(MIL,多示例学习)
MIL是由监督学习的一个演变过来的,MIL的数据由一系列带有label的bags组成,每个bags中由很多instances(示例),但每个bag中的instance不知道对应的label,在一个简单的二值分类的例子中(label={+1,-1}),如果一个bag中的所有instances对应的label均为-1时,则此bag的label=-1,如果一个bag的label=+1,则此bag中的所有instances至少有一个instance的label为+1。

MIL主要目的有:(1)归纳出单个instance对应的label。(2)通过对这些已标注的bag学习,尽可能准确地对新bag的label做出判断。
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值