Meta-Learning Triplet Network with Adaptive Margins for Few-Shot Named Entity Recognition 论文笔记

中文题目:带有自适应边际的元学习三联网络用于小样本命名实体的识别
论文链接:https://arxiv.org/abs/2302.07739
github: https://github.com/hccngu/MeTNet
领域:命名实体识别,原型网络, 小样本学习,元学习
发表时间:2023

背景

命名实体识别(NER),作为信息提取的基本任务,旨在定位和分类单词或表达式到预定义的实体类型(如人、组织、地点、日期和数量)。虽然相当数量的方法基于深层神经网络中取得了巨大成功,他们一般需要大量的数据作为训练集的标签。但是在一些特定的领域,命名实体,需要专业知识来理解,很难大规模人工注释。为了解决这一问题,小样本NER被研究, 旨在识别看不见的实体类型与一些注释。而基于典型的网络(原型),是其中一个比较有名的元学习方法。

问题

但是在命名实体识别中,其他(O)类是很难组成一个原型向量,因为其他类通常有大量样本的类,有各种 各样的语义。为了解决这个问题,MeTNet仅为实体类型生成原型向量而不是O-class。我们设计了一种改进的三联体网络样品和原型向量映射到低维空间,更容易被分类为每个实体类型并提出一种自适应边缘,并提出一种新的推理过程来预测查询实例的标签。

个人总结:

在这里插入图片描述

MeTNet

我们进行广泛实验indomain和跨域设置显示比其他state-of-theart MeTNet方法的优越性

方法概述

  • MeTNet是一个基于原型的元学习方法,它只为实体类型生成原型向量,而不为O类生成原型向
    量。
  • MeTNet使用三元组损失函数来优化实体类型之间的距离,使得同一类型的样本更接近,不同类型的样本更远离。
  • MeTNet还引入了自适应边距机制,根据每个实体类型在训练集中出现的频率来调整边距大小,从而使得低频类型有更大的边距,而高频类型有更小的边距,根据频度提高命名实体间的区分度。
  • MeTNet在四个公开数据集上进行了实验,结果表明它在小样本NER任务上优于现有的元学习方
    法。

论文模型:

在这里插入图片描述

2.1 Construct Triples

对于每个实体类型,将其原型向量作为锚点,实体类型中的实例作为正样本,其他实例作为负样本。由于负样本的数量一般大于正样本的数量,所以我们选取k个与原型向量距离最近的负样本。在此之后,对于每个正样本和每个负样本,我们分别构造三元组。

背景知识介绍

Triplet Network(三元组网络)

  1. 从训练数据集中随机选一个样本,该样本称为Anchor
  2. 然后再随机选取一个和Anchor (记为x)属于同一类的样本和不属于同一类的样本,这两个样本对应的称为Positive (记为x+)和Negative (记为x-),由此构成一个(Anchor,Positive,Negative)三元组
  3. 他们之间的关系用欧氏距离表示,并通过训练参数使得x向x+靠近,远离x-,从而实现分类任务

在这里插入图片描述

2.2 Improved Triplet Loss

给定锚点与正样本之间的距离dp,锚点与负样本之间的距离dn,原始三重态损失旨在优化锚点与正样本和负样本之间的相对距离,其公式为:

在这里插入图片描述

原有的三重态损失函数存在三个主要问题。

  1. 原始三重态损失更关注dp和dn之间的相对距离。当dp和dn都很大,但两者的差值较小时,损失
    较小。但我们的目标是优化dp和dn的绝对大小。
  2. 损失函数认为所有样本都是同等重要的,但它们的重要性与它们到锚点的距离有经验相关
  3. 实体边界是固定的。但是,不同的实体类型通常对应不同大小的区域。因此本文改进后的三重态损失如下:
    在这里插入图片描述
    其中α是平衡权值。mi表示实体类型ci的边界,为不同的实体类型设置自适应边界。前面的系数表示权重,距离锚点越远权重越小。

个人总结:
在这里插入图片描述

2.3 Inference

  • 当一个查询实例(例如Q1)只位于一个区域时,我们将其标记为与所定位区域对应的实体类型.
  • 当一个查询实例(例如Q2)包含在多个区域中时,我们计算其到不同区域中心的距离,并预测其实体类型
    为距离最小的实体类型。
  • 当一个查询实例(例如,Q3)在所有区域之外时,它被标记为O-class。

个人总结
在这里插入图片描述

实验

主要实验,小样本抽取F1

在这里插入图片描述

消融实验
在这里插入图片描述

NER嵌入原型可视化

在这里插入图片描述

  • 和聚类类似,原型边界区分越明显,说明原型构建的越好。可见模型确实有效果。

总结

  1. 元学习方法已广泛用于少样本命名实体识别(NER),尤其是基于原型的方法。 然而,Other(O)类很难用原型向量表示,因为类中一般有大量样本,语义杂乱。

  2. 为了解决这个问题,我们提出了 MeTNet,它只为实体类型而不是 O 类生成原型向量。 我们设计了一个改进的三元组网络,将样本和原型向量映射到一个更容易分类的低维空间,并为每个实体类型提出自适应边距。 边距作为一个半径,在低维空间中控制一个大小自适应的区域。 基于这些区域,我们提出了一种新的推理过程来预测查询实例的标签。

  3. 在域内和跨域设置中进行了大量实验,以展示 MeTNet 优于其他最先进方法的优势。 特别是,文章发布了从知名电子商务平台提取的中文小样本 NER 数据集 FEW-COMM。 据目前所知,这是第一个中国的小样本 NER 数据集。 所有数据集和代码都在 https://github.com/hccngu/MeTNet上提供。

  • 26
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值