信息抽取（五）实体命名识别之嵌套实体识别哪家强，我做了一个简单的对比实验

最新推荐文章于 2024-06-16 09:39:55 发布

置顶

是算法不是法术

最新推荐文章于 2024-06-16 09:39:55 发布

阅读量5.3k

点赞数 10

分类专栏： NLP 文章标签：自然语言处理实体命名识别 pytorch

本文链接：https://blog.csdn.net/weixin_45839693/article/details/116425297

版权

嵌套实体识别

嵌套实体识别是实体命名识别中一个子问题，何为嵌套实体即“北京天安门”中“北京”是地点实体，“北京天安门”同样也是地点实体，两者存在嵌套关系。使用CRF等传统标注方法无法对嵌套实体进行区分，因此存在一定的局限性。
目前流行构建实体矩阵，即用一个矩阵 $W_{tse}(type,len,len)$ 来代表语料中的所有实体及其类型，其中任一元素 $N_{t,e,s}$ 表示类行为 $t$ ，起点为 $s$ ，结尾为 $e$ 的实体。通过这样的标注方式我们可以对任何嵌套实体进行标注，从而解决训练和解码的问题。
本文笔者将对比目前接触到的部分实体矩阵的构建方法在CMeEE数据集（医学NER，有一定嵌套实体）上的表现。

为了方便后续对比说明，这里定义几个同一的变量与符号，上文中 $N_{tes}$ 表示类行为 $t$ ，起点为 $s$ ，结尾为 $e$ 的实体。在本实验中，我们均适用bert-base-chinese作为encoder， $h_i$ 表示最后一层隐藏层中第 $i$ 个token的embedding，则 $h_s$ 和 $h_e$ 分别表示经过encoder之后实体Start和End token的embedding，则我们有公式 $N_{t,e,s} = p(h_s,h_e,t)$ ，其中 $p (x)$ 就表示我们所需要对比的实体矩阵构建头（姑且这么称呼）。
在对比实验中，除了不同实体矩阵构建头对应的batch_size，learning_rate不同，所使用的encoder、损失函数、评估方式以及训练轮次均保持一致。
本文选取了GlobalPointer、TPLinker（Muti-head selection)、Tencent Muti-head、Deep Biaffine（双仿射）共四种实体矩阵构建方法进行比较。