MECT: Multi-Metadata Embedding based Cross-Transformer forChinese Named Entity Recognition论文解析

《MECT: Multi-Metadata Embedding based Cross-Transformer forChinese Named Entity Recognition》的论文解析

纯属个人理解,欢迎批评指正
如果有时间的话,会有源码解析,欢迎关注一波

首先,本文的作者信息
在这里插入图片描述

个人理解

首先从我个人阅读这篇文章的感觉来看,作者的想法确实挺棒的,在FLAT BERT的基础上通过卷积神经网络提取汉字的笔画embedding ,然后通过一个交叉的transform 和 random attention 的方法将笔画、字符和单词信息融入到模型中。在最后对label 做预测的时候,将cross transformer 笔画一侧的token mask。
关于FLAT 预计这两天会写文章介绍一下,想了解的同学可以看一下我之后写的解读。

这里的motivation 在于 作者认为,在汉语里面,笔画,尤其是偏旁部首是可以引入一部分信息的,例如,草字头的多与植物有关,月字旁的多与身体部位有关。
因此,作者想在词汇的基础上引入笔画 信息。

模型部分

笔画embedding

作者的笔画embedding 个人理解采用的是首先把字里面的笔画提取出来,然后将笔画建立一个随机的embeddding lookup 表,也可能是one-hot 形式,然后利用CNN 将其卷成一个一维的embedding ,维度大小应该与token 的embedding 大小一致
在这里插入图片描述
有趣的是,作者通过余弦相似度 证明了这种提取embedding 的方法是有效的。
在这里插入图片描述

之后采用 cross 的方式将 字符、单词和笔画信息链接起来,其模型架构如下图所示:
在这里插入图片描述
左边为 FLAT模型,右边为笔画的transformer
之所以称为cross,是因为双方做attention 的Q 是来自对方的。
详细的模型信息可以看下图
在这里插入图片描述
左边的FLAT 可以看我的另一篇关于FLAT的解析
这里详细说一下右边,右边的embedding 就是由CNN得到的笔画embedding。

其QKV 通过下列公式计算得到:
在这里插入图片描述
这里值得注意的是,作者采用的Random attention.
在这里插入图片描述

同时作者也做了速度和效率的对比
在这里插入图片描述
在实验效果方面,这里就不过多介绍了

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值