论文笔记:利用词对比注意增强预训练汉字表征

该文章介绍了在ACL2020会议上的一项研究,提出了一种新方法增强基于字符的中文预训练模型,通过词对齐注意力结合分词信息,提升模型性能。实验涉及BERT、ERNIE和BERT-wwm等模型,在多个NLP任务和数据集上验证了改进效果。
摘要由CSDN通过智能技术生成

整理了 ACL2020短文 Enhancing Pre-trained Chinese Character Representation with Word-aligned Att)论文的阅读笔记

论文地址:论文

背景

  近年来,以 BERT 为代表的预训练模型在 NLP 领域取得取得了非常显著的效果。但是,已有的中文预训练模型大多以汉字为基本单位,根据汉字的外部语境学习表征,基于字粒度计算 Attention , 没有利用中文的分词知识。本文提出了一种新的词对齐注意来挖掘显式词信息,对各种基于字符的中文预训练语言模型的表征进行增强。

模型

  对于n个字符的输入序列表示为 S = [ c 1 , c 2 , . . . , c n ] S=[c_1,c_2,...,c_n] S=[c1,c2,...,cn] c j c_j cj表示输入序列的第j个字符,也就是汉字。使用分词工具 π \pi π对序列进行分词: π ( S ) = [ w 1 , w 2 , . . . , w m ] , ( m < = n ) \pi(S)=[w_1,w_2,...,w_m],(m<=n) π(S)=[w1,w2,...,wm],(m<=n),这里面的w就是一个个子序列,代表了由几个字符构成的词语,它们是不相交的,表述为 w i = { c s , c s + 1 , . . . , c s + l − 1 } w_i=\{c_s,c_{s+1},...,c_{s+l-1}\} wi={cs,cs+1,...,cs+l1}
  对于预训练的输出的字符级的表示,首先算一个自注意矩阵 A c ∈ R n × n A_c\in R^{n×n} AcRn×n A c = F ( H ) = s o f t m a x ( ( K W k ) ( Q W + q ) T d ) A_c = F(H)=softmax(\frac{(KW_k)(QW+q)^T}{\sqrt d}) Ac=F(H)=softmax(d (KWk)(QW+q)T)  其中,K和Q都是H(预训练模型最后一层的字符级表示)分别作为kays和quire参与计算, W k W_k Wk W q W_q Wq是可学习参数,维度是d×d, A c A_c Ac矩阵在不考虑词边界的情况下对字符级之间的相似度进行建模。
  本文的做法就是,利用这个相似度矩阵和上面的分词信息,在单词内部对字符相似度进行整和,首先将 A c A_c Ac表示为 [ a c 1 , a c 2 , . . . , a c n ] [a_c^1,a_c^2,...,a_c^n] [ac1,ac2,...,acn]其中 a c i a_c^i aci就是 A c A_c Ac矩阵的一行,它表示某个字符对其它字符的注意力向量,利用分词结果对注意力矩阵进行划分: π ( A c ) = [ { a c 1 , a c 2 } , { a c 3 } , . . . , { a c n − 1 , a c n } ] \pi(A_c)=[\{a_c^1,a_c^2\},\{a_c^3\},...,\{a_c^{n-1},a_c^n\}] π(Ac)=[{ac1,ac2},{ac3},...,{acn1,acn}]  然后,本文设计了一个聚合模块对词内注意力进行聚合,将根据分词结果划分好的注意力序列 a c s , . . . , a c s + l − 1 {a_c^s,...,a_c^{s+l-1}} acs,...,acs+l1转变成一个统一的 a w i a_w^i awi,它对应着词 w i w_i wi,具体计算过程为: a w i = λ M a x p o o l i n g ( { a c s , . . . , a c s + l − 1 } ) + ( 1 − λ ) M e a n p o o l i n g ( { a c s , . . . , a c s + l − 1 } ) a_w^i=\lambda Maxpooling(\{a_c^s,...,a_c^{s+l-1}\})+(1-\lambda)Meanpooling(\{a_c^s,...,a_c^{s+l-1}\}) awi=λMaxpooling({acs,...,acs+l1})+(1λ)Meanpooling({acs,...,acs+l1}) A ^ c [ s : s + l − 1 ] = e l ⋅ a w i \hat A_c[s:s+l-1]=e_l\cdot a_w^i A^c[s:s+l1]=elawi  其中, λ \lambda λ是一个自适应学习的参数, e l e^l el是一个全1向量,也就是说把这个词内的注意力结果进行聚合统一了。最终得到增强后的H: H ^ = A ^ c V W \hat H=\hat A_cVW H^=A^cVW  其中,V就是H,W是一个科学系矩阵,这样我们就通过分词对预训练模型的结果进行了增强。
在这里插入图片描述
  也可以进行多头的,在多头注意力架构下,最终结果为: H ˉ = C o n c a t ( H ^ 1 , H ^ 2 , , . . . , H ^ K ) \bar H=Concat(\hat H^1,\hat H^2,,...,\hat H^K) Hˉ=Concat(H^1,H^2,,...,H^K)  此外,由于歧义和非形式化输入的风险,分割器通常是不可靠的,特别是在域外数据上,这可能导致错误传播和令人不满意的模型性能。我们也可以使用多个不同的分词器(M个)得到M个最终的表示 H ˉ 1 , . . . , H ˉ M \bar H^1,...,\bar H^M Hˉ1,...,HˉM,文中建议的融合方式为: H ~ = ∑ m = 1 M t a n h ( H ˉ m W g ) \tilde H=\sum_{m=1}^Mtanh(\bar H^mW_g) H~=m=1Mtanh(HˉmWg)

实验

  选择了三个公开可用的中文预训练模型作为基本编码器:BERT、ERNIE和BERT-wwm。在5个中文自然语言处理任务和6个公共基准数据集上进行了实验。实验设置:
在这里插入图片描述实验结果:在这里插入图片描述消融实验:在这里插入图片描述

  • 80
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一本糊涂张~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值