【论文分享】BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised Named Entity Recognition

【ACL 2021】BERTifying 多源弱监督命名实体识别的隐马尔可夫模型


主要内容:
① 在有多源标签库需要使用的情况下,提出了一种条件隐马尔科夫模型,按token-wise转换和发射概率用于聚合来自不同弱标签源的多组 NER 标签
② 依次训练 CHMM 和 BERT-NER,利用彼此的输出进行多个循环,以优化多源弱监督 NER 的性能。(这里可以理解成类似对抗生成,相辅相成。CHMM 可以对命名实体进行高精度分类,但在发现所有实体方面略显劣势。 BERT-NER 增加了覆盖范围,但会损失一定的准确性。 结合交替训练方法,这些模型之间的这种互补性进一步提高了整体性能。)
③ 对来自不同领域的四个 NER 基准的综合评估表明,CHMM-ALT 的平均 F1 分数比最强的基线模型提高了 4.83。


以下是文章的翻译

摘要

       我们研究了使用来自多个弱监督源的嘈杂标签来学习命名实体识别 (NER) 标记器的问题。 尽管获取成本低,但来自弱监督来源的标签往往不完整、不准确且相互矛盾,这使得学习准确的 NER 模型变得困难。 为了应对这一挑战,我们提出了一种条件隐马尔可夫模型(CHMM),它可以以无监督的方式有效地从多源噪声标签中推断出真实标签。 CHMM 利用预训练语言模型的上下文表示能力增强了经典的隐马尔可夫模型。具体来说,CHMM 从输入标记的 BERT 嵌入中学习标记转换和发射概率能力,以从嘈杂的观察中推断出潜在的真实标签。 我们使用替代训练方法 (CHMM ALT) 进一步完善 CHMM。 它使用 CHMM 推断的标签对 BERT-NER 模型进行微调,并且该 BERT NER 的输出被视为训练 CHMM 的额外弱源。 来自不同领域的四个 NER 基准的实验表明,我们的方法在很大程度上优于最先进的弱监督 NER 模型。


1 引言

       命名实体识别 (NER) 旨在从非结构化文本中识别命名实体,是许多下游应用的基础信息提取任务,例如事件检测 (Li et al., 2012)、关系提取 (Bach and Badaskar, 2007)、 和问答(Khalid 等,2008)。 现有的 NER 模型通常由大量训练序列监督,每个序列都预先标注了token级标签。 然而,在实践中,获得这样的标签可能会非常昂贵。 另一方面,许多领域拥有各种知识资源,例如知识库、特定领域词典或领域专家提供的标签规则(Far makiotou 等,2000;Nadeau 和 Sekine,2007)。 这些资源可用于匹配语料库,并从多个角度为 NER 快速创建大规模噪声训练数据。
       从多个弱监督来源学习 NER 模型是一个具有挑战性的问题。虽然存在仅使用知识库作为弱监督的远程监督 NER 的工作(Mintz 等人,2009 年;Shang 等人,2018 年;Cao 等人,2019 年;Liang 等人,2020 年),但他们无法利用来自多个注释源的补充信息。为了处理多源弱监督,最近的几项工作(Nguyen 等人,2017 年;Safranchik 等人,2020 年;Lison 等人,2020 年)利用隐马尔可夫模型 (HMM),通过将真实标签建模为隐藏变量并通过无监督学习从观察到的噪声标签中推断它们。尽管有原则性,但这些模型在捕获标记语义和上下文信息方面存在不足,因为它们要么将输入标记建模为单热观察(Nguyen 等人,2017 年),要么根本不对它们建模(Safranchik 等人,2020 年;Li儿子等人,2020 年)。此外,HMM 的灵活性是有限的,因为它的转换和排放随时间步长保持不变,而实际上它们应该取决于输入词。
       我们提出了条件隐马尔可夫模型(CHMM)来从多源弱注释中推断出真实的 NER 标签。 CHMM 通过预测来自 BERT 嵌入的 token-wise 转换和发射概率来调节 BERT 上的 HMM 训练和推理。 在模拟真实标签应该如何根据输入tokens演变时,这些token-wise的概率比 HMM 的常数对应物更灵活。 他们从 BERT 继承的上下文表示能力也减轻了马尔可夫约束并扩展了 HMM 的上下文感知。
       此外,我们将 CHMM 与基于 BERT 的监督 NER 模式与交替训练方法 (CHMM-ALT) 相结合。 它使用 CHMM 生成的去噪标签对 BERT-NER 进行微调。 利用 BERT 中包含的预训练知识,该过程旨在通过发现所有弱源忽略的实体模式来改进去噪标签。 微调的 BERT-NER 作为额外的监督源,其输出与其他弱标签相结合,用于下一轮 CHMM 训练。 CHMM-ALT 交替训练 CHMM 和 BERT-NER,直到结果被优化。
       我们的贡献包括:
       • 多源标签聚合器 CHMM,具有按token-wise转换和发射概率,用于聚合来自不同弱标签源的多组 NER 标签。
       • 一种替代训练方法 CHMM-ALT,它依次训练 CHMM 和 BERT-NER,利用彼此的输出进行多个循环,以优化多源弱监督 NER 的性能。
       • 对来自不同领域的四个 NER 基准的综合评估表明,CHMM-ALT 的平均 F1 分数比最强的基线模型提高了 4.83。
       这项工作中使用的代码和数据可在 github.com/Yinghao-Li/CHMM-ALT 上找到。


2 相关工作

       弱监督 NER。 已经有一些工作用不同的弱监督方法训练 NER 模型。远程监督是一种特殊类型的弱监督,从知识库生成训练标签(Mintz 等人,2009 年;Yang 等人,2018 年;Shang 等人,2018 年;Cao 等人,2019 年;Liang 等人., 2020)。但这种方法仅限于一个来源,无法从其他可用资源中获取补充注释。其他作品采用多个额外的标记源,例如依赖于词汇特征、单词模式或文档信息的启发式函数(Nadeau 和 Sekine,2007 年;Rat ner 等人,2016 年),并通过多源标签去噪统一他们的结果。为句子分类设计了几种多源弱监督学习方法(Ratner et al., 2017, 2019; Ren et al., 2020; Yu et al., 2020)。尽管这些方法可以适用于 NER 等序列标记任务,但它们在推理过程中往往会忽略token-level标签之间的内部依赖关系。Fries 等。 (2017) 以 NER 任务为目标,但他们的方法首先生成候选命名实体跨度,然后独立地对每个跨度进行分类。这种独立性使其遭受与句子分类模型相同的缺点。
       一些作品在处理多个监督源时考虑了标签依赖性。Lan等人. (2020) 训练具有多个并行 CRF 层的 BiLSTM-CRF 网络(Huang 等人,2015 年),每个层用于一个单独的标记源,并使用注意力网络预测的置信度分数聚合它们的转换(Bahdanau 等人,2015 年; Lu ong 等人,2015 年)。 HMM 是用于多源序列标签去噪的更有原则的模型,因为真正的标签是通过无监督学习隐式推断的,而无需刻意分配任何额外的分数。沿着这条轨道,Nguyen 等人. (2017) 和 Lison 等人. (2020) 使用具有多个观察变量的标准 HMM,每个变量来自一个标记源。Safranchik等人. (2020) 提出了链接 HMM,它与普通 HMM 不同,它引入了独特的链接规则作为通用token标签的附加监督源。然而,这些方法不能像 CHMM 那样有效地利用嵌入在标记中的上下文信息,并且它们的 NER 性能进一步受到马尔可夫假设的限制。
       神经化隐马尔可夫模型。 一些工作试图对 HMM 进行神经化,以便在保持其生成属性的同时放宽马尔可夫假设(Kim 等人,2018 年)。 例如,Dai等人. (2017) 和 Liu 等人. (2018) 将循环单元纳入隐式半马尔可夫模型 (HSMM) 以分割和标记高维时间序列; Wiseman等人. (2018) 学习离散模板结构的条件
使用神经化 HSMM 生成文本。 Wessels and Omlin (2000) 和 Chiu and Rush (2020) 用神经网络对 HMM 进行分解,以扩展它并提高其序列建模能力。 与我们最相关的工作利用神经 HMM 进行序列标记(Tran 等人,2016 年)。 CHMM 与神经 HMM 的不同之处在于,tokens在 CHMM 中被视为依赖项,而不是神经 HMM 中的观察。 此外,CHMM 使用广义 EM 进行训练,而神经 HMM 优化观察的边际可能性。


3 问题设置

       在本节中,我们制定了多源弱监督 NER 问题。 考虑一个输入句子包含 T 个 tokens w ( 1 : T ) w^{(1:T)} w(1:T) ,NER 可以被表述为一个序列标记任务,该任务为句子中的每个tokens分配一个标签。 1 ^1 1 假设目标实体类型的集合是 E E E 并且 标记方案是 BIO(Ramshaw 和 Marcus,1995),NER 模型从标签集 l ∈ L l ∈ L lL 中为每个tokens分配一个标签,其中标签集的大小为 ∣ L ∣ = 2 ∣ E ∣ + 1 |L| = 2|E| + 1 L=2E+1,例如,如果 E E E = {PER, LOC},则 L L L = {O, B-PER, I-PER, B-LOC, I-LOC}。
       假设我们有一个包含 K 个弱源的序列,每个弱源都可以是启发式规则、知识库或现有的域外 NER 模型。 每个源作为一个标记函数,从输入语料库生成tokens级弱标签,如图 1 所示。对于输入序列 w ( 1 : T ) w^{(1:T)} w(1:T),我们使用 x k ( 1 : T ) x_k^{(1:T)} xk(1:T) k k k ∈ {1, . . . , K K K} 来表示来自源 k k k 的弱标签,其中 x k ( t ) ∈ R ∣ L ∣ x_k^{(t)} ∈ R|L| xk(t)RL, t t t ∈ {1, . . . , T T T} 是 L L L 上的概率分布。多源弱监督 NER 旨在找到标签的潜在真实序列 y ^ ( 1 : T ) \hat y^{(1:T)} y^(1:T), y ^ ( T ) ∈ L \hat y^{(T)} ∈ L y^(T)L 给定 { w ( 1 : T ) , x 1 : K ( 1 : T ) w^{(1:T)}, x^{(1:T)}_{1:K} w(1:T),x1:K(1:T) }。

在这里插入图片描述


4 方法

       在本节中,我们将描述我们提出的方法 CHMM-ALT。 我们首先概述交替训练程序(第 4.1 节),然后解释 CHMM 组件(第 4.2 节)以及如何涉及 BERT-NER(第 4.3 节)。

4.1 替代训练程序

       交替训练方法训练两个模型——一个多源标签聚合器 CHMM 和一个 BERT-NER 模型——轮流训练彼此的输出。 CHMM 将来自不同来源的多组标签聚合成统一的标签序列,而 BERT-NER 则通过其从预训练中获得的语言建模能力对其进行细化。 训练过程分为两个阶段。
       • 在第一阶段,CHMM 从现有来源获取注释 x 1 : K ( 1 : T ) x^{(1:T)}_{1:K} x1:K(1:T) 并给出一组去噪标签 y ∗ ( 1 : T ) y^{∗(1:T)} y(1:T) ,用于微调 BERT-NER 模型。 然后,我们将微调模型视为一个额外的标签源,其输出 ∼ y ( 1 : T ) ^\sim y^{(1:T)} y(1:T) 被添加到原始弱标签集中以给出更新的观察实例: x 1 : K + 1 ( 1 : T ) = { x 1 : K ( 1 : T ) , ∼ y ( 1 : T ) } x^{(1:T)}_{1:K+1} = \{x^{(1:T)}_{1:K}, ^\sim y^{(1:T)}\} x1:K+1(1:T)={x1:K(1:T),y(1:T)}
       • 在第二阶段,CHMM 和 BERT-NER 在几个循环中相互迭代地相互改进。 每个循环首先用前一个循环的观测值 x 1 : K + 1 ( 1 : T ) x^{(1:T)}_{1:K+1} x1:K+1(1:T) 训练 CHMM。 然后,采用其预测来微调 BERT-NER,其输出更新 x K + 1 ( 1 : T ) x^{(1:T)}_{K+1} xK+1(1:T)
       图 2 说明了交替训练方法。 一般来说,CHMM 给出了高精度的预测,而 BERT-NER 用精确度来交换召回率。 换句话说,CHMM 可以对命名实体进行高精度分类,但在发现所有实体方面略显劣势。 BERT-NER 增加了覆盖范围,但会损失一定的准确性。 结合交替训练方法,这些模型之间的这种互补性进一步提高了整体性能。
在这里插入图片描述

4.2 条件隐马尔可夫模型

       条件隐马尔可夫模型是用于多源标签去噪的 HMM 变体。 它将真实实体标签建模为隐藏变量,并从观察到的噪声标签中推断出它们。 传统上,离散 HMM 使用一个转换矩阵来模拟隐藏标签转换的概率,并使用一个发射矩阵来模拟来自隐藏标签的观察概率。 这两个矩阵是常数,即它们的值不随时间步长变化。 相反,CHMM 以输入标记 w(1:T) 的 BERT 嵌入 e(1:T) 为条件,将其转换矩阵和发射矩阵都设置为条件。 这种设计不仅使 CHMM 能够利用 BERT 嵌入的丰富上下文表示,而且还减轻了常数矩阵的约束。
       在第一阶段,CHMM 从提供的 K 个弱标签源中获取 K 个弱标签集。 在第二阶段,除了现有的源之外,还从之前微调的BERT-NER中取了另一组标签,使得源的总数为K + 1。为了方便,我们在下面使用K作为弱源的数量 .
       模型架构。 图 3 显示了 CHMM 架构的草图。 2 ^2 2 z ( 1 : T ) z ^{(1:T)} z(1:T) 表示 CHMM 的离散隐藏状态,其中 z ( t ) ∈ L z^{(t)} ∈ L z(t)L,表示要从多个弱注释中推断出的潜在真实标签。 Ψ ( t ) ∈ R ∣ L ∣ × ∣ L ∣ Ψ^{(t)} ∈ R^{|L|×|L|} Ψ(t)RL×L 是转移矩阵,其元素 Ψ i , j ( t ) = p ( z ( t ) = j ∣ z ( t − 1 ) = i , e ( t ) ) , i , j ∈ 1 , . . . , ∣ L ∣ Ψ^{(t)}_{i,j} = p(z^{(t)} = j|z^{(t−1)} = i, e^{(t)}), i, j ∈ {1, . . . , |L|} Ψi,j(t)=p(z(t)=jz(t1)=i,e(t)),i,j1,...,L 表示在时间步长 t 从标签 i 移动到标签 j 的概率。 Φ k ( t ) ∈ R ∣ L ∣ × ∣ L ∣ Φ^{(t)}_k ∈ R^{|L|×|L|} Φk(t)RL×L 是弱源k的发射矩阵,其中 Φ i , j , k ( t ) = p ( x j , k ( t ) = 1 ∣ z ( t ) = i , e ( t ) ) Φ^{(t)}_{i,j,k} = p(x^{(t)}_{j,k} = 1|z^{(t)} = i, e^{(t)}) Φi,j,k(t)=p(xj,k(t)=1z(t)=i,e(t))的每个元素表示当隐藏标签在时间步 t 为 i 时,源 k 观察标签 j 的概率。
在这里插入图片描述

       对于每一步, e ( t ) ∈ R d e m b e^{(t)} ∈ R^{d_{emb}} e(t)Rdemb 是预训练 BERT 的输出, d e m b d_{emb} demb 是其嵌入维度。 Ψ ( t ) Ψ^{(t)} Ψ(t) Φ 1 : K ( t ) Φ^{(t)}_{1:K} Φ1:K(t) 是通过将多层感知器 (MLP) 应用于 e ( t ) e^{(t)} e(t) 来计算的:
在这里插入图片描述

       由于 MLP 输出是向量,我们需要将它们重塑为矩阵或张量:
在这里插入图片描述

       为了获得正确的概率分布,我们沿标签轴应用 Softmax 函数,使这些值为正且总和为 1:
在这里插入图片描述

       a 是任意向量。 以下讨论中的公式总是依赖于 e ( 1 : T ) e^{(1:T)} e(1:T),但为了简单起见,我们将省略依赖项。
       模型训练。 根据 CHMM 的生成过程,一个序列 p ( z ( 0 : T ) , x ( 1 : T ) ∣ θ ) p(z^{(0:T)}, x^{(1:T)}|θ) p(z(0:T),x(1:T)θ) 的隐藏状态和观察到的弱标签的联合分布可以分解为:
在这里插入图片描述
其中 θ 表示所有可训练的参数。
       HMM 通常使用期望最大化(EM,也称为 Baum-Welch)算法进行训练。 在期望步骤(E-step)中,我们计算期望的完整数据对数似然:
在这里插入图片描述

        θ o l d θ^{old} θold 是来自前一个训练步骤的参数, E z [ ⋅ ] E_z[·] Ez[] 是对变量 z z z 的期望,并且
在这里插入图片描述

       是完整的数据日志似然。 令 ϕ ( t ) ∈ R ∣ L ∣ ϕ^{(t)} ∈ R^{|L|} ϕ(t)RL 是观察似然,其中
在这里插入图片描述

       将(6)-(8) 结合起来,我们有
在这里插入图片描述

       其中 π 1 = 1 π_1 = 1 π1=1, π 2 : ∣ L ∣ = 0 π_{2:|L|} = 0 π2:L=0; 3 ^3 3 γ i ( t ) = △ p ( z ( t ) = i ∣ x ( 1 : T ) ) \gamma _i^{(t)} \stackrel\triangle= p(z^{(t)} = i|x^{(1:T)}) γi(t)=p(z(t)=ix(1:T)) 是平滑的边缘; ξ i , j ( t ) = △ p ( z ( t − 1 ) = i , z ( t ) = j ∣ x ( 1 : T ) ) ξ^{(t)}_{i,j}\stackrel\triangle=p(z^{(t−1)} = i, z^{(t)} = j|x^{(1:T)}) ξi,j(t)=p(z(t1)=i,z(t)=jx(1:T)) 是预期的跃迁次数。 这些参数是使用前向-后向算法计算的。 4 ^4 4
       在最大化步骤(M 步)中,传统 HMM 通过使用伪统计优化(7)来更新参数 θ H M M = { Ψ , Φ , π } θ_{HMM} = \{Ψ, Φ,π\} θHMM={Ψ,Φ,π} 5 ^5 5 然而,由于 CHMM 中的转换和发射不是独立参数,我们不能通过这种方法直接优化CHMM。 相反,我们通过梯度下降 w.r.t. 更新模型参数。 θ C H M M θ_{CHMM} θCHMM 使用(9)作为目标函数:
在这里插入图片描述

       在实践中,计算是在对数域中进行的,以避免浮点数变得太小时出现精度损失问题。
       为了解决标签稀疏性问题,即某些实体仅被少数弱源观察到,我们在训练前修改观察值 x ( 1 : T ) x^{(1:T)} x(1:T)。 如果一个源 k 在时间步长 t 观测到一个实体: x j ≠ 1 , k ( t ) > 0 x^{(t)}_{j\neq1,k} > 0 xj=1,k(t)>0,则在 t 处对非观测源的观测将修改为 x 1 , κ ( t ) = ϵ x^{(t)}_{1,κ} = \epsilon x1,κ(t)=ϵ x j ≠ 1 , κ ( t ) = ( 1 − ϵ ) / ∣ L ∣ x^{(t)}_{j\neq1,κ} = (1 − \epsilon)/|L| xj=1,κ(t)=(1ϵ)/L, ∀ κ ∈ { 1 , . . . , K } ∀κ ∈ \{1, . . . , K\} κ{1,...,K}\k, 其中 ϵ \epsilon ϵ是任意小值。 请注意, x 1 , κ ( t ) x^{(t)}_{1,κ} x1,κ(t) 对应于观察到的标签 O。
       CHMM 初始化程序。 通常,HMM 的转换和发射概率是用从观测集计算的统计量 Ψ ∗ Ψ^∗ Ψ Φ ∗ Φ^∗ Φ 初始化的。 但是不可能将 CHMM 中的 Ψ ( t ) Ψ^{(t)} Ψ(t) Φ ( t ) Φ^{(t)} Φ(t) 直接设置为这些值,因为这些矩阵是 MLP 的输出而不是独立参数。 为了解决这个问题,我们选择在开始 CHMM 训练之前预训练 MLP,通过最小化其输出和目标统计之间的均方误差 (MSE) 损失:
在这里插入图片描述

       其中 ∣ ∣ ⋅ ∣ ∣ F ||·||_F F 是 Frobenius 范数。 在初始化之后,MLPs 只能在所有时间步长上输出相似的概率能力: Ψ ( t ) ≈ Ψ ∗ Ψ^{(t)} ≈ Ψ^∗ Ψ(t)Ψ, Φ ( t ) ≈ Φ ∗ Φ^{(t)} ≈ Φ^∗ Φ(t)Φ, ∀ t ∈ { 1 , 2 , . . . . . , T } ∀t ∈ \{1, 2, ... . . ,T\} t{1,2,.....T}。 但是当 CHMM 被训练后,他们的 token-wise 预测分歧就会出现。 初始隐藏状态 z ( 0 ) z^{(0)} z(0) 固定为 O,因为它没有相应的标记。
       推论。 经过训练后,CHMM 可以提供最可能的隐藏标签序列 z ^ ( 1 : T ) \hat{z}^{(1:T)} z^(1:T) 以及所有标签 y ∗ ( 1 : T ) y^{∗(1:T)} y(1:T) 的概率。
在这里插入图片描述

       其中 θ ˆ C H M M \stackrelˆθ_{CHMM} θˆCHMM 表示训练的参数。 这些结果可以通过 Viterbi 解码算法 (Viterbi, 1967) 或直接最大化平滑边缘 γ ( 1 : T ) \gamma^{(1:T)} γ(1:T) 来计算。

4.3 使用 BERT 改进去噪标签

       预训练的 BERT 模型对语义和结构知识进行编码,这些知识可以被提炼以进一步细化来自 CHMM 的去噪标签。 具体来说,我们通过在原始 BERT 之上堆叠一个前馈层和一个 Softmax 层来构建 BERT-NER 模型,以预测每个 token 所属类别的概率。 CHMM 的概率预测, y ∗ ( 1 : T ) y^{∗(1:T)} y(1:T)(注:所有标签),通常被称为软标签,被选择来监督微调过程。 与硬标签 z ˆ ( 1 : T ) \stackrelˆz^{(1:T)} zˆ(1:T) (注:隐藏标签序列)相比,软标签导致更稳定的训练过程和更高的模型鲁棒性 (Thiel, 2008; Liang et al., 2020)。
       我们通过最小化软标签 y ∗ y^∗ y 和模型输出 y 之间的 Kullback-Leibler 散度(KL 散度)来训练 BERT-NER:
在这里插入图片描述
其中 θ B E R T θ_{BERT} θBERT 表示 BERT 模型中的所有可训练参数。 BERT-NER 不会更新 CHMM 所依赖的嵌入 e ( 1 : T ) e^{(1:T)} e(1:T)
       我们从微调的 BERT-NER 直接通过前向传递得到了精确的标签 y ∼ ( 1 : T ) ∈ R T × ∣ L ∣ \stackrel \sim y^{(1:T)} ∈ R^{T ×|L|} y(1:T)RT×L 。 与 CHMM 不同的是,我们使用来自最后一个循环检查点的参数权重继续 BERT-NER 的训练,以便模型初始化更接近最优。 相应地,第二阶段训练 BERT-NER 时使用更小的学习率、更少的 epoch 迭代和批量梯度下降而不是小批量版本。 6 ^6 6 这种策略在不牺牲模型性能的情况下加速了第二阶段的训练 y ∗ ( 1 : T ) y^{* (1:T)} y(1:T) 在循环之间没有显着变化。


5 实验

       我们在四个数据集上对 CHMM-ALT 与最先进的弱监督 NER 基线进行了基准测试,包括远程学习模型和多源标签聚合模型。 我们还进行了一系列消融研究,以评估 CHMM-ALT 设计中的不同组件。

5.1 设置

       数据集。 我们考虑了涵盖通用、技术和生物医学领域的四个 NER 数据集:1) CoNLL 2003(英语子集)(Tjong Kim Sang 和 De Meulder,2003)是一个通用的 do main 数据集,包含 22,137 个手动标记的句子 有 4 种实体类型。 2) LaptopRe 视图数据集(Pontiki 等人,2014 年)由 3,845 个句子组成,其中提到了与笔记本电脑相关的实体。 3) NCBI-Disease 数据集(Dogan 等人,2014 年)包含 793 个 PubMed 摘要,并标注了疾病提及。 4) BC5CDR (Li et al., 2016),该数据集伴随 BioCreative V CDR 挑战,由 1,500 篇 PubMed 文章组成,注释了化学疾病。
       表 1 显示了数据集统计信息,包括tokens、实体和弱标签源的平均数量。 如果提供,我们使用数据集中的原始单词标记,否则使用 NLTK (Bird and Loper, 2004) 进行句子标记化。
       对于弱标记源,我们使用 Lison 等人的标记源。 (2020) 为 CoNLL 2003,以及来自 Safranchik 等人的。 (2020) 用于 LaptopReview、NCBI-Disease 和 BC5CDR.7
在这里插入图片描述

       基线。 我们将我们的模型与以下最先进的基线进行比较:1)多数投票 返回大多数来源观察到的tokens的标签,如果平局则随机选择一个; 2) Snorkel (Ratner et al., 2017) 将序列中的每个令牌视为 i.i.d。并在不考虑其上下文的情况下进行标签分类; 3) SwellShark (Fries et al., 2017) 通过在使用朴素贝叶斯对它们进行分类之前预测所有目标实体跨度来改进 Snorkel; 4) Au toNER (Shang et al., 2018) 通过预测两个连续的 token 是否应该在同一个实体跨度中来增强远程监督; 5) BOND (Liang et al., 2020) 采用自训练和高置信度选择来进一步提升远程监督性能。 6)HMM是Lison等人使用的多观测生成模型。 (2020) 没有集成神经网络的; 7) Linked HMM (Safranchik et al., 2020) 使用链接规则为 HMM 模型提供额外的tokens间结构信息。
       对于消融研究,我们将 CHMM 修改为另一种类型的 i.i.d。 通过去除其转移矩阵来建模。 该模型名为 CHMM-i.i.d.,直接从 BERT 嵌入预测隐藏步骤,而其他方面与 CHMM 相同。 我们还研究了 CHMM-ALT 与 CHMM 以外的其他聚合器的性能如何。
       我们还从不同的方面介绍了两个上限:1)一个用手动标记数据训练的完全监督的 BERT-NER 模型被视为监督参考; 2)弱源的最佳可能共识。 后者假设一个预言机总是从这些弱监督源中选择正确的注释。 根据定义,其准确率始终为 100%,召回率不随弱源数量的增加而降低。
       评估指标。 我们使用实体级精度、召回率和 F1 分数评估 NER 模型的性能。 所有分数均以百分比表示。 结果来自不同随机种子的 5 次试验的平均值。
       实施细则。 我们使用针对不同数据集在不同域上预训练的 BERT,既用于嵌入构建,也用作有监督的 BERT-NER 模型的组成部分。 原始 BERT(Devlin 等人,2019 年)用于 CoNLL 2003 和 LaptopReview 数据集,bioBERT(Lee 等人,2019 年)用于 NCBI-Disease,SciBERT(Belt agy 等人,2019 年)用于 BC5CDR。 长度超过 BERT 的最大长度限制 (512) 的实例被分成几个较短的段。 CHMM 中唯一可调的超参数是学习率。 但是它的影响可以忽略不计——受益于广义 EM 的稳定性,如果学习率足够小,模型可以保证收敛到局部最优。 对于我们实验中使用的所有 BERT-NER 模型,除批量大小外的超参数都固定为默认值(附录 C)。
       为防止过拟合,我们使用两尺度提前停止策略,根据开发集在两个尺度上进行模型选择。 微尺度早停为CHMM和BERT-NER的每个单独训练过程选择最佳模型参数; 宏观早期停止在阶段 II 迭代中选择性能最佳的模型,并报告测试结果。 在我们的实验中,如果宏观开发分数在 5 个循环中没有增加或达到最大循环数 (10),则第二阶段退出。

5.2 主要结果

       表 2 展示了不同领域的模型性能。我们发现我们的替代训练框架优于所有弱监督基线模型。此外,CHMM-ALT接近甚至超过了最佳来源共识,充分证明了设计的有效性。对于一般的基于 HMM 的标签聚合器(例如 CHMM),不可能超过最佳共识,因为它们只能预测由至少一个源观察到的实体。基于这一事实,CHMM 旨在从弱源中选择最准确的观测,而不会缩小其覆盖范围。相比之下,BERT 的语言表示能力使其能够泛化实体模式并成功发现那些没有任何来源注释的实体。比较CHMM+BERT和CHMM,我们可以得出结论,BERT基本上是用recall和precision来交换recall的,它的high-recall预测反过来可以提高CHMM的结果。这两种模型的互补性是 CHMM-ALT 提高弱监督 NER 整体性能的原因。
在这里插入图片描述

5.3 CHMM分析

       查看表 2,我们注意到 CHMM 在所有生成模型中表现最好,包括多数投票、HMM 和 CHMM-i.i.d。 传统 HMM 的性能在很大程度上受到具有不变转换和发射概率的马尔可夫假设的限制。 表中的结果验证了在 BERT 嵌入上调节模型可以缓解这种限制。 然而,CHMM-i.i.d. 的结果暗示了 HMM 中的转移矩阵是必不可少的,因为它们提供了有关潜在真实标签应如何演变的补充信息。

5.4 交替训练分析

       性能演变。 图 4 揭示了交替训练过程的细节。对于实体类型较少的 NCBI-Disease、BC5CDR 和 LaptopReview 等不太模糊的任务,BERT 通常在阶段 I 具有更好的性能,但在阶段 II 中被超越。有趣的是,BERT 在 LaptopReview 数据集上的性能从未超过 CHMM。这可能是因为 BERT 无法从该数据集的去噪标签构建足够具有代表性的模式。在 CoNLL 2003 中,标签源更难对语言结构进行建模,预训练语言模型在模式识别中的优势变得更加突出。从结果来看,去噪标签 y*(1:T) 的性能增量似乎在第二阶段后为 BERT 提供了少量额外信息,因为大部分增量来自 BERT 本身提供的信息。即便如此,当我们想要从弱标签源和预训练的 BERT 中获得最佳效果时,保持第二阶段是合理的。
在这里插入图片描述

       BERT-NER 初始化。 CHMM-ALT 在阶段 II 的每个循环开始时从其先前的检查点初始化 BERT-NER 的参数,以减少训练时间(第 4.3 节)。 如果我们改为根据每个循环的预训练 BERT 模型的初始参数对 BERT-NER 进行微调,则 CHMM-ALT 在 NCBI-Disease、BC5CDR 和 LaptopRe 视图数据集上的 F1 分数分别为 84.30、84.71 和 76.68。 这些分数接近表 2 中的结果,但训练时间要长得多。 因此,我们的 BERT-NER 初始化策略总体上是一个更实用的选择。
       将交替训练应用于其他方法。 表 3 显示了使用不同标签聚合器获得的交替训练性能。 交流公司 BERT-NER 模型与第 5.1 节中描述的模型相同。 表中的结果表明,通过在标签聚合器上使用交替训练获得的性能改进是稳定的,并且可以推广到任何其他尚未提出的模型。
在这里插入图片描述

6 总结

       在这项工作中,我们提出了 CHMM-ALT,这是一种多源弱监督方法,不依赖于手动标记数据来学习准确的 NER 标记器。 它集成了一个标签聚合器——CHMM 和一个监督模型——BERT-NER,以整合到一个替代训练过程中。 CHMM 在 BERT 嵌入上对 HMM 进行条件处理,以实现更大的灵活性和更强的上下文感知。 通过 CHMM 的预测进行微调,BERT-NER 发现弱源未观察到的模式并补充 CHMM。 依次训练这些模型,CHMM-ALT 使用在弱源和预训练的 BERT 模型中编码的知识来提高最终的 NER 性能。 将来,我们将考虑对转换和发射概率施加更多限制,或根据复杂的领域知识对其进行操作。 该技术还可以扩展到其他序列标记任务,例如语义角色标记或事件提取。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值