《Improving BERT-Based Text Classification With Auxiliary Sentence and Domain Knowledge》论文笔记

模型

模型部分与Bert论文完全一致,只是为分类任务的输入样本构建了“辅助序列”——这种方法只适用于“单序列分类”,对于“语句相似性”等句对分类任务不适用。

BERT4TC示意图
上图输入部分的 a i a_i ai 表示的是人工构建的辅助序列的token。

作者提出三种构建“辅助序列”的策略,1)辅助序列是一个不包含标签信息的问句, 用BERT4TC-AQ标识;2)辅助序列是只包含一个标签名称的文本描述,用BERT4TC-AA标识;3)辅助序列是一个仅包含一个标签名称与若干其它词的文本描述, 用BERT4TC-AWA标识。

作者后续实验证明,BERT4TC-AQ 与 BERT4TC-AWA的效果比 BERT4TC-AA 差,这里重点记录BERT4TC-AA。 对于 BERT4TC-AA,在 c c c 分类条件下, 每一训练样本,需要转换成 c c c 个0-1二分类,只有一个样本真实标签为1, 其余的为0。在推断阶段,取 c c c 个预测为标签1的概率值, 概率最大的那个辅助序列对应的类就是预测的类别。

训练样本转换示例

实验结果

在这里插入图片描述
在这里插入图片描述
对于短文本,学习率取2e-5效果; 长文本,学习率取1e-5效果最佳。总的来说较低的学习率比更激进的学习率效果会好些,同时,通过长短数据集上的实验结果,是否可以得到“对于难度越大的任务,取相对更小的学习率具有更好的效果”的结论?

在这里插入图片描述

这部分的实验是本论文的核心论证:1)BERT4TC-AQ不仅没能提升效果,反而降低模型效果。原因是引入了无效的信息,反而产生了噪声的负面效果。2)对于二分类任务,无论何种形式的辅助序列,效果均不如原始单序列输入。3)对于多分类任务,BERT4TC-AA 与 BERT4TC-AWA 优于 BERT4TC-S,可能原因除了训练数据量的增加,还可能是“降低易混淆类别的歧义”。 4)置于 BERT4TC-AA 优于 BERT4TC-AWA 表明,构建辅助序列时仅包含“标签名称”已足够,引入额外词汇可能反而加入噪声。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值