杭州全球人工智能技术创新大赛-商品标题实体识别一等奖方案（top3）

余俊晖

已于 2023-03-28 15:48:54 修改

阅读量436

点赞数

分类专栏： NLP 竞赛自然语言处理文章标签：人工智能机器学习深度学习自然语言处理实体识别

于 2023-03-28 15:18:12 首次发布

本文链接：https://blog.csdn.net/yjh_SE007/article/details/129816936

版权

自然语言处理同时被 3 个专栏收录

106 篇文章

订阅专栏

NLP

23 篇文章

订阅专栏

竞赛

6 篇文章

订阅专栏

赛题分析

数据样例：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DJSKj6gV-1679987692789)(F:\weixin\imgs\image-20230328101644700.png)]$

标签：52种类型，均脱敏

数据：

标注样本4w条
无标注样本100w条
测试集每阶段各1w条

数据分析：

输入多样化（汉字、字母、数字、空格等）
实体类型与商品类型相关
实体无嵌套现象
实体样本为长尾分布

赛题难点：

解决输入中多类型符号表示
解决语言模型在电商领域适应性
充分利用无标注数据增强单模型效果

整体设计

方案框架：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7KlbCAk1-1679987692789)(F:\weixin\imgs\image-20230328102125073.png)]$

1、模型输入

将输入转为小写，减少未登录词影响
将空格转为特殊符号“|”

2、预训练

赛题给定104w样本+Multi-CPR 100w样本
使用MLM进行增量预训练

3、微调

Nezha + global pointer
原始训练集 + 清洗训练集 + 100w伪标签样本

预训练

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BYmO4Tho-1679987692790)(F:\weixin\imgs\image-20230328102451069.png)]$

**训练数据：**204w无标签数据
**初始化权重：**nezha-wwm-base
**预训练任务：**MLM
参数设置：

lr：2e-5

max length：128（动态padding）

batch size：128

epoch：5

mlm probability：0.15

微调

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Wq06C8pT-1679987692790)(F:\weixin\imgs\image-20230328102529589.png)]$

通过伪标签蒸馏策略，充分利用无标注数据增强单模型效果
K折融合减少伪标签噪声
清洗样本减少标注噪声

创新

领域预训练

MLM (Masked Language Model)：遮蔽词语言模型
WWM (Whole Word Mask)：全词遮蔽
Ngram Mask：词片段遮蔽

MLM	WWM	Ngram Mask	CPR data	初赛指标
				0.8101
√				0.8116
	√			0.8108
		√		0.8113
	√	√		0.8120
	√	√	√	0.8124
√			√	0.8125

结论：在数据量大的情况下简单的MLM足以有很好的效果。

伪标签+数据清洗

通过K折伪标的方式对单模型蒸馏，使单模型性能逼近多模型，方便落地；
通过修改伪标签损失比例进一步减少伪标噪声的影响；
K折清洗缓解标注噪声对模型的影响，也可作为一种数据增强手段。

模型	伪标数据量	损失比例	数据	复赛指标
nezha base	-	-	原始	0.8154
nezha base	50w	-	原始	0.8161
nezha base	100w	-	原始	0.8164
nezha base	100w		清洗	0.8166
nezha base	100w	0.45	清洗	0.8172
nezha base	100w	0.5	清洗	0.8174
nezha base	100w	0.5	清洗+原始	0.8175

损失计算方式：

1、批次内包含标注样本和伪标样本：
$L = (1 - α) * l oss (l ab e l e d) + α * l oss (p se u d o)$
2、批次内只包含标注样本：
$L = l oss (l ab e l e d)$
3、批次内只包含伪标样本：
$L = α * l oss (p se u d o)$