万能的BERT连文本纠错也不放过

夕小瑶

于 2020-06-10 10:10:00 发布

阅读量1.8k

点赞数

本文链接：https://blog.csdn.net/xixiaoyaoww/article/details/106678721

版权

提出Soft-MaskedBERT模型，结合错误检测与修正，显著提升文本纠错效果，尤其在中文文本上表现卓越。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一只小狐狸带你解锁炼丹术&NLP秘籍

作者：孙树兵
学校：河北科技大学
方向：QA/NLU/信息抽取
编辑：小轶

背景

文本纠错（Spelling Error Correction）技术常用于文本的预处理阶段。在搜索引擎、输入法和 OCR 中有着广泛的应用。2020年的文本纠错自然也离不开 BERT 的表演。但原生的 BERT 在一些NLP任务如error detection、NER中表现欠佳，说明预训练阶段的学习目标中对相关模式的捕获非常有限，需要根据任务进行一定改造。在文本纠错任务中亦是如此。

此前文本纠错的SOTA方法采用了基于 Bert 的 seq2seq 结构，直接生成纠错后的字符序列。但是经观察发现，这样的方法总是倾向于不进行任何纠错，错误检测能力很低。一种可能的解释是 Bert 在预训练时只掩码了15%的字符，所以并不能够充分学习所有字符的上下文。

为了提高错误检测能力，本文在SOTA方法的基础上又添加了一个错误检测网络。分错误检测和纠正两步走。先检测每一个字的错误概率，然后根据检测结果将可能的错别字 soft-mask，其实就是错误概率：( 滑动查看完整公式 )

再输给基于Bert的修正网络。这样就强制修正网络学习了错别字的上下文。下面将详细为大家介绍模型的实现细节。

论文链接：https://arxiv.org/pdf/2005.07421.pdf

Arxiv访问慢的小伙伴也可以在订阅号后台回复关键词【0610】下载论文PDF。

模型结构

本文提出的 Soft-Masked Bert 模型可分为三个部分：

检测网络采用 Bi-GRU 预测字符在每个位置出现错误的概率。
用错误概率对 input embedding 做 soft-mask。soft-mask 是传统 hard-mask 的延伸。当错误概率等于1时，前者退化为后者。
修正网络为原文中每个位置挑选替换字。实现过程与单纯使用BERT的SOTA方法相似。

检测网络

检测网络是一个二分类的序列标注模型。模型的输入是character embedding序列。其中表示字符的 character embedding（即word embedding, position embedding 和 segment embedding 的总和）。输出是标签序列。为第 i 个字符的标签，等于 1 表示字符错误，0 表示正确。我们记为等于 1 的概率。