SoftMasked-bert文本纠错论文笔记以及代码实现

最新推荐文章于 2024-04-04 09:36:23 发布

will-wil

最新推荐文章于 2024-04-04 09:36:23 发布

阅读量1.4k

点赞数 1

分类专栏： nlp学习笔记文章标签：自然语言处理 pytorch 深度学习

本文链接：https://blog.csdn.net/yangyanbao8389/article/details/117038737

版权

nlp学习笔记专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文是Spelling Error Correction with Soft-Masked BERT论文的学习笔记，并且根据论文实现了相应的源码。

改进BERT纠错模型的motivation：BERT预训练模型只对于句子进行15%的mask字符进行预测，使得模型没有检测error的能力，从而更趋向于不纠错，即只复制原始字符

论文模型主体思想：

句子预处理，得到相应的字符的input embedding
input embedding 经过detection 网络，输出得到句子序列每个位置的错误概率分布
根据得到的错误概率分布，计算input embdding 和MASK embedding 的权重，并得到soft-masked embedding
上述得到的embedding输入纠错BERT网络，输出得到每个位置上的纠错候选词

子网络解释

1.detection网络

双向GRU得到前向和反向的隐状态，连接得到最终每个位置的隐状态表示hi
隐状态hi经过线性sigmoid层得到可疑字概率ei，计算soft-embedding=ei*masked-embedding + （1-ei）*embedding。（ei代表错字的概率分数）

2.correction网络：跟正常BERT纠错网络一样

代码GitHub链接：https://github.com/will-wiki/softmasked-bert.git

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

will-wil

关注关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

soft-masked-bert

一介北漂

03-19

413

整体公式如下: 总结: 门控机制引入，类比于lstm/gru，进行e_i 和 e_mask的融合，门控机制通过sigmoid(gru) 进行计算, 同时 ce(fc(gru))可以计算是否coef的判别纠错和预测作为multi-task 创新点: 门控机制的类比，是参差网络的一种类似的结构，更多的信息处理，对e_mask和e_i进行门控融合;业务层面引入e_mask作为对coef错误的替代; bert-enc...

探秘 SoftMaskedBert-PyTorch：新一代文本理解与生成神器

gitblog_00082的博客

04-03

353

探秘 SoftMaskedBert-PyTorch：新一代文本理解与生成神器项目地址:https://gitcode.com/gitabtion/SoftMaskedBert-PyTorch 在自然语言处理领域，预训练模型如BERT（Bidirectional Encoder Representations from Transformers）已经成为基石，为各种任务提供了强大的语义理解能力。然...

参与评论您还未登录，请先登录后发表或查看评论

SoftMaskedBert:Soft-Masked Bert 复现论文 arxiv.orgpdf2005.07421.pdf

04-13

SoftMaskedBert Soft-Masked Bert 复现论文:

用SegNet进行室内布局语义分割

datayx的文章

02-28

2094

向AI转型的程序员都关注了这个号????????????人工智能大数据与深度学习 公众号：datayx用SegNet进行室内语义分割。依赖NumPyTensorflowKerasOpen...

探索PyTorch Soft-Masked BERT：一种创新的预训练模型

最新发布

gitblog_00035的博客

04-04

408

探索PyTorch Soft-Masked BERT：一种创新的预训练模型项目地址:https://gitcode.com/whgaara/pytorch-soft-masked-bert 在自然语言处理（NLP）领域，BERT（Bidirectional Encoder Representations from Transformers）模型已经成为一个标志性工具，它开创了预训练和微调的新篇...

项目实战-Bert文本分类（keras-bert实现）源代码及数据集.zip

04-09

1、内容概要：本资源主要基于bert（keras）实现文本分类，适用于初学者学习文本分类使用。 2、数据集为电商真实商品评论数据，主要包括训练集data_train，测试集data_test ，经过预处理的训练集clean_data_train和...

人工智能-项目实践-文本分类-本项目采用Keras和Keras-bert实现文本多标签分类任务，对BERT进行微调。

05-25

人工智能-项目实践-文本分类-本项目采用Keras和Keras-bert实现文本多标签分类任务，对BERT进行微调。本项目采用Keras和Keras-bert实现文本多标签分类任务。数据集 2020语言与智能技术竞赛：事件抽取任务本...

K-BERT：K-BERT（AAAI2020）的源代码

02-03

基于框架实现的实现代码和数据集。要求软件： Python3 Pytorch >= 1.0 argparse == 1.1 准备从下载google_model.bin ，并将其保存到models/目录。从下载CnDbpedia.spo ，并将其保存到brain/kgs/目录。可选-...

基于BERT的文本纠错模型使用PyTorch实现源码+说明（课程设计）.zip

11-15

基于BERT的文本纠错模型使用PyTorch实现源码+说明（课程设计）.zip 这是95分以上高分必过课程设计项目，下载即用无需修改，确保可以运行。也可作为期末大作业。基于BERT的文本纠错模型使用PyTorch实现源码+说明...

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks下载

03-21

### Sentence-BERT: Sentence Embeddings Using Siamese BERT-Networks #### 概述在自然语言处理（NLP）领域，预训练模型如BERT（Bidirectional Encoder Representations from Transformers）及其变种RoBERTa已...

bert_for_corrector:基于bert进行中文文本纠错

03-21

BERT模型具有遮罩功能的正确错误字符实在抱歉，之前做项目比较急，然后没有完全上传完文件，导致大家使用受阻，替换更新有人提醒该模型，近期发生，特意将奉上，提取码为：hhxx另外其中某些得文件也有发表，安心食用。使用说明保存预训练模型在数据文件夹下├──数据│├──bert_config.json │├──config.json │├──pytorch_model.bin │└──vocab.txt ├──bert_corrector.py ├──config.py ├──logger.py ├──Forecast_mask.py ├──README.md └──text_utils.py 运行bert_corrector.py可以进行bert_corrector.py 。 python bert_corrector.py 运行'predict_mask.py'可以直接观察用[m

生产中的bert：在生产环境中使用BERT（https：arxiv.orgabs1810.04805）和相关语言模型的资源集合

02-04

生产中的bert：在生产环境中使用BERT（https：arxiv.orgabs1810.04805）和相关语言模型的资源集合

Soft-Masked-Bert网络细节解读

BmwGaara的博客

11-04

2588

大家好，我是隔壁小王。 Soft-Masked-Bert是复旦大学和字节跳动联合发布的在bert基础上针对文本纠正的网络模型，这里对其细节进行一个梳理。考虑到我另外一个网络中有讲过bert的细节，因此这里姑且把bert作为一个黑盒，详细介绍下smbert相比与bert改动的部分。首先上图：别看它这个图挺唬人，其实改动非常简单，该网络主要加入的是一个错别字的检测网络部分也就是图中的Detection Nerwork。假设输入的句长是128，embedding后的维度是768，batchs

文本纠错与BERT的最新结合,Soft-Masked BERT

datayx的文章

07-06

4543

向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayx文本纠错相关资料1.http://www.doc88.com/p-803870892...

论文解读：Spelling Error Correction with Soft-Masked BERT

夏栀的博客

11-25

1526

论文解读：Spelling Error Correction with Soft-Masked BERT（2020ACL）拼写错误纠错是一个比较重要且挑战的任务，非常依赖于人类的语言理解能力。本文关注中文的拼写错误纠错任务（Chinese Spelling Error Correction）。目前SOTA的方法是给予BERT模型，为句子中的每一个词，从候选的字符列表中挑选一个作为纠错的结果，然而这类方法容易陷入局部最优。然而，因为 BERT 没有足够的能力来检测每个位置是否有错误，显然是由于使用掩码语

中文文本纠错_论文Spelling Error Correction with Soft-Masked BERT(ACL_2020)学习笔记与模型复现

qq_35128926的博客

07-01

6906

中文文本纠错_论文Spelling Error Correction with Soft-Masked BERT(ACL_2020)学习笔记与模型复现最近在ACL 2020上看到一篇论文《Spelling Error Correction with Soft-Masked BERT》,论文的主题为中文文本纠错中的**Chinese spelling error correction (CSC)**任务，论文作者为来自字节跳动AI Lab与复旦大学的研究人员。《Spelling Error Correct

屏蔽预训练模型的权重。只训练最后一层的全连接的权重。_Soft-Masked BERT 一种新的中文纠错模型...

weixin_39929566的博客

11-24

388

今年，字节AI-Lab与复旦大学合作提出了一种中文文本纠错模型：Soft-Masked BERT[1].这项工作发表在了ACL 2020上，由于论文并没有开源代码，所以我将对这篇论文进行解读与复现。问题提出：中文文本纠错是一项挑战性的任务，因为模型要想获得令人满意的解决方案，就必须具备人类水平的语言理解能力。比如：eg1 Wrong：埃及有金子塔。Correct: 埃及有金字塔。eg2 Wro...

Soft-Masked BERT：文本纠错与BERT的最新结合

hwaust2020的博客

06-08

3000

文章目录一.文本纠错示例与难点二.文本纠错常用技术三、将BERT应用于文本纠错四、文本纠错最优模型：Soft-Masked BERT论文简要分析检测网络与 Soft Masking纠正网络实验结果五、立马上手的纠错工具推荐Reference 转载来源：https://zhuanlan.zhihu.com/p/144995580 文本纠错，是自然语言处理领域检测一段文字是否存在错别字、以及将错别字纠正过来的技术，一般用于文本预处理阶段，同时能显著缓解智能客服等场景下语音识别（ASR）不准确的问题。本文将

MC-BERT表征文本的代码

05-17

以下是使用PyTorch实现MC-BERT模型的示例代码： ```python import torch import torch.nn as nn from transformers import BertModel, BertTokenizer class MCBert(nn.Module): def __init__(self, bert_config):...