BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding

最新推荐文章于 2024-09-26 09:18:34 发布

尧景

最新推荐文章于 2024-09-26 09:18:34 发布

阅读量135

点赞数

分类专栏：深度之眼情感分析文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ying_m/article/details/119081180

版权

深度之眼情感分析专栏收录该内容

4 篇文章 1 订阅

订阅专栏

目录

论文阅读准备
- 前期知识储备
- 学习目标
论文导读
- 论文研究背景、成果及意义
- 论文泛读
论文精读

在这里插入图片描述

论文阅读准备

前期知识储备

在这里插入图片描述

学习目标

在这里插入图片描述

论文导读

论文研究背景、成果及意义

在这里插入图片描述

在这里插入图片描述

attention的应用----transformer

论文泛读

在这里插入图片描述
摘要

论文精读

论文算法模型总览

在这里插入图片描述

模型细节一

注意力
在这里插入图片描述
self-attention

self-attention可以用来代替RNN的结构
Mul-ti head self-attention

Transformer

除以根号d_k的作用：收敛速度变快，完成缩放。
双向Transformer

输入表征

模型细节二

Task1 : Masked LM
在这里插入图片描述
Task2 : 预测下一个句子

微调

阅读理解任务是指从输入的文章里面寻找问题的答案，答案是文章里面的句子，答案所在文章的开始位置和结束位置，相当于作一个分类任务，要预测开始和结束两个位置，因此要取两个词作为输出。

在这里插入图片描述
作者大致分为了四个类别，如上图所示，四幅图代表了不同的NLP任务，现在大量的task几乎都可以抽象成这四种任务结构，分别是

分类任务：输入两句话，输出对应的类别。应用场景：输入两句话，输出这两句话的相似度；
输入一句话。应用场景：例如情感分类(输入一句话，输出这句话的情感极性)；
输入两句话(一句话为Question，另一句话为Paragraph)，输出两个位置(答案的开始位置、结束位置)，相当于输出两个类别的内容，是一个序列级别的输出；
NER：明显的序列标注任务，输入的这句话有多少个token，输出就有多少个token，输出的都有一个对应的类别，每个词都对应有一个标签，(每个位置输出一个概率分布，取概率值对应的最大的类别)

在这里插入图片描述
BERT文本分类方法

实验设置及结果分析

数据集
在这里插入图片描述比较

模型大小

论文总结

在这里插入图片描述

代码

huggingface官网
 Transformer预训练模型库

.bin文件：bert模型的权重
config.json : 配置信息
vocab.txt

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。