小评最近很火的BERT模型

本文介绍了BERT模型的用途、优势和原理,探讨其在自然语言处理领域的广泛应用。BERT是一种基于转换器的双向编码表示,通过掩码语言模型和后句预测任务进行无监督预训练,以捕捉文本的双向关系。其核心思想包括使用注意力机制和无监督目标函数,简化模型结构,提高表示学习的效率。
摘要由CSDN通过智能技术生成

Pattern Recognition审稿人要求,加入最近很火的BERT模型作为我们提出的文本表示模型的对比方法。在此和大家共同学习分析一下最近深度学习在自然语言处理领域的网红模型BERT,尝试品味BERT的精髓,探讨BERT可能的扩展方向。

模型小解

BERT模型全名是Bidirectional Encoder Representations from Transformers. 翻译过来可能叫做基于转换器的双向编码表示。这篇文章是在2018年由Google AI的研究者Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova首先发表于arXiv上。一时间在NLP领域乃至深度学习圈爆红,许多学者公认其为2018年与ELMo齐名的一大技术突破。我们且看,BERT模型是真的惊艳四方?还是学术圈的舆论炒作呢?

BERT的用途

首先,我们要明白BERT模型究竟是做什么的。BERT模型是一个预训练语言表示模型(pre-trained language representations model)。所谓预训练语言表示模型,就是先用这个模型在可与最终任务无关的大数据集上训练处语言的表示,然后将学到的知识(表示)用到任务相关的语言表示上。这样做的原因是考虑到(1)若任务相关的数据集可能很小,小数据无法反映出语言间的复杂关系,同样也很容易让复杂的深度网络模型过拟合;(2)若任务相关的数据集很大,大数据上的训练时间很长,要在短时间内、特别是有限计算资源下利用深度网络学到相关的信息是困难的。提出BERT模型的论文将预训练语言表示模型根据实际使用时的策略也分为两类,一类是基于特征的方法(feature-based approach),另一类是基于微调的方法(fine-tuning approach)。基于特征的方法利用预训练好的模型提取文本特征,并将所提取的特征作为额外的特征加入到针对特定任务的表示模型之中。之前提到的ELMo就是基于特征的方法中的典型代表。基于微调的方法则是使用特定任务的数据集和标签来微调预训练好的模型(网络)参数,从而使得预训练的模型

  • 7
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值