![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Bert
张雨石
程序猿,科幻迷,力求做一枚文青
展开
-
Transformer优化之稀疏注意力
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型蒸馏的全方位应用MobileBert:原创 2020-10-01 10:12:43 · 6289 阅读 · 1 评论 -
Roberta: Bert调优
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型蒸馏的全方位应用MobileBert:原创 2020-09-30 12:02:24 · 2362 阅读 · 0 评论 -
Electra: 判别还是生成,这是一个选择
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型蒸馏的全方位应用MobileBert:原创 2020-09-29 00:00:12 · 629 阅读 · 0 评论 -
Bert: 双向预训练+微调
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型蒸馏的全方位应用MobileBert:原创 2020-09-28 23:49:22 · 2918 阅读 · 1 评论 -
Transformer: Attention的集大成者
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系,以下是要写的文章,本文是这个系列的第一篇, 目前已有其他篇章放在公众号【雨石记】上,欢迎点击下面目录任何一个链接转往公众号:Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型原创 2020-08-29 00:07:16 · 721 阅读 · 0 评论 -
GPT-1 & 2: 预训练+微调带来的奇迹
最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的、完整的知识结构体系。以下是要写的文章,文章大部分都发布在公众号【雨石记】上,欢迎关注公众号获取最新文章。Transformer:Attention集大成者GPT-1 & 2: 预训练+微调带来的奇迹Bert: 双向预训练+微调Bert与模型压缩Bert与模型蒸馏:PKD和DistillBertALBert: 轻量级BertTinyBert: 模型蒸馏的全方位应用MobileBert:原创 2020-09-28 23:29:24 · 2777 阅读 · 1 评论