pattern-exploiting training (PET)--Few-Shot Learners

最新推荐文章于 2023-08-16 22:00:24 发布

AI强仔

最新推荐文章于 2023-08-16 22:00:24 发布

阅读量910

点赞数 2

分类专栏： NLP transformer 文章标签：深度学习人工智能

NLP 同时被 2 个专栏收录

51 篇文章 5 订阅

订阅专栏

33 篇文章 4 订阅

订阅专栏

1 简介

本文根据2021年《It’s Not Just Size That Matters：Small Language Models Are Also Few-Shot Learners》翻译总结的。

GPT-3有1750亿的参数，它拥有惊人的小样本学习（few-shot）能力。
而本文主要讲另一种方式，pattern-exploiting training (PET)，模式开发训练。是将文本输入转化成完形填空（cloze）问题。所需参数很少。
同时本文提出了PET的一个简单有效的修改版，支持预测多个token。

2 Pattern-Exploiting Training

在这里插入图片描述

在这里插入图片描述

PVP（pattern-verbalizer pairs）,如上图：
在这里插入图片描述

3 PET with Multiple Masks

PET引入多个token，如下图a，计算两个概率q并取概率较高的（如下图ble），接着将ble带入下图b，继续计算剩下token的概率。
在这里插入图片描述

4 实验结果

可以看到PET参数较少，但取得了和GPT-3不相上下的结果。

在这里插入图片描述

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
pattern-exploiting training (PET)--Few-Shot Learners

1 简介本文根据2021年《It’s Not Just Size That Matters：Small Language Models Are Also Few-Shot Learners》翻译总结的。GPT-3有1750亿的参数，它拥有惊人的小样本学习（few-shot）能力。而本文主要讲另一种方式，pattern-exploiting training (PET)，模式开发训练。是将文本输入转化成完形填空（cloze）问题。所需参数很少。同时本文提出了PET的一个简单有效的修改版，支持预测多个t
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。