从 ELMo 到 ChatGPT：历数 NLP 近 5 年必看大模型

最新推荐文章于 2024-06-11 17:57:24 发布

zhingzt

最新推荐文章于 2024-06-11 17:57:24 发布

阅读量224

点赞数 1

分类专栏： nlp 文章标签：自然语言处理 chatgpt 人工智能

原文链接：https://blog.csdn.net/u010280923/article/details/129045051?spm=1000.2115.3001.5927

版权

nlp 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

团队博客: CSDN AI小组

相关阅读

先上 “万恶之源”：Transformer
在这里插入图片描述

按机构分类

AI21 Labs

发布时间	模型名称	参数量	机构	相关链接	开源
2021-09	Jurassic-1 (J1)	J1-Jumbo v1 (178B), J1-Large v1 (7.5B), J1-Grande v1 (17B)	AI21 Labs	论文 , 官方文档, 技术报告	受限

Alibaba

发布时间	模型名称	参数量	机构	相关链接	开源
2019-08	StructBert	structbert.en.large(340M), structroberta.en.large(355M), structbert.ch.large(330M)	Alibaba Group Inc.	论文, GitHub	模型

Allen Institute for AI

发布时间	模型名称	参数量	机构	相关链接	开源
2018-02	ELMo	Small(13.6M), Medium(28.0M), Original(93.6M)	Allen Institute for AI & University of Washington	论文	模型

Amazon

发布时间	模型名称	参数量	机构	相关链接	开源
2022-03	DQ-BART	与标准BART相比，参数减少了30倍	Cornell University & AWS AI Labs & University of Pennsylvania	论文

Anthropic

发布时间	模型名称	参数量	机构	相关链接	开源
2021-12	Anthropic-LM	Anthropic-LM v4-s3 (52B)	Anthropic	论文1, 论文2	未开源

BAAI

发布时间	模型名称	参数量	机构	相关链接	开源
2021-06	Wu Dao 2.0	1.75T	BAAI	官网	模型

Baidu

发布时间	模型名称	参数量	机构	相关链接	开源
2019-05	ERNIE	114M	Baidu	GitHub, 论文	模型

BigScience

发布时间	模型名称	参数量	机构	相关链接	开源
2022-05	T0pp	11B	BigScience etc.	论文	模型
2022-07	BLOOM	176B	BigScience	论文	模型
2022-11	BLOOMZ	176B	BigScience etc.	论文	模型

Cohere

发布时间	模型名称	参数量	机构	相关链接	开源
2022-06	Cohere	Cohere xlarge v20220609 (52.4B), Cohere large v20220720 (13.1B) , Cohere medium v20220720 (6.1B) , Cohere small v20220720 (410M) , Cohere xlarge v20221108 (52.4B), Cohere medium v20221108 (6.1B)	Cohere	官网	受限

DeepMind

发布时间	模型名称	参数量	机构	相关链接	开源
2021-07	AlphaFold	21M	DeepMind etc.	论文
2021-12	Gopher	280B	DeepMind	论文, 官网	未开源
2022-03	Chincilla	70B	DeepMind	论文	未开源
2022-03	GopherCite	280B	Deepmind & University College London	论文
2022-04	Flamingo	80B (largest)	Deepmind	论文	flamingo-mini模型
2022-05	Gato	1.2B	Deepmind	论文
2022-09	Sparrow	70B	Deepmind	论文

EleutherAI

发布时间	模型名称	参数量	机构	相关链接	开源
2021-03	GPT-Neo	5B, 2.7B (XL)	EleutherAI	论文	模型
2021-06	GPT-J	6B	EleutherAI	博客	模型
2021-12	StableDiffusion	890M	LMU Munich & Stability.ai & Eleuther.ai	论文	模型
2022-04	GPT-NeoX	20B	EleutherAI	论文	模型

Google

发布时间	模型名称	参数量	机构	相关链接	开源
2018-10	BERT	Base = 110M, Large = 340M	Google AI Language	论文	模型
2019-01	Transformer XL	151M	Carnegie Mellon University & Google Brain	论文	模型
2019-05	XLNet	Base=117M, Large=360M	Google AI Brain Team & Carnegie Mellon University	论文	模型
2019-09	ALBERT	Base = 12M, Large = 18M, XLarge = 60M	Google Research & Toyota Technological Institute at Chicago	论文	模型
2019-10	T5	11B	Google	论文	模型
2019-12	Pegasus	Base = 223M, Large = 568M	Imperial College London & Google Research	论文	模型
2020-03	ELECTRA	Base = 110M, Large = 330M	Google Brain & Stanford University	论文	模型
2020-07	BigBird	取决于整体架构	Google Research	论文	模型
2020-10	ViT	86M(Base) to 632M (Huge)	Google Research	论文	模型
2021-01	Switch	1T	Google	论文	模型
2021-06	Decision Transformers	117M	Google Brain & UC Berkeley & Facebook AI Research	论文	模型
2021-12	GLaM	1.2T覆盖64个专业领域，但只有96B被激活用于推理	Google	论文, 官方博客
2022-01	LAMDA	137B	Google	论文, 官方博客
2022-04	PaLM	540B	Google Research	论文, 官方博客	未开源
2022-05	UL2	20B	Google Research	论文	模型
2022-06	Imagen	2B	Google Research	论文, 官网
2022-06	Minerva	540B	Google Research	论文, 官网
2022-12	Flan-T5	11B	Google	论文	模型

Huggingface

发布时间	模型名称	参数量	机构	相关链接	开源
2019-10	DistilBERT	66M	Huggingface	论文	模型

iFLYTEK

发布时间	模型名称	参数量	机构	相关链接	开源
2020-11	MacBert	MacBERT-large, Chinese(324M), MacBERT-base, Chinese(102M)	iFLYTEK AI Research & Harbin Institute of Technology	论文	模型

Meta (Facebook)

发布时间	模型名称	参数量	机构	相关链接	开源
2019-07	RoBERTa	356M	Facebook AI & University of Washington	论文	模型
2019-10	BART	比 BERT 多 10%	Facebook AI	论文	模型
2019-10	XLM-RoBERTa	Base = 270M, Large = 550M	Facebook AI	论文	模型
2020-01	mBART	与BART相同	Facebook AI Research	论文	模型
2021-07	HTML	400M	Facebook AI & University of Washington	论文
2022-01	CM3	13B (largest)	Facebook AI Research	论文
2022-03	SeeKer	与基模型相同	Facebook AI Research & ETH Zürich	论文, 官网
2022-05	OPT	175B, 66B	Meta AI	论文, 官网	模型
2022-08	BlenderBot3	175B	Meta AI & Mila/McGill University	论文	blenderbot-3B模型, 模型
2022-11	Galatica	120B	Meta AI	论文	模型

Microsoft

发布时间	模型名称	参数量	机构	相关链接	开源
2019-03	MT-DNN	330M	Microsoft Research	论文	模型
2019-05	UniLM	340M	Microsoft Research	论文, GitHub	模型
2019-10	DialoGPT	1.5B	Microsoft Corporation	论文	模型
2020-02	Turing NLG	17B	Microsoft	官方博客
2021-03	Swin Transformer	29M-197M	Microsoft Research Asia	GitHub , 论文	模型

NVidia

发布时间	模型名称	参数量	机构	相关链接	开源
2019-09	Megatron-LM	8.3B (GPT-like), 3.9B (BERT-like)	NVidia	论文, GitHub
2021-10	Megatron Turing NLG	530B	Microsoft & NVIDIA	论文, 官方博客	未开源
2022-06	Global Context ViT	90M	NVidia	论文

OpenAI

发布时间	模型名称	参数量	机构	相关链接	开源
2018-06	GPT	117M	OpenAI	论文	模型
2019-02	GPT-2	1.5B	OpenAI	论文	模型
2020-05	GPT-3	GPT-3 davinci v1 (175B), GPT-3 curie v1 (6.7B), GPT-3 babbage v1 (1.3B), GPT-3 ada v1 (350M)	OpenAI	论文, GitHub	受限
2021-01	DALL-E	12B	OpenAI	论文, 官方博客, Demo
2021-02	CLIP	未知	OpenAI	论文, GitHub	模型
2021-07	Codex	Codex davinci v2 (Unknow), Codex davinci v1 (Unknow), Codex cushman v1 (Unknow)	OpenAI	论文	受限
2021-12	GLIDE	12B	OpenAI	论文, Demo
2022-01	InstructGPT	InstructGPT davinci v2 (175B), InstructGPT davinci v1 (175B), InstructGPT curie v1 (6.7B), InstructGPT babbage v1 (1.3B), InstructGPT ada v1 (350M*)	OpenAI	论文, 官网	受限
2022-04	DALL-E-2	3.5B	OpenAI	论文, 官网
2022-10	GPT-3.5	175B	OpenAI	官网	未开源
2022-10	ChatGPT	与 GPT3 相同	OpenAI	官网	未开源

Salesforce

发布时间	模型名称	参数量	机构	相关链接	开源
2019-09	CTRL	1.63B	Salesforce Research	论文	模型

Tsinghua University

发布时间	模型名称	参数量	机构	相关链接	开源
2020-10	GLM	130B	Tsinghua University & Zhipu.AI	论文, Demo	10B版模型

UC Berkeley

发布时间	模型名称	参数量	机构	相关链接	开源
2021-06	Trajectory Transformers	比 GPT 更小的架构	UC Berkeley	论文	模型

Yandex

发布时间	模型名称	参数量	机构	相关链接	开源
2022-06	YaLM	100B	Yandex	GitHub, 博客	模型

持续更新中 …

由于涉及到的模型较多，文中可能存在纰漏，还望指正，谢谢！

参考

[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
从 ELMo 到 ChatGPT：历数 NLP 近 5 年必看大模型

关于各个nlp模型的介绍和汇总
复制链接

扫一扫

专栏目录

zhingzt CSDN认证博客专家 CSDN认证企业博客

码龄4年

19: 原创

104万+: 周排名

62万+: 总排名

4万+: 访问

: 等级

240: 积分

499: 粉丝

41: 获赞

27: 评论

265: 收藏

私信

关注

热门文章

分类专栏

最新评论

MVSNet-pytorch版本理解与使用
m0_69314894: 请问一下博主可以教一下自己采集的数据怎么转成MVSNet输入格式吗？
colmap配置与使用
s178954223: 你好，博主我在使用colmap时possion重建的结果出现的是稀疏点云构成的重建，不知道是不是cuda的问题，配置是gtx1650,cuda版本是11.4
MVSNet-pytorch版本理解与使用
m0_73144710: 博主你好，请问pytorch版本不同对训练模型的结果有影响吗？
MVSNet-pytorch版本理解与使用
weixin_46529644: 博主，为什么运行eval耗费的显存比train还多，只运行save_depth那行就用了22G
colmap配置与使用
zhingzt: 有些步骤确实没法用gpu并行计算，是colmap自己优化的问题，但特征匹配一般几百张图片也就几分钟，我个人感觉还好？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。