从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型


团队博客: CSDN AI小组


相关阅读


先上 “万恶之源”:Transformer
在这里插入图片描述


按机构分类

AI21 Labs

发布时间模型名称参数量机构相关链接开源
2021-09Jurassic-1 (J1)J1-Jumbo v1 (178B),
J1-Large v1 (7.5B),
J1-Grande v1 (17B)
AI21 Labs论文 ,
官方文档,
技术报告
受限

Alibaba

发布时间模型名称参数量机构相关链接开源
2019-08StructBertstructbert.en.large(340M),
structroberta.en.large(355M),
structbert.ch.large(330M)
Alibaba Group Inc.论文,
GitHub
模型

Allen Institute for AI

发布时间模型名称参数量机构相关链接开源
2018-02ELMoSmall(13.6M),
Medium(28.0M),
Original(93.6M)
Allen Institute for AI &
University of Washington
论文模型

Amazon

发布时间模型名称参数量机构相关链接开源
2022-03DQ-BART与标准BART相比,参数减少了30倍Cornell University &
AWS AI Labs &
University of Pennsylvania
论文

Anthropic

发布时间模型名称参数量机构相关链接开源
2021-12Anthropic-LMAnthropic-LM v4-s3 (52B)Anthropic论文1,
论文2
未开源

BAAI

发布时间模型名称参数量机构相关链接开源
2021-06Wu Dao 2.01.75TBAAI官网模型

Baidu

发布时间模型名称参数量机构相关链接开源
2019-05ERNIE114MBaiduGitHub,
论文
模型

BigScience

发布时间模型名称参数量机构相关链接开源
2022-05T0pp11BBigScience etc.论文模型
2022-07BLOOM176BBigScience论文模型
2022-11BLOOMZ176BBigScience etc.论文模型

Cohere

发布时间模型名称参数量机构相关链接开源
2022-06CohereCohere xlarge v20220609 (52.4B),
Cohere large v20220720 (13.1B) ,
Cohere medium v20220720 (6.1B) ,
Cohere small v20220720 (410M) ,
Cohere xlarge v20221108 (52.4B),
Cohere medium v20221108 (6.1B)
Cohere官网受限

DeepMind

发布时间模型名称参数量机构相关链接开源
2021-07AlphaFold21MDeepMind etc.论文
2021-12Gopher280BDeepMind论文,
官网
未开源
2022-03Chincilla70BDeepMind论文未开源
2022-03GopherCite280BDeepmind &
University College London
论文
2022-04Flamingo80B (largest)Deepmind论文flamingo-mini模型
2022-05Gato1.2BDeepmind论文
2022-09Sparrow70BDeepmind论文

EleutherAI

发布时间模型名称参数量机构相关链接开源
2021-03GPT-Neo5B,
2.7B (XL)
EleutherAI论文模型
2021-06GPT-J6BEleutherAI博客模型
2021-12StableDiffusion890MLMU Munich &
Stability.ai &
Eleuther.ai
论文模型
2022-04GPT-NeoX20BEleutherAI论文模型

Google

发布时间模型名称参数量机构相关链接开源
2018-10BERTBase = 110M,
Large = 340M
Google AI Language论文模型
2019-01Transformer XL151MCarnegie Mellon University &
Google Brain
论文模型
2019-05XLNetBase=117M,
Large=360M
Google AI Brain Team &
Carnegie Mellon University
论文模型
2019-09ALBERTBase = 12M,
Large = 18M,
XLarge = 60M
Google Research &
Toyota Technological Institute at Chicago
论文模型
2019-10T511BGoogle论文模型
2019-12PegasusBase = 223M,
Large = 568M
Imperial College London &
Google Research
论文模型
2020-03ELECTRABase = 110M,
Large = 330M
Google Brain & Stanford University论文模型
2020-07BigBird取决于整体架构Google Research论文模型
2020-10ViT86M(Base) to 632M (Huge)Google Research论文模型
2021-01Switch1TGoogle论文模型
2021-06Decision Transformers117MGoogle Brain &
UC Berkeley &
Facebook AI Research
论文模型
2021-12GLaM1.2T覆盖64个专业领域,
但只有96B被激活用于推理
Google论文,
官方博客
2022-01LAMDA137BGoogle论文,
官方博客
2022-04PaLM540BGoogle Research论文,
官方博客
未开源
2022-05UL220BGoogle Research论文模型
2022-06Imagen2BGoogle Research论文,
官网
2022-06Minerva540BGoogle Research论文,
官网
2022-12Flan-T511BGoogle论文模型

Huggingface

发布时间模型名称参数量机构相关链接开源
2019-10DistilBERT66MHuggingface论文模型

iFLYTEK

发布时间模型名称参数量机构相关链接开源
2020-11MacBertMacBERT-large, Chinese(324M),
MacBERT-base, Chinese(102M)
iFLYTEK AI Research &
Harbin Institute of Technology
论文模型

Meta (Facebook)

发布时间模型名称参数量机构相关链接开源
2019-07RoBERTa356MFacebook AI &
University of Washington
论文模型
2019-10BART比 BERT 多 10%Facebook AI论文模型
2019-10XLM-RoBERTaBase = 270M,
Large = 550M
Facebook AI论文模型
2020-01mBART与BART相同Facebook AI Research论文模型
2021-07HTML400MFacebook AI &
University of Washington
论文
2022-01CM313B (largest)Facebook AI Research论文
2022-03SeeKer与基模型相同Facebook AI Research &
ETH Zürich
论文,
官网
2022-05OPT175B,
66B
Meta AI论文,
官网
模型
2022-08BlenderBot3175BMeta AI &
Mila/McGill University
论文blenderbot-3B模型,
模型
2022-11Galatica120BMeta AI论文模型

Microsoft

发布时间模型名称参数量机构相关链接开源
2019-03MT-DNN330MMicrosoft Research论文模型
2019-05UniLM340MMicrosoft Research论文,
GitHub
模型
2019-10DialoGPT1.5BMicrosoft Corporation论文模型
2020-02Turing NLG17BMicrosoft官方博客
2021-03Swin Transformer29M-197MMicrosoft Research AsiaGitHub ,
论文
模型

NVidia

发布时间模型名称参数量机构相关链接开源
2019-09Megatron-LM8.3B (GPT-like),
3.9B (BERT-like)
NVidia论文,
GitHub
2021-10Megatron Turing NLG530BMicrosoft &
NVIDIA
论文,
官方博客
未开源
2022-06Global Context ViT90MNVidia论文

OpenAI

发布时间模型名称参数量机构相关链接开源
2018-06GPT117MOpenAI论文模型
2019-02GPT-21.5BOpenAI论文模型
2020-05GPT-3GPT-3 davinci v1 (175B),
GPT-3 curie v1 (6.7B),
GPT-3 babbage v1 (1.3B),
GPT-3 ada v1 (350M)
OpenAI论文,
GitHub
受限
2021-01DALL-E12BOpenAI论文,
官方博客,
Demo
2021-02CLIP未知OpenAI论文,
GitHub
模型
2021-07CodexCodex davinci v2 (Unknow),
Codex davinci v1 (Unknow),
Codex cushman v1 (Unknow)
OpenAI论文受限
2021-12GLIDE12BOpenAI论文,
Demo
2022-01InstructGPTInstructGPT davinci v2 (175B*),
InstructGPT davinci v1 (175B*),
InstructGPT curie v1 (6.7B*),
InstructGPT babbage v1 (1.3B*),
InstructGPT ada v1 (350M*)
OpenAI论文,
官网
受限
2022-04DALL-E-23.5BOpenAI论文,
官网
2022-10GPT-3.5175BOpenAI官网未开源
2022-10ChatGPT与 GPT3 相同OpenAI官网未开源

Salesforce

发布时间模型名称参数量机构相关链接开源
2019-09CTRL1.63BSalesforce Research论文模型

Tsinghua University

发布时间模型名称参数量机构相关链接开源
2020-10GLM130BTsinghua University &
Zhipu.AI
论文,
Demo
10B版模型

UC Berkeley

发布时间模型名称参数量机构相关链接开源
2021-06Trajectory Transformers比 GPT 更小的架构UC Berkeley论文模型

Yandex

发布时间模型名称参数量机构相关链接开源
2022-06YaLM100BYandexGitHub,
博客
模型

持续更新中 …

由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!

参考

[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值