“大模型”根基—Transformer的360篇论文大盘点

最新推荐文章于 2024-12-31 07:00:00 发布

woshicver

最新推荐文章于 2024-12-31 07:00:00 发布

阅读量268

点赞数

文章标签： transformer 深度学习人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzU2NTUwNjQ1Mw==&mid=2247520272&idx=1&sn=d9ca917b128580809747c419f09b12de&chksm=fd5621b56839d3ba2507115eaf130d8ff4bac1aa209d602f447cc492133bb78566dbbe99c74e&scene=126&sessionid=0

版权

2017年，来自谷歌的几个研究员写下《Attention is All you need》的题目，给世界带来了Transformer模型架构，它成为了今天“大模型”繁荣背后无可争议的根基。

OpenAI的GPT，Meta的Llama以及一众最主流大语言模型都是在Transformer的基础上生长起来,某种程度上，今天所有AI模型层面的研究都在围绕对Transformer的掌控与超越展开。

如何快速发一篇这一领域的论文呢，我给大家整理了135篇Transformer魔改方案论文，包括最新的idea顶会等，希望对大家的学习有多帮助。

扫码回复"transformer"

领取135篇魔改论文合集

另外我还邀请了常年担任NeurIPS，ICML，ICLR，KDD，IJCAI等国际会议审稿人一林老师在4月17日晚20:00给大家带来《Graph Transformer for GraphRepresentation Learning》。

直播大纲：

1.图表示学习

2. Graph Transformer

Transformer简介
Graph Transformer简介
Graph Transformer经典模型之Graphormer (NeurlPS 2021)
Graph Transformer经典模型之NAGphormer (ICLR 2023)

3.Graph Transformer的末来方向

另外还邀请多位顶会大咖，做了最全Transformer系列课程，带你吃透理论和代码，了解未来应用，扫清学习难点。本次课程有两大亮点:

亮点一：精讲论文+代码

亮点二：详解Transformer的多方向应用

论文+代码

和

多方向应用

精讲VIT、PVT、Swin Transformer、DETR论文和代码，扎实理论+吃透代码。

详解预训练语言模型应用/基于VIT的语义分割算法/在视觉任务中的应用与高效部署。

0.01元解锁Transfoemer系列课

带你吃透理论和代码

加课程回复“Transformer"获取360篇transform顶会论文合集

Transtormer系列课程目录

阶段一：吃透论文和代码，牢牢掌握Transformer基础

1：CV-transformer 概述

2：CV-transformer VIT论文讲解

3：CV-transformer PVT论文详解

4：CV-transformer PVT代码详解

5：CV-transformer Swin Transformer论文详解

6：CV-transformer Swin Transformer代码详解

7：CV-transformer DETR 论文详解

8：CV-transformer DETR代码讲解

9：CV-transformer——VIT

10：CV-transformer——MAE

11：CV中的transformer专题MAE详解

阶段二：掌握Transformer多方向应用

1：Transformer简介和预训练语言模型应用

2：基于Vision Transformer的语义分割算法

3：Transformer在视觉任务中的应用与高效部署

ViT为的主图像分类网络
Segformer为主的图像分割网络
常用轻量化方法介绍

以Transformer为主的视觉任务设计高效的轻量化方法

未来挑战与研究方向

0.01元解锁22节系列课

带你吃透理论和代码

Transtormer系列论文

另外我还整理了通用ViT、高效ViT、训练transformer、卷积transformer等细分领域的226篇顶会论文，带你从「Transformer的前世」速通到大模型。

论文目录：（因篇幅有限，仅展示前十篇）

1. Neural Machine Translation by Jointly Learning to Align and Translate(2014)

2. Attention is All you need (2017)

3. On Layer Normalization in the Transformer Architecture (2020)

4. Universal Language Model Fine-tuning for Text Classification (2018)

5. Harnessing the Power of LLMs in Practice (2023)

6. Cramming: Training a Language Model on a Single GPU in One Day (2022)

7. LoRA: Low-Rank Adaptation of Large Language Models (2021)

8. Training Compute-Optimal Large Language Models (2022)

9. Constitutional AI: Harmlessness from AI Feedback (2022)

10. Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling (2023)

扫码回复“Transformer"获取226篇transform顶会论文合集

带你从「Transformer的前世」速通到大模型

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。