weixin_45060958-CSDN博客

原创 An Image Is Worth 16X16 Words: Transformer For Image Recognition At Scale

论文背景Transformer在NLP相关任务中已经取得了非常好的效果，也成为了NLP任务的首选模型。这个方法主要是通过在大型文本语料库上进行预训练，然后针对较小的任务特定数据集进行微调。Transformer的优点是良好的计算效率和可扩展性，这个模型现在可以训练出参数超过100B的模型，性能也没有饱和的迹象。但是在计算机视觉的领域，卷积架构仍然占主导地位，在大规模的图像识别任务上，经典的类ResNet架构仍然是最先进的。在本文之前已经有研究将标准的Transformer直接应用于图像。主要的做法是将图

2021-03-26 16:42:16 155

原创 Attention Is All You Need

Attention Is All You Need简介这篇paper算是Attention机制最好的paper之一。对于机器翻译问题，2017年之前，占主导地位的都是比较复杂的RNN和CNN模型，由encoder接decoder组成。这些模型的输出序列hth_tht是由之前的隐藏状态ht−1h_{t-1}ht−1和当前的输入ttt决定，这就导致了只能一个一个计算hth_tht，无法进行并行化处理。于是这篇paper提出了名为Transformer的模型架构，摒弃了RNN，完全依赖于attenti

2020-10-13 14:08:07 109 1

原创 Bundle Adjustment on a Graph Processor

Bundle Adjustment on a Graph Processor简介今年7月份，英国Graphcore公司推出新一代智能处理器（Intelligence Processing Unit, IPU), 并同期发布了配套软件，Graphcore Poplar SDK 1.2。作为一款专门针对人工智能算法运算的芯片，不同于GPU的非常有限的片上cache，IPU搭载了大量的on-chip SRAM，解决了GPU提取数据慢的问题，同时在能量消耗方面也比GPU更有优势。本篇论文提出了一种通过在IPU中

2020-09-26 12:03:12 266

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人