- 博客(3)
- 收藏
- 关注
原创 An Image Is Worth 16X16 Words: Transformer For Image Recognition At Scale
论文背景Transformer在NLP相关任务中已经取得了非常好的效果,也成为了NLP任务的首选模型。这个方法主要是通过在大型文本语料库上进行预训练,然后针对较小的任务特定数据集进行微调。Transformer的优点是良好的计算效率和可扩展性,这个模型现在可以训练出参数超过100B的模型,性能也没有饱和的迹象。但是在计算机视觉的领域,卷积架构仍然占主导地位,在大规模的图像识别任务上,经典的类ResNet架构仍然是最先进的。在本文之前已经有研究将标准的Transformer直接应用于图像。主要的做法是将图
2021-03-26 16:42:16 155
原创 Attention Is All You Need
Attention Is All You Need简介这篇paper算是Attention机制最好的paper之一。对于机器翻译问题,2017年之前,占主导地位的都是比较复杂的RNN和CNN模型,由encoder接decoder组成。这些模型的输出序列hth_tht是由之前的隐藏状态ht−1h_{t-1}ht−1和当前的输入ttt决定,这就导致了只能一个一个计算hth_tht,无法进行并行化处理。于是这篇paper提出了名为Transformer的模型架构,摒弃了RNN,完全依赖于attenti
2020-10-13 14:08:07 109 1
原创 Bundle Adjustment on a Graph Processor
Bundle Adjustment on a Graph Processor简介今年7月份,英国Graphcore公司推出新一代智能处理器(Intelligence Processing Unit, IPU), 并同期发布了配套软件,Graphcore Poplar SDK 1.2。作为一款专门针对人工智能算法运算的芯片,不同于GPU的非常有限的片上cache,IPU搭载了大量的on-chip SRAM,解决了GPU提取数据慢的问题,同时在能量消耗方面也比GPU更有优势。本篇论文提出了一种通过在IPU中
2020-09-26 12:03:12 266
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人