![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
transformer
文章平均质量分 72
AI强仔
人工智能爱好者、机器人爱好者
展开
-
Next-ViT: Next Generation Vision Transformer
ResNet倾向于捕获高频信号,而对低频信号较困难。ViT(Swin)倾向于捕获低频信号,忽略高频信号。而Next-ViT同时捕获高低频翻译 2023-02-17 17:45:39 · 463 阅读 · 0 评论 -
Sparse Transformers
Sparse Transformers,即稀疏Transformers。翻译 2022-12-18 21:36:19 · 1676 阅读 · 0 评论 -
ChatGPT: Optimizing Language Models for Dialogue
ChatGPT: Optimizing Language Models for Dialogue。如标题,ChatGPT为了对话使用的翻译 2022-12-16 15:22:30 · 2915 阅读 · 0 评论 -
InstructGPT:chatGPT的姊妹模型
InstructGPT:chatGPT的姊妹模型翻译 2022-12-15 17:44:42 · 3017 阅读 · 0 评论 -
GPT-3论文翻译总结
GPT-3的 Few-Shot (FS)、One-Shot (1S)、Zero-Shot (0S)效果接近有时超越fine-tune模型的效果。翻译 2022-12-10 17:00:45 · 3911 阅读 · 0 评论 -
语音识别预训练模型Hidden-Unit BERT (HuBERT)
语音识别预训练模型Hidden-Unit BERT (HuBERT)翻译 2022-11-18 15:44:53 · 6412 阅读 · 0 评论 -
语音识别预训练wav2vec 2.0
语音识别预训练wav2vec 2.0翻译 2022-11-14 17:15:11 · 3492 阅读 · 0 评论 -
Vision Transformer (ViT)
ViT有两个特点,一是采用纯Transformer,没有CNN;二是基于大量的预训练数据。翻译 2022-10-04 14:42:39 · 993 阅读 · 0 评论 -
大模型如transformers的提高训练速度,减少内存使用的方法
大模型如transformers的提高训练速度,减少内存使用的方法翻译 2022-09-30 22:18:14 · 1772 阅读 · 0 评论 -
DistilBERT, a distilled version of BERT
DistilBERT:预训练模型。将BERT模型大小减少40%,却仍保持97%的语言理解能力,以及快了60%。翻译 2022-07-14 17:57:39 · 304 阅读 · 0 评论 -
BERT embedding 降维--BERT whitening
利用BERT whitening可以将embedding 比如768维降到256维def compute_kernel_bias(vecs, n_components=256): """计算kernel和bias vecs.shape = [num_samples, embedding_size], 最后的变换:y = (x + bias).dot(kernel) """ mu = vecs.mean(axis=0, keepdims=True) cov =原创 2022-04-12 21:55:44 · 2384 阅读 · 5 评论 -
pattern-exploiting training (PET)--Few-Shot Learners
1 简介本文根据2021年《It’s Not Just Size That Matters:Small Language Models Are Also Few-Shot Learners》翻译总结的。GPT-3有1750亿的参数,它拥有惊人的小样本学习(few-shot)能力。而本文主要讲另一种方式,pattern-exploiting training (PET),模式开发训练。是将文本输入转化成完形填空(cloze)问题。所需参数很少。同时本文提出了PET的一个简单有效的修改版,支持预测多个t翻译 2022-01-23 21:59:23 · 906 阅读 · 0 评论 -
Longformer: The Long-Document Transformer
1 简介本文根据2020年《Longformer: The Long-Document Transformer》翻译总结的。以前的基于Transformer的模型,不能处理长序列,因为自注意力机制是序列长度的二次方。Longformer的注意力机制是 windowed local-context self-attention 和基于终端任务的global attention的结合。Local attention主要用来构建上下文表达,而global attention用来建立用于预测的全序列表达。2翻译 2022-01-08 23:33:05 · 418 阅读 · 0 评论 -
视觉与文本多模态模型-ViLBERT
1 简介本文根据2019年《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》翻译总结的。主要是同时处理视觉和文本输入,多模态模型。ViLBERT ( Vision-and-Language BERT),我们将流行的BERT模型扩展到多模双流模型,首先以分别独立的流来处理视觉和文本输入,然后通过co-attentional transformer相互作用。2翻译 2021-09-11 10:18:46 · 1218 阅读 · 0 评论 -
Augmented SBERT
1 简介句子对评分任务(Pairwise sentence scoring tasks)在NLP上有非常广泛的应用,如信息检索、问答、复制问题检测、聚类等。有两种处理句子对的方法:(1)cross-encoder,两个句子同时输入到网络模型中,对输入句子对采用全注意力方法,如BERT,其有较好的表现力,却在实际场景中运行效率低、开销大。如在n=10000个句子中找到相似的句子对,BERT要进行n*(n-1)/2=49995000次预测计算,在单个V100 GPU上,需要运行65小时。BERT还有个缺点翻译 2021-08-10 23:06:23 · 586 阅读 · 0 评论 -
Sentence-BERT 语句相似性、sentence embeddings
1 简介BERT在语义文本相似任务上需要输入句子对(两个句子),这会引起巨大的计算开销。如在n=10000个句子中找到相似的句子对,BERT要进行n*(n-1)/2=49995000次预测计算,在单个V100 GPU上,需要运行65小时。即BERT的这种结构使其在不适合语义相似搜索任务上,以及聚类这种非监督任务上。本文提出Sentence-BERT(SBERT),预训练BERT的一个修改版本,使用联体或者三元网络结构来获得语义上有意义的sentence embeddings,可以使用cosine-sim翻译 2021-08-08 17:44:31 · 1635 阅读 · 0 评论 -
SpanBERT
SpanBERT: Improving Pre-training by Representing and Predicting Spans这篇论文的主要贡献有三:1.提出了更好的 Span Mask 方案,也再次展示了随机遮盖连续一段字要比随机遮盖掉分散字好;2.通过加入 Span Boundary Objective (SBO) 训练目标,增强了 BERT 的性能,特别在一些与 Span 相关的任务,如抽取式问答;3.用实验获得了和 XLNet 类似的结果,发现不加入 Next Sentence翻译 2021-04-18 21:50:58 · 293 阅读 · 0 评论 -
UDA(Unsupervised Data Augmentation)-半监督学习与数据增强
1 简介当标注好的数据很少时,半监督学习在深度学习模型中有非常好的表现。目前常用的方法是一致性训练,基于大量的非标注数据进行训练来使模型可以应对各种输入噪声(或者隐状态的噪声)。有些方法是来设计各种噪声注入模型进行训练,如附加高斯噪声、dropout、对抗噪声。而UDA(Unsupervised Data Augmentation)是强调这些优秀数据增强方法的使用。不过从名字就可以看出来,UDA是对非标注数据进行数据增强,以前的方法一般是对标注数据增强。本文依据2020年《Unsupervised翻译 2021-03-21 12:40:56 · 9556 阅读 · 4 评论 -
DeBERTa (Decoding-enhanced BERT with disentangled attention)
1 简介DeBERTa (Decoding-enhanced BERT with disentangled attention),如名字所述,有两个技术来改善BERT和RoBERTa,第一个是disentangled attention(解开的注意力),每个单词使用两个向量分别编码文本和位置,在单词们之间的注意力权重是通过使用它们的文本和相对位置的解开矩阵分别进行计算的。第2个技术是使用了一个加强的mask decoder,在decoding层引入绝对位置来预测masked tokens。本文根据202翻译 2021-02-09 22:43:24 · 2732 阅读 · 0 评论 -
各种Transformer模型总结与比较
1 Transformer发展历程Transformer类的模型目前在自然语言处理任务中大放异彩,部分任务已超越人类水平。本文将Transformer分为三大类别,分别是seq2seq、Autoregressive(AR)和Autoencoding(AE),以及介绍了BERT、DeBERTa、GPT、BART等等各种transformer模型。1.1 序列到序列模型(seq2seq)seq2seq属于encoder-decoder结构的一种,基本思想就是利用两个RNN,一个RNN作为encoder,另原创 2021-02-08 16:13:28 · 8389 阅读 · 3 评论 -
GPT-2只需要非监督学习
1 简介GPT先是非监督的预训练,然后进行监督训练微调。而GPT-2,是想只需要非监督训练即可,不用再监督训练。本文根据2019《Language Models are Unsupervised Multitask Learners》翻译总结。从标题就可以看出来,作者尝试只使用非监督学习。监督学习是脆弱、敏感的,比如当数据分布稍微改变,或者只针对的某个特定任务。我们本文描述语言模型可以不需要任何监督训练微调(只有预训练的非监督学习),即零调整,包括参数和架构,来应用于下游任务。作者认为语言模型就该是翻译 2021-02-07 22:15:28 · 976 阅读 · 1 评论 -
Global Attention和Local Attention
1 简介本文根据2015年《Effective Approaches to Attention-based Neural Machine Translation》翻译总结。对于翻译任务,第一次引入注意力机制的是[Bahdanau et al.2015]《Neural machine translation by jointly learning to align and translate》,本文是第二篇。本文提出了两种注意力机制,global和local。翻译任务是将源语句翻译成目标语句,其中Glo翻译 2021-02-07 10:59:54 · 950 阅读 · 0 评论 -
DPR:一种开放式问答(QA)模型
1 简介DPR:Dense Passage Retrieval,密集文本段检索。本文根据《Dense Passage Retrieval for Open-Domain Question Answering》翻译总结。开放式问答依赖于有效的文本检索来选择候选内容。传统的方法TF-IDF、BM25采用的是稀疏向量空间方法。而我们发现可以使用密集表达,其中embedding可以在双重encoder框架下学习小数量的问题与文章来获得,我们采用的BERT来学习文本embedding。密集的(隐藏层语义编码)翻译 2021-02-04 20:42:41 · 2751 阅读 · 0 评论 -
BART: Bidirectional and Auto-Regressive Transformers
1 简介BART: Bidirectional and Auto-Regressive Transformers.本文根据2019年《BART: Denoising Sequence-to-Sequence Pre-training for NaturalLanguage Generation, Translation, and Comprehension》翻译总结。BERT是双向encoder,GPT是left-to-right decoder。BART可以说是既有encoder,又有decode翻译 2021-01-31 21:48:15 · 1582 阅读 · 2 评论 -
GPT:Generative Pre-Training改善语言理解
1 简介GPT:Generative Pre-Training。本文根据《Improving Language Understanding by Generative Pre-Training》翻译总结。GPT:一种半监督方法,首先是非监督的预训练,然后进行监督训练微调。像LSTM结构的模型也使用预训练进行了提升,但是因为LSTM限制其预测能力。GPT采用的transformer decoder 结构。监督训练微调,对于大部分任务只需要微调3 epoch就可以了。GPT更适合大数据的任务识别,尤翻译 2021-01-30 14:14:23 · 1705 阅读 · 0 评论 -
RoBERTa: A Robustly Optimized BERT Pretraining Approach
1 简介本文根据2019年《RoBERTa: A Robustly Optimized BERT Pretraining Approach》翻译总结的。RoBERTa:稳健优化BERT方法。对BERT进行了优化。RoBERTa :Robustly optimized BERT approach.RoBERTa包括:采用动态mask;采用FULL-SENTENCES without NSP loss;没有使用NSP,NSP作用不大。large mini-batches;采用更大的batch。翻译 2021-01-25 16:46:13 · 737 阅读 · 0 评论 -
ALBERT:精简版的BERT
1 简介ALBERT: A LITE BERT,一个精简版的BERT。本文根据2020年《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》翻译而成。ALBERT引进了两个参数减少的技术。第一个是因子分解embedding参数。通过将大的单词embedding矩阵分解成两个小的矩阵,我们将隐藏层的size从单词embedding的size分离出来。这种分离使得我们可以轻松增加隐藏层size,而不用明翻译 2021-01-24 12:17:05 · 420 阅读 · 0 评论 -
ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training
1 简介Prophet:先知。ProphetNet,先知网络,名字起的牛。本文根据2020年《ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training》翻译总结。ProphetNet:将在XLNet中提到的two-stream 自注意力扩展到n-strean 自注意力。ProphetNet可以同时预测未来的n-gram,而原始的transformer只预测未来的一个单词。2 ProphetNetProph翻译 2021-01-23 22:10:53 · 571 阅读 · 0 评论 -
XLM跨语言模型-论文笔记
1 简介跨语言模型XLMs。本文根据2019年Facebook AI Research的《Cross-lingual Language Model Pretraining》翻译总结。XLMs有如下贡献:1) 我们介绍了一个新的非监督方法,可以使用跨语言模型学习跨语言表述(TLM),同时研究了两个单语言的预训练,CLM和MLM。2) 当并行数据(双语数据)可以获得时,我们引入了一个监督学习,来改善跨语言预训练。3) 我们在跨语言分类、非监督机器翻译、监督机器翻译方面,显著超过了以前的优秀模型。4)翻译 2021-01-15 11:52:19 · 1255 阅读 · 0 评论 -
kaggle知识跟踪比赛Riiid总结
1 赛题介绍知识跟踪,即根据学生历史学习、答题记录,预测学生能否正确回答下一题。有3张表:(1) 学生交互记录表:时间、userid、问题id(或者课程id)、任务id、答题答案、是否回答正确、回答上一题花费的时间、是否看了上一题的解释。1亿多条记录,近40万user。(2) 问题详情表:问题id、bundle_id(哪些问题是一起呈现的)、正确答案、类型part、标签tag。13523个问题。(3) 课程表:课程id、课程类型part、课程标签tag、课程主要目的描述。418个课程。预测需要在原创 2021-01-10 16:45:52 · 1074 阅读 · 2 评论 -
SAKT:self attentive knowledge tracing知识跟踪模型
1 简介本文根据2019年《A Self-Attentive model for Knowledge Tracing》翻译终结。SAKT:self attentive knowledge tracing.知识追踪(Knowledge tracing)的任务是模拟每个学生在一系列学习活动中对知识概念的掌握情况。最近几年,基于RNN(Recurrent Neural Networks)方法,如 Deep Knowledge Tracing (DKT) 和Dynamic Key-Value Memory N翻译 2020-12-27 23:18:22 · 4681 阅读 · 8 评论 -
论文笔记SAINT+
SAINT+是SAINT的优化。学生知识跟踪的。本人的SAINT参考:https://blog.csdn.net/zephyr_wang/article/details/109684269SAINT+,根据《SAINT+: Integrating Temporal Features for EdNet Correctness Prediction》翻译总结的。SAINT+整体模型和SAINT一样,只是在response embeding 加入两个时间变量:elapsed time:the time翻译 2020-11-16 22:18:00 · 1365 阅读 · 2 评论 -
SAINT:一个基于transformer的知识跟踪模型
1 简介SAINT: Separated Self-AttentIve Neural Knowledge Tracing. 一个基于transformer的知识跟踪模型。本文根据《Towards an Appropriate Query, Key, and Value Computation for Knowledge Tracing》翻译总结。知识跟踪:基于每个学生过去的学习活动,预测学生对未来一个主题的理解。比如EdNet数据集,给了每个学生过去所有练习题的情况(练习题的类别、学生是否回答正确翻译 2020-11-13 23:13:42 · 4256 阅读 · 14 评论