愤怒的可乐
主要研究NLP、深度学习、大模型。添加微信:greyfoss_szu 一起交流~,添加时请备注CSND。
展开
-
[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization
⭐ 作者提出了 Circle 损失,这是一种简单的深度特征学习损失函数。通过对每个相似度得分进行加权,Circle 损失使深度特征学习受益于灵活的优化和明确的收敛目标。原创 2024-09-04 19:30:00 · 678 阅读 · 0 评论 -
[论文笔记]Dimensionality Reduction by Learning an Invariant Mapping
⭐ 作者提出了一个对比学习损失函数,可以应用于带标签的文本对上,但是其负样本(不相似)对生成的方法比较暴力——样本数量的平方级别。原创 2024-09-04 09:08:57 · 725 阅读 · 0 评论 -
[论文笔记]GAUSSIAN ERROR LINEAR UNITS (GELUS)
看完本篇文章你就会深入理解BERT中用到的GELU激活函数。原创 2024-04-28 09:34:03 · 856 阅读 · 0 评论 -
[论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(下)
该论文提出了旋转位置编码,是后续很多大模型默认的编码方式。原创 2024-04-13 19:59:04 · 398 阅读 · 0 评论 -
[论文笔记]ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING(上)
该论文提出了旋转位置编码,是后续很多大模型默认的编码方式。原创 2024-04-13 19:56:35 · 268 阅读 · 0 评论 -
[论文笔记]DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning
本篇论教你如何训练一个强化学习模型来斗地主原创 2024-03-11 19:00:31 · 571 阅读 · 0 评论 -
[论文笔记]MatchPyramid
⭐ 作者将文本匹配看作是图像识别任务。将两端文本单词之间的匹配矩阵当成是图像,然后应用分层卷积网络捕获丰富的匹配模式。原创 2023-11-23 20:00:00 · 1124 阅读 · 0 评论 -
[论文笔记]BGE
⭐ 作者发布了C-Pack,一套推进中文文本嵌入领域的资源包。包含中文文本嵌入基准C-MTEB、大规模文本嵌入数据集C-MTP和多个规模的嵌入模型BGE。同时还发布了完整的训练方法。原创 2023-10-31 22:18:41 · 1327 阅读 · 0 评论 -
[论文笔记]RetroMAE
⭐ 作者提出了一种掩码自编码框架RetroMAE,用于预训练面向检索的语言模型:输入句子在编码器和解码器中被随机遮盖,然后将句子嵌入与解码器的遮盖输入拼接起来,重构原始输入。原创 2023-10-31 21:48:28 · 969 阅读 · 0 评论 -
[论文笔记]GTE
⭐ 本篇工作提出了一个两阶段对比学习方法,通过一个改进的对比学习目标,在固定的批次大小下能够有效地扩大负样本池,在无监督预训练阶段采用在网上公开的数据构建出大量的弱监督文本对,在有监督微调阶段也从大量任务和领域中收集数据进行微调,结合这两个阶段训练了一个统一的文本嵌入模型。原创 2023-10-28 09:09:47 · 1790 阅读 · 0 评论 -
[论文笔记]E5
⭐ 作者提出了E5模型,以带弱监督信号的对比学习方式训练。提出了一种新的数据集CCPairs,在这个新的数据集上E5得到了不错的性能。原创 2023-10-28 09:08:22 · 958 阅读 · 0 评论 -
[论文笔记]MobileBERT
⭐ 作者提出了MobileBERT,是一种任务无关的BERT变体,仅需简单的微调就能广泛地应用于不同的下游任务。MobileBERT被设计成和BERT-large一样深,是一种深而窄的结构,通过采用瓶颈结构与在自注意力和前馈网络之间的平衡来窄化每层。提出了替换层归一化和改用relu激活来提升模型的速度,但会有一定程度上(一个点左右)的性能下降。原创 2023-10-23 20:00:00 · 470 阅读 · 0 评论 -
[论文笔记]NEZHA
⭐ 本篇工作,作者主要提出了功能相对位置编码技术,可以使模型具有更强的扩展性,当遇到比训练中序列长度更长的序列时,依然可以发挥作用。原创 2023-10-22 22:29:15 · 709 阅读 · 3 评论 -
[论文笔记]GPT-2
⭐ 作者提出了GPT-2,针对GPT-1进行了一些修改,基于无监督训练。使用Pre-LN的层归一化方法;在最后一个自注意力块后添加了一个额外的层归一化;修改了残差层权重缩放因子;扩充了词汇表;将上下文大小从512扩充到了1024;使用了更大的批次512。作者开始注意到零样本设定下的表现,观察到语言模型的容量对性能至关重要。给最终性能超群的175B参数GPT-3一个启发。原创 2023-10-21 10:00:01 · 723 阅读 · 0 评论 -
[论文笔记]GPT-1
⭐ 作者提出了GPT(1代),一种基于大量无标签文本数据上进行语言建模任务预训练,然后通过进行与任务匹配的较小修改来进行微调,取得了不错的效果。原创 2023-10-20 20:00:00 · 828 阅读 · 0 评论 -
[论文笔记]Sentence-BERT[v2]
⭐ 作者提出了SBERT,通过孪生/三胞胎网络结构来微调BERT,然后对BERT的输出求平均可以得到包含语义信息的句向量。能用于语义搜索、聚合以及大规模语义相似度比较等场景。具体使用什么网络结构取决于数据集。原创 2023-10-19 21:14:29 · 841 阅读 · 0 评论 -
[论文笔记]SimCSE
⭐ SimCSE是一个简单的对比学习框架,它可以通过无监督和有监督的方式来训练。对于无监督方式,仅利用Dropout的随机性,对同一个句子输入两次得到的不同嵌入做为对比学习的正样本对。对于有监督方式,采用NLI中的前提和蕴含做为正样本对,前提和矛盾作为困难负样本对。该方法可以解决BERT/RoBERTa模型句嵌入各向异性问题,推进了SOTA的结果。原创 2023-10-14 15:38:35 · 813 阅读 · 0 评论 -
[论文笔记]Poly-encoder
:star: 通过引入了code向量来改造BERT提出了Poly-encoder模型,它结合了Bi-encoder和Cross-encoder的优点,可以用于生产部署。原创 2023-10-07 19:22:02 · 465 阅读 · 0 评论 -
[论文笔记]BitFit
⭐ 作者提出仅对基于Transformer模型的偏置项进行高效微调的方法——BitFit——就能达到和全量微调媲美(大多数情况下略逊,少数情况下超越)的性能。原创 2023-10-03 09:52:59 · 628 阅读 · 0 评论 -
[论文笔记]GLM
⭐GLM通过将不同类型的下游任务的预训练目标统一为自回归填空目标,得到了一个可以同时用于自然语言理解和自然语言生成的通用框架,还取得了较好的性能。原创 2023-10-02 15:42:14 · 512 阅读 · 0 评论 -
[论文笔记]UNILM
⭐ 提出了一个新的统一预训练语言模型UniLM,可以同时用于自然语言理解和生成任务的微调。该模型基于三种语言建模任务来进行预训练:单向、双向和序列到序列预测。通过使用共享的Transformer网络和特定的自注意力掩码控制预测所依赖的上下文来实现统一建模。原创 2023-10-01 19:40:54 · 545 阅读 · 1 评论 -
[论文笔记]MacBERT
⭐ 作者基于RoBERTa提出了MacBERT,在多个方面改进了RoBERTa,采用纠错型掩码语言模型(MLM as correction,Mac)的掩码策略,并用SOP任务替换了原始BERT中的NSP任务。通过实验正面了MacBERT在中文各大任务上表现最佳。原创 2023-09-29 13:35:25 · 928 阅读 · 0 评论 -
[论文笔记]P-tuning v2
⭐ 作者提出了P-tuning v2,一种针对提示微调的改进方法。充分挖掘了提示微调的潜力,将连续提示应用于预训练模型的每一层,而不仅仅是输入层(类似prefix-tuning)。在不同模型规模和任务上都达到了和全量微调媲美的结果。原创 2023-09-22 21:44:44 · 844 阅读 · 1 评论 -
[论文笔记]P-tuning
⭐ 本篇工作作者提出了P-tuning,使GPT在NLU上表现比传统的全量微调的GPT更好的效果。证明了语言模型在预训练期间能够有效地捕捉更多世界知识和先前任务知识。原创 2023-09-22 21:42:56 · 531 阅读 · 1 评论 -
[论文笔记]Prompt Tuning
⭐ 本篇工作提出了提示微调,一种仅微调在输入前添加的连续嵌入向量的高效微调方法,在模型规模足够大的情况下达到了媲美传统模型微调的性能。原创 2023-09-21 20:00:00 · 1072 阅读 · 0 评论 -
[论文笔记]Prefix Tuning
作者通过固定语言模型的参数而优化一些连续前缀。只需要修改0.1%的参数量,prefix微调能获得较好的效果。通过前馈神经网络来参数化前馈参数矩阵。原创 2023-09-20 20:48:10 · 655 阅读 · 0 评论 -
[论文笔记]Adapter turning
⭐ 本篇论文提出了在Transformer中注入一些适配器层(adapter layer),然后仅微调这些适配器层和归一化层就可以达到和全量微调相似的表现,但前者仅需要微调后者0.5%-8%的参数量。并且通过大量的实验来论证了作者的观点。原创 2023-09-19 20:00:00 · 553 阅读 · 1 评论 -
[论文笔记]RE2
19年发布的RE2模型,模型简单,推理快速,性能强大。原创 2023-09-16 17:41:41 · 669 阅读 · 0 评论 -
[论文笔记]BiMPM
本篇论文提出了双向匹配来提取交互特征,提出了多视角匹配操作,可用于文本匹配。原创 2023-09-10 15:49:54 · 655 阅读 · 0 评论 -
[论文笔记]ESIM
经典论文ESIM笔记,本论文作者提出的该模型可作为后续工作的一个baseline,包含了自注意力、双向LSTM、各种语义特征组合。模型简单,效果不错。原创 2023-09-05 07:52:39 · 757 阅读 · 0 评论 -
[论文笔记]A COMPARE-AGGREGATE MODEL FOR MATCHING TEXT SEQUENCES
通过比较聚合框架来计算语句向量,提出了一种新颖的比较函数。原创 2023-09-03 20:02:39 · 911 阅读 · 0 评论 -
[论文笔记]SiameseNet
通过孪生网络+对比损失来对语句向量化,可以应用到各种不同下游任务。原创 2023-09-03 14:10:48 · 1234 阅读 · 0 评论 -
[论文笔记]DSSM
第一篇利用DNN为查询和文档建模的论文。原创 2023-08-31 21:29:25 · 483 阅读 · 0 评论 -
[论文笔记]ON LAYER NORMALIZATION IN THE TRANSFORMER ARCHITECTURE
通过将层归一化放到残差连接内部,所谓的Pre-LN的做法,可以安全地移除需要调参的学习率预热阶段,并且还可以提升Transformer的训练速度。原创 2023-08-18 19:26:50 · 1849 阅读 · 0 评论 -
[论文笔记]Self-Attention with Relative Position Representations
本篇论文为Transformer建模了有限长度的相对位置信息,并可以共享到所有的序列。原创 2023-08-17 03:00:00 · 199 阅读 · 0 评论 -
[论文笔记]Layer Normalization
层归一化的论文笔记,通过对每层的所有神经元计算归一化项来缩放平移输入的分布到正态分布,从而加快学习速度。原创 2023-08-16 19:00:00 · 866 阅读 · 0 评论 -
[论文笔记]Glancing Transformer for Non-Autoregressive Neural Machine Translation
本篇工作通过一种训练方法训练一个可以利用Transformer并行解码且表现还不错的非自回归语言模型。原创 2023-08-15 20:00:00 · 1899 阅读 · 2 评论 -
[论文笔记]Batch Normalization
加快模型训练必备的技巧。原创 2023-08-11 20:36:35 · 1222 阅读 · 0 评论 -
[论文笔记]Memory Consolidation for Contextual Spolen Language Understaindg with Dialogue Losistic Infere
这篇论文提出了一个新的对话逻辑推理(dialogue logistic inference,DLI)任务在多任务框架下与SLU一起来强化上下文记忆。原创 2023-07-31 19:00:00 · 100 阅读 · 0 评论 -
[论文笔记]End-to-End Memory Networks with Knowledge Carryover for Multi-Turn Spoken Language Understandi
包含多轮对话知识的自然语言理解端到端网络论文解读。原创 2023-07-27 09:06:09 · 90 阅读 · 0 评论