- 博客(61)
- 收藏
- 关注
原创 【扩散模型(一)】综述:扩散模型在文本生成领域应用
这篇论文提供了一个关于扩散模型在文本生成任务中应用的全面概述,总结了最新的研究进展,并从新颖的文本生成任务分类角度对研究进行了分类和总结。论文还从多个角度区分了扩散模型和预训练语言模型,并详细阐述了现有挑战和预期的未来研究方向,为相关领域的研究人员提供了有价值的见解。
2024-03-15 20:00:27 3106
原创 【Kimi帮我看论文(四)】TransE:Translating Embeddings for Modeling Multi-relational Data
TransE是一种新颖的知识库嵌入方法,它通过将关系视为实体嵌入向量间的平移来建模多关系数据。这种方法在参数数量上更为精简,易于训练,且在大规模数据集上表现出色。尽管TransE在处理某些特定类型的三元关系时可能存在局限性,但其在多关系数据建模领域显示出巨大的潜力,并为未来的研究提供了新的方向。
2024-03-13 09:40:15 1227
转载 【深度学习数学基础】数学中英文符号简写含义
i.i.d. ------- independently and identically distributed 独立同分。w.r.t. ------- with respect to 常用于求导,或者满足一定条件之类的情况。x* = arg min f(x) ------- 就是指f(x)取得最小值时,变量x的取值。r.v. ------- random variable 随机变量。iff ------- if and only if 当且仅当。s.t. ------- subject to 约束于。
2024-03-13 09:22:43 512
原创 【深度学习数学基础】隐变量条件概率建模
这个公式是贝叶斯定理的一个应用,用于在给定上下文或条件的情况下计算某个事件的概率。这个公式通过积分来实现这一点,它将输出的概率分解为对所有可能的潜在向量的条件概率的加权平均。简而言之,这个公式通过积分所有可能的潜在状态来计算给定输入下输出的条件概率,这是生成模型中常见的一种处理潜在变量的方法。为了计算在给定输入的情况下输出的确切概率,我们需要考虑所有这些潜在向量。上面的公式是一个条件概率的积分形式,它描述了在给定输入。这通常是由模型的编码器部分给出的。的集合进行积分,以考虑所有可能的潜在状态。
2024-03-11 11:35:07 401
原创 【标准化流在文本上的应用(一)】Continuous Language Generative Flow
这篇论文提出了一种新的基于流的语言生成模型,该模型在连续潜在空间中处理离散语言数据,并在多个下游任务中展示了其有效性。通过非自回归和自回归变体,该模型在密度估计、问题生成、机器翻译和问答数据增强方面均取得了显著的改进。尽管在非自回归生成质量方面仍有提升空间,但该研究为自然语言生成领域提供了有价值的新视角。
2024-03-11 10:45:27 930
原创 【深度学习数学基础】变分推断
变分推断的核心思想是将复杂的后验分布问题转化为一个优化问题,通过寻找一个简单的分布(称为变分分布)来近似真实的后验分布。在贝叶斯推断中,我们通常想要计算后验概率分布 p(z|x),即在观测到数据 x 的情况下,潜在变量 z 的概率分布。然而,对于许多复杂的模型,这个后验分布往往难以直接计算,因为它涉及到高维积分,这在计算上是非常昂贵的。然而,变分推断也有一些局限性,例如它可能无法捕捉到后验分布的所有复杂性,特别是在潜在空间非常复杂的情况下。:通过优化目标函数来调整变分分布的参数 θ,使得 q(z;
2024-03-07 16:29:29 607
原创 【flow-based model [二]】 Block Neural Autoregressive Flow
本文提出了B-NAF,这是一种新型的归一化流,用于有效和高效地逼近复杂密度函数。B-NAF通过直接参数化变换来确保自回归性和单调性,同时显著减少了参数数量。实验结果表明,B-NAF在多个任务上与现有的NFs相比具有竞争力,为未来的研究提供了新的方向。
2024-03-05 21:41:30 960
原创 【flow-based model (一)】AdvFlow: Inconspicuous Black-box Adversarial Attacks using Normalizing Flows
AdvFlow是一种利用归一化流进行黑盒对抗攻击的方法,它通过生成与干净数据分布相似的对抗样本来提高攻击的隐蔽性。论文的实验结果表明,AdvFlow在攻击成功率和查询次数方面优于现有方法,并且在对抗样本检测器面前具有较低的可检测性。论文还提出了未来的研究方向,包括扩展到其他数据类型和提高分类器的鲁棒性。
2024-03-05 15:44:31 895
原创 【深度学习数学基础】Hebbian图(Hebbian Graph)
Hebbian图(Hebbian Graph)是一种基于神经科学原理的网络结构,它受到唐纳德·赫布(Donald Hebb)提出的赫布学习规则(Hebb’s rule)的启发。赫布学习规则是神经科学中描述神经元之间突触连接如何通过经验而改变的一个理论,通常被概括为“一起激发的神经元会连接在一起”(neurons that fire together, wire together)。例如,在无监督学习中,赫布规则可以用来增强数据中相似模式的表示,从而帮助网络更好地区分和识别不同的模式。
2024-03-02 16:33:45 370
原创 【深度学习数学工具】 Riemannian Walk 黎曼行走
黎曼行走是指在黎曼流形上进行的随机行走,其中行走的路径受到流形的几何结构的约束。在黎曼流形上,行走的“方向”和“距离”通过黎曼度量来测量。不同于欧几里得空间中的直线路径,黎曼行走的路径是通过流形上的测地线(geodesics)来定义的,这些测地线是流形上连接两点的最短路径。在随机游走的背景下,黎曼行走可以被理解为在高维空间中的随机路径。与在一维或二维空间中的简单随机游走不同,黎曼行走涉及到在更高维度的欧几里得空间中进行随机步。
2024-02-28 11:41:05 536
原创 【持续学习(十一)】Continual Learning: Applications and the Road Forward
论文首先调查了当前的持续学习领域,并展示了许多论文研究了内存受限的设置,对计算成本的关注较少。然后,介绍了所有需要某种形式的持续学习的问题,这些问题的解决方案本质上依赖于持续学习。最后,建立了四个持续学习研究的有前景的方向,特别是在我们描述的场景中。总的来说,许多这些应用在计算上的限制比内存上的限制更大,因此我们主张更多地探索这个设置。
2024-02-28 11:35:14 755
原创 【持续学习(十)】Bayesian Parameter-Efficient Fine-Tuning for Overcoming Catastrophic Forgetting
论文提出了一种新的贝叶斯参数高效微调方法,用于解决在微调大型预训练模型时出现的灾难性遗忘问题。通过在微调过程中保留预训练知识,作者的方法在不降低微调性能的同时,成功克服了灾难性遗忘。实验结果表明,使用Kronecker分解近似的Hessian比对角近似提供了更有效的预训练知识保留和更好的微调性能。尽管存在一些限制,但这项工作为未来在更大模型上的应用提供了有价值的见解。
2024-02-27 11:32:34 917
原创 【思考】为什么大模型lora微调经常用在attention的Q和V层而不用在K层呢
LoRA(Low-Rank Adaptation)通常在模型微调时被用于Transformer模型的注意力(Attention)机制中,尤其是在查询(Query, Q)和值(Value, V)层,而不是键(Key, K)层。这种选择背后有几个原因,主要涉及到模型效率、特定层的作用以及对最终性能的影响。
2024-02-27 10:54:21 2422
原创 【深度学习数学工具】Butterfly Factorization
Butterfly Factorization 是一种高效计算和表示大型矩阵的技术,特别是在这些矩阵具有某些结构性质(如低秩、稀疏性或特定的几何结构)时。这种方法来源于计算数学和数值线性代数领域,它通过分解大型矩阵为更小、结构化的矩阵乘积来减少存储和计算成本。Butterfly因子化得名于其特有的数据流图形状,类似于蝴蝶的翅膀。
2024-02-27 10:20:27 545
原创 【深度学习数学工具】Hadamard乘积
Hadamard乘积(也称为逐元素乘积、点乘或Schur乘积)是两个矩阵之间的一种操作,它产生一个新的矩阵,新矩阵中的每个元素是原始两个矩阵中对应位置元素的乘积。对于两个形状相同的矩阵A和B,它们的Hadamard乘积CA∘BCijAij×Bij其中CijAij和Bij分别是矩阵CA和B在第i行第j列的元素。
2024-02-27 10:02:44 1504
原创 【深度学习数学工具】K-FAC:Kronecker-factored Approximate Curvature
Kronecker-factored Approximate Curvature (K-FAC) 是一种优化深度神经网络的先进方法,特别适用于大规模网络。K-FAC通过近似神经网络的Hessian矩阵的结构,以更有效率和准确性的方式更新网络权重。这种方法基于一个关键的观察:深度网络的Hessian矩阵(即损失函数相对于网络权重的二阶导数矩阵)可以被分解为更小的Kronecker积形式的矩阵的集合。这样的分解允许K-FAC以分块的形式高效地近似这些矩阵,从而加速训练过程,特别是在使用大型数据集和复杂模型时。
2024-02-27 10:01:24 453
原创 【深度学习数学工具】拉普拉斯近似
Laplace近似是一种用于估计后验概率分布的方法,特别是在贝叶斯统计中,当后验分布的直接计算非常困难或不可能时。这种方法以皮埃尔-西蒙·拉普拉斯的名字命名,他是18世纪的一位法国数学家和天文学家。
2024-02-27 10:00:24 627
原创 【深度学习数学工具】先验概率和后验概率
先验概率(Prior probability)和后验概率(Posterior probability)是贝叶斯统计中的两个核心概念,它们在概率论和统计决策中扮演着重要的角色。
2024-02-27 09:59:25 1211
原创 【持续学习系列(九)】《Continual Learning with Pre-Trained Models: A Survey》
这篇论文是关于预训练模型(PTM)在持续学习(CL)中的应用的全面调查。持续学习旨在使学习系统能够随着数据的演变吸收新知识,同时克服在学习新知识时对旧知识的灾难性遗忘。论文将现有的方法分为三类:基于提示的方法、基于表示的方法和基于模型混合的方法,并对它们进行了比较分析。
2024-02-03 23:33:54 1516
原创 【阅读笔记】Chain of LoRA
Chain of LoRA (COLA) 是一种新的微调框架,它通过迭代优化和残差学习来提高大型语言模型在特定任务上的性能。与现有的LoRA方法相比,COLA在不增加计算成本的情况下,能够实现更好的泛化性能。通过实验验证,COLA在多个模型和任务上都显示出了其有效性,并为未来的研究提供了新的方向。
2024-01-11 22:22:11 1301
原创 【持续学习系列(八)】《Continual Learning Through Synaptic Intelligence》
论文通过引入智能突触的概念,提出了一种新的持续学习方法,该方法通过让每个突触估计其对解决过去任务的重要性,并惩罚变化最重要的突触,从而在不断变化的数据分布中实现新任务的学习,同时最小化对旧任务的遗忘。实验结果表明,这种方法在多个数据集上都表现出了良好的性能,为解决灾难性遗忘问题提供了一种新的视角。
2024-01-05 20:11:07 1085
原创 【持续学习系列(七)】Gradient Episodic Memory for Continual Learning
论文提出了一个名为GEM的模型来解决持续学习中的灾难性遗忘问题,并在实验中展示了其有效性。GEM通过使用情节记忆来最小化对旧任务性能的负面影响,并允许有益的知识传递。尽管GEM在实验中表现出色,但仍有改进的空间,特别是在利用任务描述符、记忆管理和计算效率方面。
2024-01-05 17:59:17 1193
原创 【持续学习系列(六)】《iCaRL》
iCaRL是一种新的训练策略,它允许在类增量学习环境中同时学习分类器和数据表示。通过使用最近均值样本规则、基于放牧的优先样本选择和知识蒸馏,iCaRL能够在长时间内增量学习多个类别,而其他方法很快就会失败。尽管如此,作者认为类增量分类仍然是一个开放的研究领域,特别是在提高性能和探索隐私敏感的应用方面。
2024-01-05 15:51:07 600
原创 【持续学习系列(五)】《Progressive Neural Networks》
渐进式神经网络是一种新型的模型架构,它通过保留预训练模型的池并通过侧向连接提取新任务的有用特征来解决灾难性遗忘问题。这种网络在多个强化学习领域进行了广泛的评估,并显示出在不破坏之前学习的功能的情况下进行有效迁移学习的能力。论文还提出了一种新的分析方法,用于详细分析任务间转移的发生方式和位置。尽管存在参数数量增长的问题,但论文提出了可能的解决方案,并指出了未来工作的方向。
2024-01-05 15:34:51 1429
原创 【持续学习系列(四)】《Lifelong-RL》
论文提出了一种新的算法Lifelong-RL,用于在意见挖掘中区分实体和方面。通过结合松弛标签算法和终身机器学习,该方法在实验中表现出色,显著提高了目标分类的准确性。这项工作为意见挖掘领域提供了一种新的思路和方法。
2023-12-28 16:15:36 802
原创 【持续学习系列(三)】《Less-forgetting Learning in Deep Neural Networks》
这篇论文提出了一种新的学习策略,旨在减少深度神经网络在学习新数据时对之前学到的信息的遗忘。通过实验验证,这种方法在保持源域特征空间方面比传统的迁移学习方法更有效,并且能够提高网络的泛化性能。
2023-12-28 15:53:58 981
原创 【阅读笔记】LoRAHub:Efficient Cross-Task Generalization via Dynamic LoRA Composition
Experiments:Flan-T5->BBH benchmark->与few-shot ICL相比效果相当->减少了推理时间->gradient free减少计算开销。
2023-12-27 22:47:22 1477 2
原创 【Kimi帮我看论文(二)】脑机信号与语言模型的共同之处
这篇论文通过行为和神经实验证据,揭示了人类大脑和自回归DLMs在处理自然语言时共享的三个核心计算原则。这些发现支持了一个统一的建模框架,用于研究语言的神经基础,并为理解人类大脑如何处理语言提供了新的视角。
2023-12-27 19:56:55 946
原创 【持续学习系列(二)】2015_ACL_LCS
这篇论文提出了一种新的终身学习方法来解决情感分类问题。通过模仿人类学习过程,保留并利用过去任务的知识来帮助未来学习,论文展示了终身学习在情感分类任务中的有效性。通过实验验证,该方法在多个产品领域的情感分类任务中表现出色,为终身学习领域提供了新的研究方向。
2023-12-26 09:51:07 807
原创 [持续学习系列(一)] 1995_JNC_Pseudorehearsal
论文通过实验和理论分析,提出了解决神经网络中灾难性遗忘问题的新方法,特别是“扫视复习”和“伪复习”机制。这些方法允许在不干扰旧信息的情况下将新信息整合到现有网络中,具有实际应用的潜力。尽管如此,论文也指出了这些方法在网络架构和训练策略方面的局限性,并提出了未来研究的方向。
2023-12-26 09:42:54 939
原创 【Kimi帮我看论文(二)】Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models—Survey
论文提供了对PEFT方法的全面分析和回顾,识别了关键技术和方法,并将它们分类为不同的微调方法。通过广泛的实验,论文评估了这些方法在参数效率和内存效率方面的表现,并揭示了未来研究的潜在方向。这些研究为研究人员和实践者在面对LLMs带来的挑战和机遇时提供了宝贵的资源。
2023-12-25 15:29:34 1289
原创 【Kimi帮我读论文】《LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent Sentence Spaces》
论文提出了LlaMaVAE模型,旨在通过VAE架构和INN来提升LLMs的文本生成控制能力。通过实验验证了模型的有效性,并指出了未来研究的可能方向,包括探索更大的LLMs和更多样化的INN架构。
2023-12-25 15:16:28 887
原创 [论文阅读笔记] TRACE: A Comprehensive Benchmark for Continual Learning In Large Language Models
现有的评估标准在全面评估LLMs时存在不足,要么因为标准过于简单,要么忽视了关键能力,如遵循指令和安全性。为了解决这个问题,我们引入了一个名为TRACE的综合性评估标准,该标准包含多样化的挑战性任务和全面的评估指标。我们的实验显示了LLMs面临的真实挑战,特别是在持续学习过程中它们一般能力的明显下降。同时,我们的增强推理的持续学习(RCL)方法凸显了在训练中使用推理的重要性,尽管这并不是一个完整的解决方案。我们相信这个领域非常重要,希望我们的工作为未来的研究奠定了坚实的基础。
2023-12-22 23:57:00 1209
原创 【论文阅读笔记】MultiLoRA: Democratizing LoRA For Better Multi-Task Learning
本文介绍了MultiLoRA,通过改善LoRA奇异值分解不均匀的问题,提高LoRA在多任务领域的性能表现。本文通过多个LoRA连加并且引入可训练的系数因子改变LoRA中B矩阵的初始化方式提高性能表现。通过多个空间特征的热力图对比,证明了方法的有效性。
2023-11-27 21:37:45 1058
原创 【论文阅读笔记】Continual Diffision: Continual Customization of Text-to-Image Diffusion with C-LoRA
本文介绍了C-LoRA,在文生图持续学习问题中通过将多个LoRA正则化以减少灾难性损失的方法。
2023-11-27 11:50:19 493
原创 【论文精读笔记】O-LoRA: Orthogonal Subspace Learning for Language Model Continual Learning
O-LoRA阅读笔记,EMNLP2023复旦大学工作。介绍了一种O-LoRA方法,将多个LoRA块正交放置,通过限制LoRA块中A矩阵的正交性(矩阵运算为0)减少不同任务之间的干扰从而解决持续学习中的灾难性遗忘问题。
2023-11-24 10:12:47 1153
原创 【论文阅读】Progressive Prompts: Continual Learning for Language Models
Progressive Prompt论文精读。
2023-11-20 16:27:54 393
原创 【论文阅读】CCT5: A Code-Change-Oriented Pre-Trained Model
本文提出了一个专门为代码更改设计的预训练模型,以便更好地支持开发人员进行软件维护。为此,我们首先收集了一个包含150万+代码更改和提交消息的成对数据的大规模数据集。基于这些数据,我们进行策划五个不同的预训练任务,使模型具备关于代码更改的不同领域知识。我们在三个被广泛研究的任务上对预训练模型CCT5进行微调代码变更和两个特定于代码审查过程的任务。结果表明,CCT5在这些任务上优于传统的深度学习方法和现有的预训练模型。
2023-04-20 09:56:16 215
扩散去噪概率模型及其在图像处理逆问题中的应用
2023-11-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人