- 博客(669)
- 收藏
- 关注
原创 第54篇:Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape论文解读
通过低秩矩阵优化实现高效微调,但仅关注低维子空间,可能在全参数空间存在尖锐方向,导致下降。:将(Sharpness-Aware Minimization)直接应用于 LoRA 参数(LoRA-SAM)只能优化低秩子空间的尖锐性(公式4),且(需额外梯度步骤),LORA+SAM虽然将SAM与LoRA结合(称为LoRA-SAM(Li等人,2024a))对于大型模型微调是有希望的,但有几个问题需要讨论。首先,LoRA-SAM只能在受限空间。其次,SAM需要额外的梯度步骤,使,对于大型模型来说不切实际。最后,在。
2025-06-11 23:00:19
5
原创 第56篇GAM《Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves Generalization》还没弄完
最近,平坦极小值已被证明对提高模型泛化能力有效,而取得了领先的性能。然而,目前在SAM及其后续研究中所讨论的平坦度定义仅限于。然而,优化最坏情况依赖于对的合理选择。作为SAM中的一个预定义超参数,或在其变体(如ASAM,参考文献[42] )中参数缩放时的超参数,。我们表明,。如图1a所示,当ρ涵盖多个极小值点时,零阶平坦度(SAM)无法衡量波动频率。当ρ内只有一个极小值点时,如图1b所示,观测半径有限,且ρ内的最大损失可能与损失的上升趋势不一致。因此,为最小化泛化误差需要损失梯度的信息。
2025-06-10 22:24:32
19
原创 第55篇:ADALORA: ADAPTIVE BUDGET ALLOCATION FOR PARAMETER-EFFICIENT FINE-TUNING 论文讲解
我们实现了AdaLoRA用于微调DeBERTaV3-base(He等,2021a)和BART-large(Lewis等,2019)。我们评估了所提出算法在自然语言理解(GLUE,Wang等,2019)、问答(SQuADv1,Rajpurkar等,2016和SQuADv2,Rajpurkar等,2018)以及自然语言生成(XSum,Narayan等,2018和CNN/DailyMail Hermann等,2015)上的有效性。所有增益均通过了显著性测试,p < 0.05。
2025-06-08 18:43:28
38
原创 第52篇:OpenFedLLM: Training Large Language Models onDecentralized Private Data via Federated L论文解读
大型语言模型(LLMs)在多个领域取得了巨大成功,但高质量的公开数据预计将在这可能成为LLMs发展的瓶颈。私有数据的价值与限制:大量高质量数据分散在不同实体中,但由于隐私(如医疗和金融数据)或物理限制(如缺乏网络连接)而未被充分利用。这些,限制了当前LLMs的发展。论文提出了OpenFedLLM框架,利用(FL)在不直接共享原始数据的情况下,让多个数据所有者协作训练共享模型。
2025-06-04 13:48:59
26
原创 矩阵SVD分解
主成分分析(PCA)本质上就是SVD的应用。通过保留前k个奇异值,可以实现数据降维。:Eckart-Young定理指出,SVD提供了矩阵的最佳低秩近似。潜在语义分析(LSA)使用SVD来发现词语和文档之间的潜在关系。协同过滤算法中,SVD用于分解用户-物品评分矩阵,预测缺失值。对于奇异或接近奇异的矩阵,SVD提供了稳定的伪逆计算方法。通过保留前k个奇异值,可以大幅减少图像存储空间。:奇异值唯一确定(不考虑排列顺序):小的扰动只会导致小的奇异值变化。:矩阵的秩等于非零奇异值的个数。
2025-06-02 10:16:12
185
原创 第53篇:LoRA-FAIR: Federated LoRA Fine-Tuning with Aggregation and InitializationRefinement论文讲解
作为所有客户端的起始LoRA点。。
2025-05-27 19:09:20
67
原创 模型参数量化具体讲解
量化(Quantization)是一种模型优化技术,用于减少模型的内存占用和加速推理过程。具体来说,量化通过将模型的权重(如32位浮点数,FP32)转换为低精度(如8位整数,INT8)来实现这些目标。:低精度表示,这使得模型更适合在资源受限的设备上运行。:低精度运算通常比,尤其是在支持低精度运算的硬件(如NVIDIA Tensor Cores)上。:低精度运算通常需要:在训练完成后对模型进行量化,通常需要一个校准数据集来确定量化参数。:在训练过程中对模型进行量化,通常不需要校准数据集。
2025-05-21 11:46:31
215
原创 (raylet) file_system_monitor.cc:111: /tmp/ray/session_2025-05-07_10-57-35_266368_3504255 is over 95%
【代码】(raylet) file_system_monitor.cc:111: /tmp/ray/session_2025-05-07_10-57-35_266368_3504255 is over 95%
2025-05-07 11:05:23
285
1
原创 TypeError: Descriptors cannot be created directly. If this call came from a _pb2.py file, 解决方法
【代码】TypeError: Descriptors cannot be created directly. If this call came from a _pb2.py file, 解决方法。
2025-05-05 23:08:08
429
原创 第50篇:(GSAM)SURROGATE GAP MINIMIZATIONIMPROVES SHARPNESS-AWARE TRAINING
我们在图 3 中通过数值玩具示例展示了不同的算法。
2025-05-04 23:06:30
46
原创 第49篇:AdaSAM——通过自适应学习率和动量加速提升锐度感知最小化
在训练深度神经网络时,传统优化器如,但在复杂模型和大规模数据面前存在。通过引入额外的扰动步骤来优化模型的泛化性能,但存在等不足(SAM需要计算2倍的参数)
2025-04-29 08:54:00
39
原创 第47篇:锐化感知最小化在训练后期有效地选择更平坦的最小值SHARPNESS-AWARE MINIMIZATION EFFICIENTLY SELECTS FLATTER MINIMA LATE I
也能获得。
2025-04-26 15:55:59
46
原创 强制中断由于关闭ray进程后的残余进程
我正在使用ray框架在服务器上跑代码,然后ctrl+c终止代码,结果发现,后台仍有残余进程。可以看到其实ray并没有被真正关闭。
2025-04-25 09:10:43
230
2
原创 “ImportError: numpy.core.multiarray failed to import”解决方法(numpy问题)
(连续输入两次,因为卸载一次只是卸载了一个numpy,一般电脑上有两个numpy,分别是pip的和conda的)
2025-04-18 01:15:43
867
1
原创 第44篇:《SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models》
边缘设备资源有限(计算、通信、存储),直接全量微调(FFT)成本高;数据分布异质性(非IID)导致传统PEFT方法(如LoRA)性能显著下降(图1显示PEFT与FFT的差距越大异质性影响:数据越异质,SLoRA相对LoRA的优势越明显(图3、图6显示PEFT基线在异质数据下性能暴跌,SLoRA保持稳定)。在集中式学习中,LoRA 在不同任务上始终展现出良好的性能,且与全量微调(FFT)的准确率相当接近。对于数据分布更均匀(α 值较大)的联邦学习场景,这种情况依然成立。
2025-04-17 11:24:51
528
原创 机器学习/深度学习中的“各种通信协议示意图”
①a:经典的联邦学习方案(中央服务器可能会面临系统故障或恶意攻击的风险,这可能会威胁到用户隐私泄露或被破坏训练过程)此外,通信过程完全发生在服务器-客户端端,这可能会对服务器造成相当大的通信负担。不存在b-d所示的全局模型状态,参与的客户端遵循通信协议达成所谓的共识模型。
2025-04-14 19:02:03
166
原创 对比学习基础介绍
对比学习的核心任务就像是你在一个聚会中努力通过视觉特征(服装、语言等)辨认朋友并避开陌生人。通过不断训练,你的“聚会识别能力”会越来越强,最终在其他类似场景中(如学校聚会)也能快速找到朋友。
2025-04-14 19:00:30
262
原创 (第24篇)lora论文讲解LoRA: Low-Rank Adaptation of Large Language Models(微调、预训练模型)
①微调(Fine-Tuning, FT)对模型所有参数进行完整更新。缺点:参数量大、训练成本高(如 GPT-2 Medium 的可训练参数达 354.92M)。②偏置微调(Bias-only, BitFit)仅训练模型中的偏置参数,其余参数冻结。参数量小,但效果可能不如其他方法。③前缀嵌入微调(Prefix Embedding Tuning, PreEmbed)在输入中插入优化的提示标记(Prompt)作为额外的嵌入,模型根据这些标记调整输出。可训练参数量与标记长度成正比。
2025-04-14 18:58:57
691
原创 用python写一个gradio界面的简易例子
Gradio 是一个用于快速创建机器学习模型演示界面的 Python 库,允许用户通过网页浏览器与模型进行交互。它的核心功能是将模型的输入输出可视化,无需复杂的前端开发即可生成可共享的交互式界面。
2025-04-12 22:06:44
254
原创 huggingface下载大模型
我们直接在pycharm上下载大模型(比如),大概25G,会非常慢,而且下载基本上会失败,如下:所以我们要学习一下如何自己下载然后让代码自动读取下载好的大模型。
2025-04-12 18:47:55
338
原创 cannot import name ‘Image‘ from ‘PIL‘ (unknown location)解决方法
这个是因为Pillow的问题。
2025-04-12 15:28:51
323
原创 cannot import name ‘ExportOptions‘ from ‘torch.onnx._internal.exporter‘解决方法
进程已结束,退出代码为 1。
2025-04-12 14:56:00
606
原创 ai图片处理工具(一键去除图片上的马赛克)Demo CECIM
8.94 复制打开抖音,看看【强哥轻创业的作品】好莱坞视频,去马赛克,图片开口说话唱歌 # 短视频... https://v.douyin.com/iPNMjyjf/ 12/10 EhB:/ g@O.kc。第一部分:Demo CECIM。
2025-04-11 17:11:16
1726
原创 第35篇:FedDPA论文讲解
在联邦学习系统中,每个客户端有本地训练数据集和测试数据集。测试数据集含与训练数据分布相同及不同的测试集。模型目标是在本地任务表现良好(个性化)且在测试任务上有较好表现(测试时性能)。
2025-04-11 17:09:59
211
原创 第33篇:DP-LORA论文讲解
性能下降趋势:随着隐私设置的加强(即 ε 和 δ 值降低),所有模型的性能普遍下降。例如,Llama-7B模型在LiveQA任务上的性能从原始设置的69.4下降到 ε 减少到2时的55.9,以及当 δ 减少到 1×10−6 时的49.3。这表明隐私保护与模型效用之间存在权衡。模型间的差异:一些模型如ChatGLM-6B在 ε 值变化下表现出更强的鲁棒性。例如,其在LiveQA任务上的性能仅从原始的71.9略微下降到 ε 增加到10时的67.3。这表明某些模型可能更适合隐私敏感的应用。隐私与效用的权衡。
2025-04-11 17:09:45
36
夏令营~预推免~保研通用资料汇总整合(ppt汇总)保研ppt展示(简化版+完整版)(已删除个人信息)
2024-09-28
夏令营~预推免~保研通用资料汇总整合(计算机专业课复习汇总)(算法分析与设计+计算机网络+操作系统+计算机组成原理+数据结构)
2024-09-28
夏令营~预推免~保研通用资料汇总整合(自我介绍)(个人陈述)80字版本+150字版本+300字版本+400~500字版本等
2024-09-28
夏令营~预推免~保研通用资料汇总整合(英文知识点汇总)(1min急速通关英文面试)(简历英文)(常见英文问题)
2024-09-28
夏令营~预推免~保研通用资料汇总整合(编程知识点汇总)(c语言)(c++)(pyhton)附带天津大学真题练习
2024-09-28
联邦学习开山之作PPT讲解
2024-08-03
“SCAFFOLD:联邦学习的随机控制平均”PPT核心算法解析
2024-08-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人