- 博客(37)
- 收藏
- 关注
原创 基于 IA3 Adapter 轻量化微调 Qwen3-VL-4B 多模态模型
摘要:本文对比了IA3 Adapter和LoRA两种PEFT微调方法在Qwen3-VL-4B多模态模型上的表现。IA3通过仅添加逐特征缩放因子(而非新增层)实现极致的轻量化
2026-01-12 00:27:33
620
原创 混合Token与LoRA结合Qwen3-VL高效微调(代码开源)
MOTLoRA 通过将 MOT 的 Token 混合思想与 LoRA 结合,既保留了 LoRA 的参数高效性,又通过连续混合的双专家网络提升了多模态任务的适配能力,是单卡小显存场景下多模态大模型微调的优秀方案。MOTLoRA 的核心代码已开源,可直接适配 Qwen3-VL、LLaVA 等多模态模型,希望能为多模态大模型的轻量化微调提供新的思路。
2026-01-12 00:12:03
957
原创 MOELoRA:结合MoE与LoRA的Qwen3-VL高效微调(代码开源)
本文介绍了一种融合MoE多专家扩展能力和LoRA轻量化优势的MOELoRA方法,用于在消费级显卡上高效微调视觉语言模型(如Qwen3-VL)。该方法借鉴DeepSeekV3的无损耗负载均衡策略,仅通过可学习路由偏置实现专家均衡调用,无需额外损失项。文章详细阐述了MOELoRA的核心实现,包括配置类扩展、MOELoraLayer设计以及与Peft库的集成,并以Qwen3-VL-4B为例展示了在8G显卡上的微调实践。MOELoRA具有轻量化、兼容性好等优势,但也存在专家数量受限等局限性。该方法为低资源场景下的多
2026-01-11 23:05:27
744
原创 交叉熵损失深度解析--大模型基础
本文系统介绍了交叉熵损失在深度学习中的应用,重点分析了其在LLM预训练中的核心作用。文章从数学原理出发,详细推导了交叉熵与熵、KL散度的关系,阐述了其作为分布差异度量的本质。
2025-12-16 11:53:17
1141
原创 C++中双引号和单引号的区别(全面分析)
摘要:C++中单引号('')和双引号("")有本质区别:单引号表示字符常量(char类型),存储单个字符的ASCII码(1字节);双引号表示字符串常量(const char[]类型),存储字符序列并以'\0'结尾。关键区别包括:字符常量只能包含1个字符,而字符串常量可为空或多字符;存储上字符常量固定1字节,字符串常量占用字符数+1字节。使用时应根据变量类型匹配,字符变量用单引号,字符串变量用双引号,混用会导致编译错误。此外,字符串常量是只读的,修改可能导致崩溃。
2025-09-14 15:43:24
1302
原创 《AI修仙实录:ProMEP炼出「零样本蛋白质推背图」,基因编辑直破77%天劫》
《AI炼丹师破译「蛋白质天书」:ProMEP一指推演,基因编辑直破77%仙障》
2025-02-23 18:37:08
1700
1
原创 AI颠覆蛋白质工程:ProMEP零样本预测突变效应
本文对中国团队开发的AI工具ProMEP的相关论文进行结构化讲解,蕴含AI科研修仙终极奥义
2025-02-23 18:14:58
2444
10
原创 BFS 和 DFS(深度优先搜索、广度优先搜索)
深度优先搜索(DFS)和广度优先搜索(BFS)是两种常用的图遍历算法,用于解决图相关的问题。它们在搜索问题中具有广泛的应用,如路径搜索、连通性检测等。
2025-02-22 20:12:39
1152
原创 python --图(树)的存储
在蓝桥杯竞赛中,常见的图存储方式包括邻接矩阵、邻接表、链式前向星等。这些存储方式在不同的场景下有着各自的优势和适用性。
2024-10-02 22:20:45
1311
原创 动态规划--一维dp和二维dp
总的来说,选择使用一维DP数组还是二维DP数组,取决于问题的特点和解法的需要。在一些情况下,通过巧妙的设计,可以将二维DP数组优化成一维DP数组。在动态规划中,经常会用到“上一行”和“当前行”这两个概念,尤其是在使用二维动态规划数组时。这两者的区别在于它们对应于不同的状态或阶段。具体到代码中,通过这两者的概念,我们可以方便地设计状态转移方程,使用前一行的信息来更新当前行的信息,从而实现动态规划的递推过程。
2024-10-02 22:13:45
987
原创 itertools.combinations_with_replacement和itertools.combinations的区别
itertools.combinations_with_replacement和itertools.combinations的区别
2024-09-18 14:47:27
598
原创 Simultaneous——使用进化模型(EVcouplings)和优化算法(Gibbs采样)设计蛋白质变体
这篇论文通过使用进化模型(EVcouplings)和优化算法(Gibbs采样)设计出了一系列带有多重突变的蛋白质变体。
2024-09-17 15:38:43
1892
原创 FSFP——专为蛋白质工程设计的少样本学习策略
FSFP(Few-Shot Learning for Protein Fitness Prediction)是一种专为蛋白质工程设计的少样本学习策略。它通过结合元迁移学习(MTL)、排序学习(LTR)和低秩适应(LoRA)技术,有效提升了蛋白质语言模型在极少量标记数据下的性能。FSFP通过在相关蛋白质的辅助任务上进行元训练,获取能够快速适应新任务的初始模型参数,然后在目标蛋白质的少量数据上进行微调,最终实现对突变体适应性的精确排序和预测。
2024-09-17 15:26:12
2528
原创 EnzyACT——融合图技术和蛋白质嵌入预测突变蛋白活性变化
本论文介绍了一种新方法 EnzyACT,这是一种深度学习方法,融合了图技术和蛋白质嵌入来预测单个或多个突变后的活性变化。作者的模型结合了基于图的技术和语言模型来预测活性变化。此外,EnzyACT是在一个新的精选数据集上训练的,包括单点和多点突变。
2024-09-17 15:15:15
1948
原创 生物大模型——ESM模型(一)
ESM是用于蛋白质序列建模的深度学习模型。它属于蛋白质语言模型家族,通过对大量的蛋白质序列进行训练,能够学习到序列中的进化信息
2024-08-11 15:45:47
26329
1
原创 归一化折扣累积增益
NDCG 是用来评估搜索结果或推荐系统中结果排序质量的指标。它通过考虑相关性和位置的折扣来衡量排序的好坏,确保排名靠前的结果对用户最有价值。
2024-08-10 10:23:11
1075
原创 斯皮尔曼相关系数
斯皮尔曼相关系数是一个测量排名一致性的工具,适用于评价变量之间的排序关系是否一致。它尤其适用于非线性关系或数据排名而非实际数值的情况。
2024-08-10 10:19:45
1417
原创 双端队列(deque)--python
双端队列支持线程安全,在双端队列的任何一端执行添加和删除操作,它们的内存效率几乎相同(时间复杂度为O(1))2。双端队列还可以设置队列的长度,使用 deque(maxlen=N) 构造函数会新建一个固定大小的队列。当新的元素加入并且这个队列已满的时候,最老的元素会自动被移除掉1。Python中的双端队列(deque)是一种特殊的数据结构,它允许在队列的两端进行插入和删除操作12。需要注意的是,双端队列在访问中间元素的时间复杂度为O(n),速度较慢,对于快速随机的访问,还是用列表代替2。
2024-03-08 21:40:26
302
原创 动态规划--一维dp和二维dp
总的来说,选择使用一维DP数组还是二维DP数组,取决于问题的特点和解法的需要。在一些情况下,通过巧妙的设计,可以将二维DP数组优化成一维DP数组。在动态规划中,经常会用到“上一行”和“当前行”这两个概念,尤其是在使用二维动态规划数组时。这两者的区别在于它们对应于不同的状态或阶段。具体到代码中,通过这两者的概念,我们可以方便地设计状态转移方程,使用前一行的信息来更新当前行的信息,从而实现动态规划的递推过程。**如果 每个状态与不仅与上一行有关 改用一维dp时 要用临时变量等来防止覆盖 **
2024-03-08 21:31:11
2348
原创 AutoDL 使用方法(常用命令)
解压数据集 unzip /root/###.zip (具体可以参考autodl官方文档)在实例中查看磁盘使用情况请在终端中执行:source /root/.bashrc。安装依赖 pip install -r requirements.txt。tensorboard 可视化 tensorboard -logdir。开启学术加速 source /etc/network_turbo。下载代码 git clone。
2024-03-08 21:28:56
1477
原创 Python虚拟环境:venv与Conda的不同,如何选择?
摘要:本文介绍了Python虚拟环境创建的两种常见方法,venv和Conda,并比较它们之间的不同之处。文章旨在帮助开发者根据项目需求和偏好选择适合的虚拟环境工具。无论您需要轻量级的Python环境还是跨语言支持和更强大的包管理,本文提供了创建和配置虚拟环境的简明指南。
2023-10-06 17:14:42
21638
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅