小苔藓--CSDN博客

原创基于 IA3 Adapter 轻量化微调 Qwen3-VL-4B 多模态模型

摘要：本文对比了IA3 Adapter和LoRA两种PEFT微调方法在Qwen3-VL-4B多模态模型上的表现。IA3通过仅添加逐特征缩放因子（而非新增层）实现极致的轻量化

2026-01-12 00:27:33 620

原创混合Token与LoRA结合Qwen3-VL高效微调（代码开源）

MOTLoRA 通过将 MOT 的 Token 混合思想与 LoRA 结合，既保留了 LoRA 的参数高效性，又通过连续混合的双专家网络提升了多模态任务的适配能力，是单卡小显存场景下多模态大模型微调的优秀方案。MOTLoRA 的核心代码已开源，可直接适配 Qwen3-VL、LLaVA 等多模态模型，希望能为多模态大模型的轻量化微调提供新的思路。

2026-01-12 00:12:03 957

原创 MOELoRA:结合MoE与LoRA的Qwen3-VL高效微调(代码开源)

本文介绍了一种融合MoE多专家扩展能力和LoRA轻量化优势的MOELoRA方法，用于在消费级显卡上高效微调视觉语言模型（如Qwen3-VL）。该方法借鉴DeepSeekV3的无损耗负载均衡策略，仅通过可学习路由偏置实现专家均衡调用，无需额外损失项。文章详细阐述了MOELoRA的核心实现，包括配置类扩展、MOELoraLayer设计以及与Peft库的集成，并以Qwen3-VL-4B为例展示了在8G显卡上的微调实践。MOELoRA具有轻量化、兼容性好等优势，但也存在专家数量受限等局限性。该方法为低资源场景下的多

2026-01-11 23:05:27 744

原创优化器（Optimizer）——大模型基础

梳理深度学习优化器的演进历程及其在LLM训练中的应用

2025-12-16 16:44:24 1054

原创交叉熵损失深度解析--大模型基础

本文系统介绍了交叉熵损失在深度学习中的应用，重点分析了其在LLM预训练中的核心作用。文章从数学原理出发，详细推导了交叉熵与熵、KL散度的关系，阐述了其作为分布差异度量的本质。

2025-12-16 11:53:17 1141

原创 C++算法题—图的邻接矩阵输入形式(I\O)

本文介绍了图论中邻接矩阵的存储方式和常见应用。

2025-09-14 22:35:32 680

原创 C++算法题中的输入输出形式（I/O）

本文总结了C++刷题中常见的输入输出处理方式，帮助Leetcode选手快速适应

2025-09-14 22:26:50 246

原创 C++中双引号和单引号的区别（全面分析）

摘要：C++中单引号('')和双引号("")有本质区别：单引号表示字符常量(char类型)，存储单个字符的ASCII码(1字节)；双引号表示字符串常量(const char[]类型)，存储字符序列并以'\0'结尾。关键区别包括：字符常量只能包含1个字符，而字符串常量可为空或多字符；存储上字符常量固定1字节，字符串常量占用字符数+1字节。使用时应根据变量类型匹配，字符变量用单引号，字符串变量用双引号，混用会导致编译错误。此外，字符串常量是只读的，修改可能导致崩溃。

2025-09-14 15:43:24 1302

原创保研秋招实习机试准备——C++算法题（三）

C++算法题第三部分

2025-09-04 15:19:44 808

原创保研秋招实习机试准备——C++算法题（二）

进阶：C++算法第二篇

2025-09-02 23:50:24 519

原创保研秋招实习机试准备——C++算法题（一）

记录C++算法刷题，准备机试

2025-04-15 18:33:39 920 1

原创记录我的ICME2025论文之旅：困顿与收获

ICME2025录取—记录这段难忘的历程

2025-03-24 22:26:44 3115 5

原创《AI修仙实录：ProMEP炼出「零样本蛋白质推背图」，基因编辑直破77%天劫》

《AI炼丹师破译「蛋白质天书」：ProMEP一指推演，基因编辑直破77%仙障》

2025-02-23 18:37:08 1700 1

原创 AI颠覆蛋白质工程：ProMEP零样本预测突变效应

本文对中国团队开发的AI工具ProMEP的相关论文进行结构化讲解，蕴含AI科研修仙终极奥义

2025-02-23 18:14:58 2444 10

原创再探动态规划--背包问题

再探动态规划——奇妙之类

2025-02-22 20:30:53 758

原创初探动态规划--记忆化搜索

浅入秘境——动态规划这根硬骨头

2025-02-22 20:25:03 306

原创 BFS 和 DFS（深度优先搜索、广度优先搜索）

深度优先搜索（DFS）和广度优先搜索（BFS）是两种常用的图遍历算法，用于解决图相关的问题。它们在搜索问题中具有广泛的应用，如路径搜索、连通性检测等。

2025-02-22 20:12:39 1152

原创 python --图（树）的存储

在蓝桥杯竞赛中，常见的图存储方式包括邻接矩阵、邻接表、链式前向星等。这些存储方式在不同的场景下有着各自的优势和适用性。

2024-10-02 22:20:45 1311

原创动态规划--一维dp和二维dp

总的来说，选择使用一维DP数组还是二维DP数组，取决于问题的特点和解法的需要。在一些情况下，通过巧妙的设计，可以将二维DP数组优化成一维DP数组。在动态规划中，经常会用到“上一行”和“当前行”这两个概念，尤其是在使用二维动态规划数组时。这两者的区别在于它们对应于不同的状态或阶段。具体到代码中，通过这两者的概念，我们可以方便地设计状态转移方程，使用前一行的信息来更新当前行的信息，从而实现动态规划的递推过程。

2024-10-02 22:13:45 987

原创 itertools.combinations_with_replacement和itertools.combinations的区别

itertools.combinations_with_replacement和itertools.combinations的区别

2024-09-18 14:47:27 598

原创 Simultaneous——使用进化模型（EVcouplings）和优化算法（Gibbs采样）设计蛋白质变体

这篇论文通过使用进化模型（EVcouplings）和优化算法（Gibbs采样）设计出了一系列带有多重突变的蛋白质变体。

2024-09-17 15:38:43 1892

原创 FSFP——专为蛋白质工程设计的少样本学习策略

FSFP（Few-Shot Learning for Protein Fitness Prediction）是一种专为蛋白质工程设计的少样本学习策略。它通过结合元迁移学习（MTL）、排序学习（LTR）和低秩适应（LoRA）技术，有效提升了蛋白质语言模型在极少量标记数据下的性能。FSFP通过在相关蛋白质的辅助任务上进行元训练，获取能够快速适应新任务的初始模型参数，然后在目标蛋白质的少量数据上进行微调，最终实现对突变体适应性的精确排序和预测。

2024-09-17 15:26:12 2528

原创 EnzyACT——融合图技术和蛋白质嵌入预测突变蛋白活性变化

本论文介绍了一种新方法 EnzyACT，这是一种深度学习方法，融合了图技术和蛋白质嵌入来预测单个或多个突变后的活性变化。作者的模型结合了基于图的技术和语言模型来预测活性变化。此外，EnzyACT是在一个新的精选数据集上训练的，包括单点和多点突变。

2024-09-17 15:15:15 1948

原创 ESM3——开启生物大模型时代

ESM3:一个多模态的生成型语言模型：即除了语言模型外,还包括蛋白质的序列结构和功能信息。

2024-08-11 16:16:11 6371 6

原创生物大模型——ESM模型（一）

ESM是用于蛋白质序列建模的深度学习模型。它属于蛋白质语言模型家族，通过对大量的蛋白质序列进行训练，能够学习到序列中的进化信息

2024-08-11 15:45:47 26329 1

原创归一化折扣累积增益

NDCG 是用来评估搜索结果或推荐系统中结果排序质量的指标。它通过考虑相关性和位置的折扣来衡量排序的好坏，确保排名靠前的结果对用户最有价值。

2024-08-10 10:23:11 1075

原创斯皮尔曼相关系数

斯皮尔曼相关系数是一个测量排名一致性的工具，适用于评价变量之间的排序关系是否一致。它尤其适用于非线性关系或数据排名而非实际数值的情况。

2024-08-10 10:19:45 1417

原创 Dijkstra算法（模板）--python实现

最短路径算法

2024-05-20 22:46:16 1321

原创 Dijkstra 、 Floyd 、 SPFA 和Bellman Ford算法讲解

四种最短路径算法

2024-05-20 22:45:00 1145

原创二叉树遍历问题模板

二叉树算法模板

2024-03-12 22:02:25 1684

原创回溯算法模板

回溯算法模板

2024-03-12 22:01:26 413

原创双端队列（deque）--python

双端队列支持线程安全，在双端队列的任何一端执行添加和删除操作，它们的内存效率几乎相同（时间复杂度为O(1)）2。双端队列还可以设置队列的长度，使用 deque(maxlen=N) 构造函数会新建一个固定大小的队列。当新的元素加入并且这个队列已满的时候，最老的元素会自动被移除掉1。Python中的双端队列（deque）是一种特殊的数据结构，它允许在队列的两端进行插入和删除操作12。需要注意的是，双端队列在访问中间元素的时间复杂度为O(n)，速度较慢，对于快速随机的访问，还是用列表代替2。

2024-03-08 21:40:26 302

原创 deque的rotate方法

deque的rotate方法

2024-03-08 21:38:55 553

原创动态规划--一维dp和二维dp

总的来说，选择使用一维DP数组还是二维DP数组，取决于问题的特点和解法的需要。在一些情况下，通过巧妙的设计，可以将二维DP数组优化成一维DP数组。在动态规划中，经常会用到“上一行”和“当前行”这两个概念，尤其是在使用二维动态规划数组时。这两者的区别在于它们对应于不同的状态或阶段。具体到代码中，通过这两者的概念，我们可以方便地设计状态转移方程，使用前一行的信息来更新当前行的信息，从而实现动态规划的递推过程。**如果每个状态与不仅与上一行有关改用一维dp时要用临时变量等来防止覆盖 **

2024-03-08 21:31:11 2348

原创 YOLO数据集划分（测试集和验证集）

YOLO 数据集划分

2024-03-08 21:29:57 2293

原创 AutoDL 使用方法（常用命令）

解压数据集 unzip /root/###.zip (具体可以参考autodl官方文档)在实例中查看磁盘使用情况请在终端中执行：source /root/.bashrc。安装依赖 pip install -r requirements.txt。tensorboard 可视化 tensorboard -logdir。开启学术加速 source /etc/network_turbo。下载代码 git clone。

2024-03-08 21:28:56 1477

原创 Python虚拟环境：venv与Conda的不同，如何选择？

摘要：本文介绍了Python虚拟环境创建的两种常见方法，venv和Conda，并比较它们之间的不同之处。文章旨在帮助开发者根据项目需求和偏好选择适合的虚拟环境工具。无论您需要轻量级的Python环境还是跨语言支持和更强大的包管理，本文提供了创建和配置虚拟环境的简明指南。

2023-10-06 17:14:42 21638 1

weixin_47520540的博客

原创基于 IA3 Adapter 轻量化微调 Qwen3-VL-4B 多模态模型

原创混合Token与LoRA结合Qwen3-VL高效微调（代码开源）

原创 MOELoRA:结合MoE与LoRA的Qwen3-VL高效微调(代码开源)

原创优化器（Optimizer）——大模型基础

原创交叉熵损失深度解析--大模型基础

原创 C++算法题—图的邻接矩阵输入形式(I\O)

原创 C++算法题中的输入输出形式（I/O）

原创 C++中双引号和单引号的区别（全面分析）

原创保研秋招实习机试准备——C++算法题（三）

原创保研秋招实习机试准备——C++算法题（二）

原创保研秋招实习机试准备——C++算法题（一）

原创记录我的ICME2025论文之旅：困顿与收获

原创《AI修仙实录：ProMEP炼出「零样本蛋白质推背图」，基因编辑直破77%天劫》

原创 AI颠覆蛋白质工程：ProMEP零样本预测突变效应

原创再探动态规划--背包问题

原创初探动态规划--记忆化搜索

原创 BFS 和 DFS（深度优先搜索、广度优先搜索）

原创 python --图（树）的存储

原创动态规划--一维dp和二维dp

原创 itertools.combinations_with_replacement和itertools.combinations的区别

原创 Simultaneous——使用进化模型（EVcouplings）和优化算法（Gibbs采样）设计蛋白质变体

原创 FSFP——专为蛋白质工程设计的少样本学习策略

原创 EnzyACT——融合图技术和蛋白质嵌入预测突变蛋白活性变化

原创 ESM3——开启生物大模型时代

原创生物大模型——ESM模型（一）

原创归一化折扣累积增益

原创斯皮尔曼相关系数

原创 Dijkstra算法（模板）--python实现

原创 Dijkstra 、 Floyd 、 SPFA 和Bellman Ford算法讲解

原创二叉树遍历问题模板

原创回溯算法模板

原创双端队列（deque）--python

原创 deque的rotate方法

原创动态规划--一维dp和二维dp

原创 YOLO数据集划分（测试集和验证集）

原创 AutoDL 使用方法（常用命令）

原创 Python虚拟环境：venv与Conda的不同，如何选择？

空空如也

空空如也