医疗推理大模型(微调自Qwen3-8B):II-Medical-8B

II-Medical-8B 论文解析

一、模型概述

II-Medical-8B 是智能互联网公司新开发的先进大型语言模型,专为增强医疗推理的 AI 能力而设计。它在先前的 II-Medical-7B-Preview 基础上进行了重大改进,显著提升了医疗问答能力。该模型基于 Qwen/Qwen3-8B 模型,通过使用特定于医疗领域的推理数据集进行 SFT(监督微调)以及在硬推理数据集上训练 DAPO(一种可能的优化方法)来优化模型性能。

二、训练方法学

  • SFT 阶段 :最大长度为 16378,批次大小为 128,学习率为 5e-5,训练周期数为 8。

  • RL(强化学习)阶段 :最大提示长度为 2048 个标记,最大响应长度为 12288 个标记,启用超长缓冲区,4096 个标记,惩罚因子为 1.0。剪切比例如下:低 0.2,高 0.28。批次大小:训练提示为 512,生成提示为 1536,小批次为 32。每个提示的响应数为 16。温度为 1.0,Top-p 为 1.0,Top-k 为 -1(vLLM 展开)。学习率为 1e-6,热身步数为 10,权重衰减为 0.1。损失聚合采用标记平均,梯度裁剪为 1.0,熵系数为 0。

三、评估结果

II-Medical-8B 模型在 HealthBench 上得分为 40%,HealthBench 是一个全面的开源基准测试,用于评估大型语言模型在医疗保健领域的性能和安全性。这一表现与 OpenAI 的 o1 推理模型和 GPT-4.5 相当,而 GPT-4.5 是 OpenAI 目前最大、最先进的模型。论文还提供了与 ChatGPT 中可用模型的对比。此外,该模型在多个医疗问答基准测试中进行了评估,包括 MedMCQA、MedQA、PubMedQA、MMLU-Pro 和 GPQA 中的医学相关问题,以及来自柳叶刀和新英格兰医学杂志的小问答集,MedBullets 平台的 4 选项和 5 选项分割以及 MedXpertQA。

四、数据集构建

训练数据集包含 555000 个样本,来自以下来源:

  • 一般医学推理:40544 个样本

  • 医学 - R1 - 蒸馏数据:22000 个样本

  • 医学 - R1 - 蒸馏数据 - 中文:17000 个样本

  • UCSC-VLAA/m23k - 分词:23487 个样本

  • 来自已建立的医学数据集生成的样本:

    • MedMcQA(来自 openlifescienceai/medmcqa):183000 个样本

    • MedQA:10000 个样本

    • MedReason:32700 个样本

数据集构建流程如下:

  1. 收集所有公共 R1 跟踪记录,来源包括 PrimeIntellect/SYNTHETIC-1、GeneralReasoning/GeneralThought-430K、a-m-team/AM-DeepSeek-R1-Distilled-1.4M、open-thoughts/OpenThoughts2-1M、nvidia/Llama-Nemotron-Post-Training-Dataset(仅科学子集)以及其他资源。

  2. 对所有 R1 推理跟踪进行领域特定处理:

    • 嵌入生成:使用 sentence-transformers/all - MiniLM-L6-v2 对提示进行嵌入。

    • 聚类:执行 K 均值聚类,分为 50000 个聚类。

    • 领域分类:对于每个聚类,选择距离聚类中心最近的 10 个提示。使用 Qwen2.5-32b-Instruct 对每个选定提示的领域进行分类,并根据分类提示的多数投票分配聚类的领域。

    • 领域过滤:仅保留标记为医学或生物学的聚类,用于最终数据集。

  3. 添加来自 light-r1 的 15000 个推理跟踪样本,以增强模型的一般推理能力。

  4. 过滤以确保完整生成:仅保留生成输出完整的跟踪记录。

  5. 基于长度的过滤:最低阈值为保留提示超过 3 个单词的记录。

  6. 精选医学 R1 跟踪(338055 个样本)。

  7. 补充数学数据集:使用分词数据,并进行预处理,包括移除包含超过 47 次 “Wait” 出现的跟踪记录(97 百分位数阈值)。采用两步去污染方法:先按照 open-r1 项目使用 10 元组和评估数据集去污染,然后使用 s1k 方法的模糊去污染,阈值为 90%。

五、使用方法

II-Medical-8B 模型可以像 Qwen 或 Deepseek-R1 - Distill 模型一样使用。例如,可以使用 vLLM 或 SGLang 轻松启动服务。推荐的采样参数为温度 0.6,top_p 为 0.9。使用时,明确要求逐步推理,并将最终答案格式化在 \boxed{} 中(例如,“请逐步推理,并将你的最终答案放在 \boxed{} 中。”)

六、使用指南

此部分在原文中未详细展开,需根据实际使用情况和模型特点进行相应说明,如在何种环境下使用、如何调用接口、输入输出的格式要求等,以确保用户能够正确、有效地使用该模型。

七、局限性和考虑因素

数据集可能包含源材料的固有偏见,医学知识需要定期更新,并且需要注意该模型不适合用于医疗用途。

在这里插入图片描述

### Qwen2.5-Coder 7B 参数版本简介 Qwen2.5-Coder 是一款由阿里云开发的大规模多模态预训练模型,其在代码生成领域表现出卓越的能力。具体到 7B 参数版本,该模型不仅具备强大的编程能力,还展现了优秀的数学推理性能[^2]。 #### 数学与编码双重能力 Qwen2.5-Coder 在多个基准测试中的表现验证了它的高效性和可靠性。例如,在 MATH 基准测试中,Qwen2.5-7B 的数学推理得分为 75.5,相较于之前的版本提升了近 23%;而在 GSM8K 数据集上的准确率达到 83.9%,进一步展示了它在复杂问题求解方面的潜力。 #### 模型获取方式 对于希望使用 Qwen2.5-Coder-7B-Instruct 模型的研究者或开发者而言,可以通过 Hugging Face 平台访问相关资源。以下是具体的链接地址以及操作指南: - **Hugging Face 页面**: 访问 [https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct)[^1] 即可找到官方发布的模型权重及相关文档。 - **LoRA 微调支持**: 如果需要对模型进行微调以适应特定应用场景,可以参考 SwanLab 提供的可视化工具链。通过 LoRA 技术(低秩适配),可以在不破坏原始模型结构的前提下实现高效的参数更新。典型配置如下所示: ```python from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=64, lora_alpha=16, lora_dropout=0.1, bias="none", task_type="CAUSAL_LM" ) model = get_peft_model(model, lora_config) ``` 上述代码片段定义了一个适用于因果语言建模任务的 LoRA 配置,并将其应用于基础模型实例化过程中[^4]。 #### 当前进展与未来规划 除了现有的 7B 和更大容量的变体外,Qwen 团队正积极筹备推出更高规格的 32B 版本,旨在对标国际顶尖水平的闭源解决方案。与此同时,团队也在持续优化基于代码理解与生成的核心技术路径,力求突破现有框架限制[^3]。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值