概述
扁鹊是华南理工大学未来技术学院-广东省数字孪生人重点实验室开源的中文医疗大模型,该模型基于千万规模的中文健康对话数据进行精细的指令微调而形成。这一项目目的在于推动中文医疗健康领域的人工智能应用,尤其是在预防性医疗和精准健康咨询中的应用。
扁鹊模型概览图
扁鹊 2.0
继扁鹊模型之后,开发团队基于扁鹊健康大数据集,选择了ChatGLM-6B作为初始模型,并对其进行了全参数的精细指令微调,成功开发出了新一代模型BianQue-2.0。此次升级不仅继承了原有模型的核心功能,还在多方面进行了创新和拓展。
数据层面的扩展
与前一代BianQue-1.0模型相比,BianQue-2.0在数据层面进行了显著的扩展:
-
新增药品说明书查询:增加了针对常见和关键药品的详细说明书信息,使模型能够提供关于药物成分、作用机理、使用指南等详尽信息。
-
医学百科知识集成:融入了广泛的医学百科知识,涵盖从基础医学到临床应用的各个方面,极大丰富了模型的知识基础。
-
ChatGPT蒸馏指令集成:通过集成与蒸馏ChatGPT相关的医疗健康指令,模型在处理复杂健康咨询对话时的性能得到了进一步提升。
技术创新
BianQue-2.0采用了最新的自然语言处理技术,确保了模型在理解和生成中文医疗对话方面的高效性和准确性。此外,全参数微调使模型更好地适应特定的医疗问询场景,尤其是在模拟医生的多轮对话和进行医学诊断推理方面。
应用前景
BianQue-2.0的推出,预计将在医疗健康咨询、疾病预防教育、慢性病管理等领域发挥重要作用,帮助医疗专业人员与普通用户获取更快速、更准确的健康信息和医疗建议。
通过这些创新和扩展,BianQue-2.0不仅在技术上实现了突破,更在医疗人工智能的实际应用中展示了广阔的应用潜力和实际价值。
应用实例 :
- 样例1:用户询问“宝宝特别喜欢打嗝,是什么原因啊,该怎么预防啊?”扁鹊-2.0能够基于现有的医学知识库提供可能的原因和预防措施。
- 样例2:当用户描述“我外婆近来身体越来越差了,医生说她得了肾静脉血栓,担心极了”,扁鹊-2.0能够查询相关的药理毒理信息,并给出医学建议。
这些功能和创新点使得扁鹊-2.0不仅是一个技术上的突破,更是医疗健康AI领域应用的重要进展。
扁鹊健康大数据
在健康领域,用户在单轮交互中往往无法清晰完整地描述自己的问题。即使是 ChatGPT,在没有明确指示采用问答形式的情况下,也会倾向于根据用户的描述迅速提供建议和方案。这忽略了实际医疗咨询中医生会根据用户描述进行多轮深入询问的情况。
如下图所示,扁鹊大模型开发团队把医生不断问询的过程定义为询问链(CoQ, Chain of Questioning),当模型处于询问链阶段,其下一个问题通常由对话上下文历史决定。
此外,扁鹊大模型开发团队通过深入分析多个开源中文医疗问答数据集,如 MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、cMedQA2 和 Chinese-medical-dialogue-data,关注了单轮和多轮交互特性以及医生问询行为,同时结合实验室长期积累的生活空间健康对话大数据,成功构建了千万级别规模的扁鹊健康大数据集。
对话数据被统一为一种指令格式:
安装与配置
前提条件
确保您的系统具备以下条件:
-
Python 3.8 或更高版本。
-
CUDA-11.6,配合对应的NVIDIA驱动,用于支持GPU加速。
-
Conda环境管理器,用于创建和管理Python环境。
安装步骤
-
克隆项目:打开终端或命令提示符,执行以下命令以克隆BianQue项目到本地环境:
cd ~
git clone https://github.com/scutcyr/BianQue.git -
设置Python环境:进入项目目录,并创建Python环境:
cd BianQue
conda env create -n proactivehealthgpt_py38 --file proactivehealthgpt_py38.yml
conda activate proactivehealthgpt_py38 -
安装依赖:安装项目所需的依赖库:
pip install cpm_kernels
pip install torch1.13.1+cu116 torchvision0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116
pip install -r requirements.txt
pip install rouge_chinese nltk jieba datasets以下安装为了运行demo
pip install streamlit
pip install streamlit_chat
配置说明
-
Windows用户的特别说明:在Windows操作系统下,安装和配置可能需要额外的步骤:
cd BianQue
conda create -n proactivehealthgpt_py38 python=3.8
conda activate proactivehealthgpt_py38
pip install torch1.13.1+cu116 torchvision0.14.1+cu116 torchaudio==0.13.1 --extra-index-url https://download.pytorch.org/whl/cu116
pip install -r requirements.txt
pip install rouge_chinese nltk jieba datasets配置CUDA-11.6:
-
下载并安装CUDA-11.6。
-
下载cudnn-8.4.0,解压并复制其中的文件到CUDA-11.6对应的路径。
-
参考通用安装指南调整CUDA配置。
使用示例
-
启动服务:通过以下命令启动BianQue-2.0模型的示例应用,然后访问指定的URL:
streamlit run bianque_v2_app.py --server.port 9005
在
bianque_v2_app.py
中,您可以更改以下代码来指定使用的GPU:os.environ[‘CUDA_VISIBLE_DEVICES’] = ‘1’ # 对于单显卡Windows用户,请设为’0’
-
调用模型:在Python环境中,您可以这样调用BianQue-2.0模型进行单轮或多轮对话:
import torch
from transformers import AutoModel, AutoTokenizerdevice = torch.device(“cuda” if torch.cuda.is_available() else “cpu”)
model_name_or_path = ‘scutcyr/BianQue-2’
model = AutoModel.from_pretrained(model_name_or_path, trust_remote_code=True).half()
model.to(device)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, trust_remote_code=True)示例:单轮对话
user_input = “我的宝宝发烧了,怎么办?”
input_text = “病人:” + user_input + “\n医生:”
response, history = model.chat(tokenizer, query=input_text, history=None, max_length=2048, num_beams=1, do_sample=True, top_p=0.75, temperature=0.95, logits_processor=None)
通过这些详细的步骤,用户可以轻松地设置和使用BianQue-2.0模型,从而在各种医疗健康咨询场景中应用先进的人工智能技术。
配置说明
具体配置详情请参见项目README文件,特别是对于Windows用户的CUDA配置说明。
使用指南
基本使用
-
通过以下Python代码快速调用模型进行单轮或多轮对话:
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained(“scutcyr/BianQue-2”)
tokenizer = AutoTokenizer.from_pretrained(“scutcyr/BianQue-2”)
示例代码
-
单轮对话示例:
response, history = model.chat(tokenizer, query=“我的宝宝发烧了,怎么办?”, history=None)
文档与资源
API文档
查看API文档 :https://github.com/scutcyr/BianQue/wiki/API
参考资源
-
医疗问询数据集MedDialog-CN :
https://github.com/MedDialog -
深度学习库PyTorch官网 : https://pytorch.org
那么,如何学习大模型 AGI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
-END-
👉AGI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉AGI大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉AGI大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓