大模型如何把企业的数据用起来-CSDN博客

本文链接：https://blog.csdn.net/xzp740813/article/details/140158178

导读：随着人工智能技术的飞速发展，大模型在医学领域的应用已经展现出了巨大的潜力。特别是生成式人工智能（Generative AI），它通过深度学习算法不仅能够设计新的药物分子，还能优化药物属性，甚至在疾病预防和治疗方面提供前所未有的支持。尽管大模型在医学领域的应用带来了诸多好处，但也引发了一些思考，如数据隐私保护、算法偏见问题等。因此，未来的发展中，需要更多的研究和监管措施，以确保人工智能技术在医学领域的安全、有效和公平应用。本文对对大模型在医学上的应用做粗浅的讨论。‍‍‍‍‍‍

本文总结：

大模型正在革命性的重塑制药这个行业，将传统药物长达10年的研发周期缩短到几个月。

‍‍‍
多模态大模型(visual-languange)在临床上的应用可以有效提高临床医生的效率，是一个有前景的技术路径。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍
大模型应用在实际临床上面对的困难：1）不可解释性；2）训练模型的过程中引入的偏见；3）将AI集成到临床点护理中也是一个时间消耗巨大的过程。‍‍‍‍‍‍‍‍‍‍
大模型训练在医学应用上的未来发展趋势：通用医学AI（GMAI）。GMAI模型将能够使用极少量或无需特定任务的标记数据来执行多种任务。‍‍
大模型正在革命性的重塑制药这个行业

2024年，一个巨大的改变在互联网上就是可能百分之50%的内容都不是由人类完成创作的，而是有generative AI 来完成创作。所以，在这个信息世界在巨大的变动的时候，制药企业首先收到了巨大的冲击。比如，Insilico，一家成立于2014年的全球领先的以深度学习为核心的临床阶段生成式AI和机器人技术公司，正在领导这一变革。他们开发的生成式AI平台支持多模态、多行业、多领域的学习，极大地提高了药物研发的效率和效果。传统的药物研发过程耗时长达10年，并需要超过20亿美元的投资，而现在，通过使用生成式张量强化学习技术，Insilico能够在短短46天内完成从理论模型到小鼠实验的转化。这种高效的研发模式不仅加快了新药的上市速度，也显著降低了研发成本。大家有兴趣可以访问这个网站：https://papers.insilicogpt.com

下面是几篇关于生成式AI在制药上面的应用：‍‍

图一：一种新型深度生成模型——生成式张量强化学习（GENTRL）。‍‍

在上面这篇文章中，作者开发了一种新型深度生成模型——生成式张量强化学习（GENTRL），用于全新小分子药物的设计。GENTRL优化了合成的可行性、新颖性和生物活性。我们利用GENTRL发现了强效的圆盘状域受体1（DDR1）抑制剂，DDR1是一种与纤维化及其他疾病相关的激酶靶标。在21天内，我们筛选出了多个候选化合物。其中四种化合物在生化试验中显示出活性，两种在细胞基础的试验中得到了验证。一个领先候选物已在小鼠中进行了药动学测试，并显示出了良好的性能。

图二：一种名为SyntheMol的生成模型。

随着耐药性细菌的增多，迫切需要开发结构新颖的抗生素。虽然人工智能方法可以发现新的抗生素，但现有方法存在显著局限。属性预测模型评估单个分子的特定属性，在大型化学空间中的扩展性差。生成模型可以直接设计分子，快速探索庞大的化学空间，但生成的分子往往难以合成。在这里，文章介绍了一种名为SyntheMol的生成模型，该模型从近300亿分子的化学空间中设计易于合成的新化合物。文章将SyntheMol应用于设计抑制严重革兰氏阴性细菌病原体鲍曼不动杆菌生长的分子。文章合成了58种生成的分子，并对其进行了实验验证，其中六种结构新颖的分子显示出对鲍曼不动杆菌及其他几种系统发育多样性的细菌病原体的抗菌活性。这证明了生成式人工智能设计结构新颖、可合成且有效的小分子抗生素候选物的潜力，并通过实验验证。

(image-text)多模态大模型正在提高临床医生的工作效率‍‍‍‍‍‍

在多模态大模型（image-text)的应用场景中，帮助临床医生诊断是一个很好的从实际出发的应用需求。在医疗领域，研究与临床实践之间存在显著差距，尤其是在医学成像和人工智能应用上。为了弥补这一差距，需要构建从研究到临床的全栈解决方案，并且需要来自多元化社区的合作和集体努力。

在技术方面，包括低剂量CT重建、肺结节筛查与诊断、放射治疗的自动轮廓勾画等方面的进展显示出AI的潜力。例如，uLINQ系统和全面的放疗解决方案能将放疗的准备时间从几天缩短到几分钟。此外，全谱系列的技术，如图像到图像映射、AI辅助的压缩感知技术用于快速MRI，以及基于扩散的MR重建等，正在改变我们对医学图像处理的认知。特别值得一提的是，医学成像的基础模型和对乳腺癌诊断的对比语言预训练等技术，正展示出AI在高精度医学应用中的重要作用。而大型语言模型（LLM）的引入，特别是在计算病理学中的应用，强调了LLM不仅能从非结构化文本中提取结构化信息，而且还能作为科学推理引擎，而非仅仅是知识数据库。

比如下面的visual-lanugage模型去做病理语言-图像预训练（PLIP）模型是一个案例。

图三： visual-lanugage模型去做病理语言-图像预训练（PLIP）模型。

文章简介：由于缺乏公开可用的带注释医学图像，这对计算研究和教育创新构成了重大障碍。与此同时，许多去身份化的图像和大量知识通过如医学推特等公共论坛被临床医生分享。我们利用这些群众平台整理了一个名为OpenPath的大型数据集，包含208,414张病理图像及其自然语言描述。我们通过开发病理语言-图像预训练（PLIP）模型来展示这一资源的价值，这是一种具有图像和文本理解能力的多模态人工智能，它在OpenPath上进行训练。PLIP在四个外部数据集上对新病理图像进行分类时达到了最先进的表现：对于零样本分类，PLIP的F1得分为0.565-0.832，相比之下以前的对比语言-图像预训练模型的F1得分为0.030-0.481。在PLIP嵌入上训练一个简单的监督分类器也比使用其他监督模型嵌入实现了2.5%的F1得分提升。此外，PLIP使用户能够通过图像或自然语言搜索检索类似案例，极大地促进了知识共享。我们的方法表明，公开分享的医学信息是一个巨大的资源，可以被利用来开发医学人工智能，以增强诊断、知识共享和教育。

大模型真正应用在临床上所面临的问题：引入偏见和不可解释性。‍

在医疗人工智能（AI/ML）领域，一些具有前瞻性的筛查模型正被用来主动联系那些高风险的患者。这些模型通过分析大量数据来预测哪些患者更可能需要即时的医疗干预。然而，将这些高科技工具应用于临床实践中仍面临诸多挑战。

首先，虽然AI在监测和评估患者状态方面显示出巨大潜力，但其预测性能的准确性和一致性常常受到质疑。例如，针对特定亚群体，如经济地位较低且有移民背景的50至59岁白人女性，现有AI模型的校准表现不佳。这种情况下，可能需要通过后处理多校准算法来提高预测的精确性和公平性。

此外，将AI集成到临床点护理中也是一个时间消耗巨大的过程。每个患者的具体情况都需要定制化的软件解决方案，这不仅技术要求高，而且在实际操作中需要花费大量时间来确保各项功能正常运作。更何况，所有这些AI驱动的诊断和治疗工具都必须经过美国食品和药物管理局（FDA）的批准，这个过程本身就可能需要很长时间。

因此，虽然AI在医疗行业中的应用带来了许多期待，但其在实际应用中还需克服一系列技术和监管障碍。这要求医疗行业的从业者、技术开发者和政策制定者共同努力，确保新技术能够安全、有效且公平地服务于所有患者。这种跨领域的协作是推动医疗AI未来发展的关键。

大模型的不可解释性是一个关键的问题，下面这篇文章针对这个问题做了一个模型，应用于在全麻期间实时预测低氧血症（缺氧）的风险，并对风险因素进行解释。

图四：一个模型，应用于在全麻期间实时预测低氧血症（缺氧）的风险，并对风险因素进行解释。

图五：模型实时预测每个特征对结果的影响。

在文章中，文章这里报告了一种基于机器学习的系统，该系统能够在全麻期间实时预测低氧血症（缺氧）的风险，并对风险因素进行解释。这个系统经过训练，使用了来自五万多次手术的电子病历中的逐分钟数据，能够在提供可解释的低氧血症风险和相关因素方面提高麻醉师的表现。这些预测的解释与文献和麻醉师的先验知识大致一致。我们的结果表明，如果目前麻醉师能预见到15%的低氧血症事件，那么在该系统的帮助下，他们可以预见到30%的事件，其中很大一部分由于与可修改因素相关，可能受益于早期干预。该系统通过提供关于特定病人或程序特征导致风险变化的一般见解，有助于改善麻醉护理中对低氧血症风险的临床理解。

在当前医疗人工智能的快速发展中，如何确保其发展的可追责性成为了一个重要议题。医疗算法中的种族偏见尤其引人关注，因为这些算法常用于管理整个人群的健康。例如，大型语言模型（Large Language Models, LLMs）被指出可能在不知不觉中传播基于种族的医学实践，这可能加剧了医疗服务中的不公平现象。

算法偏见是指算法在处理数据时倾向于某一特定群体，这在健康医疗领域的影响尤为严重，因为它可能导致某些群体接受到的医疗服务质量较差。针对这一问题，学术界和行业内部已经开始反思并重新考虑这些做法，如文章《Hidden in Plain Sight — Reconsidering the Use of Race Correction in Clinical Algorithms》所讨论的种族校正问题。

然而，只依靠技术手段来解决算法公正性的挑战是不够的，因为这些解决方案的伦理局限性也需要被严肃对待。在设计和开发新的医疗AI系统时，必须通过文献回顾和咨询专家来确保各方面的考量都被充分讨论。此外，伦理决策制定过程中应注重正义、公平、平等和反偏见的原则。

综上所述，医疗AI的发展不仅需要技术上的创新，更需要在伦理和公平性方面的深思熟虑。通过全面的审视和不断的调整，我们可以期待未来的医疗AI系统能更公正地服务于所有人。

大模型的训练在医学应用上未来的发展趋势‍‍‍‍‍‍‍

在医学领域，基于人工智能（AI）的技术发展迅速，但现实世界中的临床实施尚未成为现实。在这篇文章中回顾了将AI整合到现有临床工作流程中的一些关键实际问题，包括数据共享与隐私、算法透明度、数据标准化以及跨多个平台的互操作性，并关注患者安全。文章总结了美国当前的监管环境，并与世界其他地区，特别是欧洲和中国的情况进行了对比。

图六：文章中回顾了将AI整合到现有临床工作流程中的一些关键实际问题。

同时，训练医学大模型也在逐渐发生改变，高度灵活且可重用的人工智能（AI）模型的迅速发展可能会在医学领域带来前所未有的能力。文章提出了一种新的医学AI范式，称之为通用医学AI（GMAI）。GMAI模型将能够使用极少量或无需特定任务的标记数据来执行多种任务。这些模型通过在大型、多样化的数据集上自我监督，能够灵活地解读包括影像数据、电子健康记录、实验室结果、基因组数据、图形或医学文本等多种医学模态的不同组合。模型将依次产生如自由文本解释、口头建议或图像注解等表达性输出，展示出高级的医学推理能力。文章确定了GMAI可能应用的一系列高影响领域，并概述了实现这些应用所需的具体技术能力和训练数据集。文章预计，GMAI支持的应用将挑战当前对医学AI设备的监管和验证策略，并将改变与收集大型医学数据集相关的实践。