医疗保健领域
在医疗保健领域,大型语言模型(LLMs)和视觉语言模型(VLMs)可以作为诊断代理、患者护理助手,甚至是辅助治疗工具,但它们也伴随着独特的挑战和责任。AI代理在提高患者护理质量和拯救生命方面具有巨大潜力,但其不当使用或匆忙部署也可能对数千乃至数百万人的生命安全构成威胁。我们将探讨AI代理在医疗保健领域的几种有前景的应用路径,并讨论面临的关键挑战。
诊断代理。近年来,使用LLMs作为医疗聊天机器人进行患者诊断引起了极大关注,因为对医学专家的需求很高,而LLMs有潜力帮助进行分诊和诊断(Lee等人,2023)。对话代理,尤其是那些能够有效地向不同患者群体传达重要医疗信息的代理,有潜力为历来处于不利地位或边缘化的群体提供公平的医疗服务。此外,全球各地的医生和医疗系统普遍负担过重、资源不足,导致数亿人无法获得足够的医疗服务(世界卫生组织和世界银行,2015)。诊断代理为改善数百万人的医疗健康提供了特别有利的途径,因为它们可以理解多种语言、文化和健康状况。初步研究表明,可以利用大规模网络数据训练具备医疗知识的LLMs(Li等人,2023f)。尽管这一方向令人期待,但诊断代理的应用也伴随着风险。我们在下文中着重介绍了在医疗环境中出现“幻觉”现象的风险及其潜在的解决方案。
知识检索代理。在医疗环境中,模型的“幻觉”现象特别危险,可能导致严重的患者伤害甚至死亡,具体取决于错误的严重程度。例如,如果患者错误地被告知他们没有某种实际存在的疾病,可能导致灾难性后果,包括延迟或不当治疗,甚至完全缺乏必要的医疗干预。未被诊断或被误诊的疾病可能导致医疗费用增加、治疗周期延长、身体额外负担增加,甚至在极端情况下造成严重的伤害或死亡。因此,采用能够更可靠地检索知识的代理(Peng等人,2023)或基于检索生成文本的代理(Guu等人,2020)是一个有前景的方向。将诊断代理与医疗知识检索代理配对,有望显著减少幻觉现象,同时提高诊断对话代理的回答质量和准确性。
远程医疗和远程监控。基于代理的AI在远程医疗和远程监控领域也具有巨大潜力,可以改善医疗获取、增进医护人员与患者的沟通效率,并减少频繁的医患互动成本(Amjad等人,2023)。初级保健医生花费大量时间筛选患者信息、报告和邮件,其中许多信息对于他们来说是不必要的或无关紧要的。支持代理可以帮助分诊来自医生、患者和其他医护人员的消息,并帮助突出所有相关方的重要信息。通过让智能AI系统协调患者、医生和其他AI代理,有望彻底变革远程医疗和数字健康行业。
当前医疗能力
图像理解。我们展示了现代多模态代理(如GPT-4V)在医疗保健中的当前能力和局限性(如图19所示)。可以看出,尽管GPT-4V具备医院护理所需设备和流程的显著内部知识,但它不总是能够对用户的具体诊断查询做出精确回应。
图 19:在医疗图像理解领域中使用 GPT-4V 的示例提示和响应。从左到右依次为:(1) 护士和医生进行 CT 扫描的图像,(2) 不规则心电图的合成图像,(3) 来自 ISIC(Codella 等, 2018)皮肤病变数据集的图像。可以看出,GPT-4V 具备显著的医学知识,能够对医学图像进行推理。然而,由于安全性训练,GPT-4V 无法对某些医学图像做出诊断。
视频理解。我们在两个情境下探讨了VLM代理在医学视频理解方面的表现。首先,我们研究了VLM代理在临床环境中识别重要患者护理活动的能力。其次,我们探索了VLM在处理更具技术性的医学视频(如超声视频)中的应用。具体来说,在图20中,我们展示了GPT-4V在医院护理和医学视频分析方面的当前能力和局限性。
图 20:在医疗视频理解领域中使用 GPT-4V 的示例提示和响应。我们将示例视频输入为带有顺序文本的 2x2 网格帧。在前两个示例中,我们提示 GPT-4V 检查视频帧,以检测对志愿患者进行的临床床边活动。在最后一个示例中,我们尝试提示 GPT-4V 评估心脏超声波视频,但由于 GPT-4V 的安全性训练,它未提供详细响应。为清晰起见,我们将描述主要活动的文本加粗,并简化不必要的模型响应。同时,我们对个体的面部进行了灰度处理,以保护其隐私。
图 21:交互式多模态智能体包含四个主要支柱:交互、语音、视觉和语言。协同智能体由不同的服务组成。1)交互服务帮助创建用于自动化操作、认知和决策的统一平台。2)音频服务将音频和语音处理集成到应用程序和服务中。3)视觉服务识别并分析图像、视频和数字墨水中的内容。4)语言服务从结构化和非结构化文本中提取意义。
多模态代理
视觉和语言理解的整合对于开发先进的多模态AI代理至关重要。这包括图像描述、视觉问答、视频语言生成和视频理解等任务。我们致力于深入探讨这些视觉-语言任务,探索它们在AI代理环境中的挑战和机遇。
图像-语言理解与生成
图像-语言理解是一项任务,涉及通过语言解释给定图像中的视觉内容,并生成相关的语言描述。这项任务对开发能够更人性化地与世