Merck利用亚马逊text-to-SQL推进医疗数据提取
关键字: [Amazon Web Services re:Invent 2024, 亚马逊云科技, 生成式AI, Text2SQL, Generative Ai Healthcare, Real World Data, Text-To-Sql Solution, Data Extraction Challenges, Large Language Models]
导读
默克公司作为一家领先的制药企业,一直在寻求加快研发进程的新方法。其数据和分析团队在从庞大的医疗保健数据库中提取洞见时面临重大挑战,发现编写复杂的SQL查询既耗时又容易出错。为解决这一问题,默克与亚马逊云科技生成式AI创新中心合作,在Amazon Bedrock上使用Anthropic的Claude模型实施了一种生成式AI文本到SQL的解决方案。这一创新使分析师能够以超过95%的准确率从自然语言生成SQL查询。数据工作流程现已显著简化,使默克的科学家能够更快速、更自信地做出决策,并轻松扩展以纳入更多数据库。
演讲精华
以下是小编为您整理的本次演讲的精华。
在不懈地追求利用医疗保健数据来拯救和改善生命的过程中,作为一家开拓性的制药公司,默克与亚马逊云科技建立了创新合作伙伴关系,以利用生成式人工智能的变革力量。在亚马逊云科技 re:Invent 2024活动上,一场会议揭示了默克利用亚马逊云科技 Text2SQL这一尖端技术来革新医疗保健数据提取和分析的创新方法。
会议伊始,亚马逊云科技生成式人工智能创新中心的高级应用科学家Henry Wong阐述了生成式人工智能的巨大潜力。这些模型基于预先在海量数据集上训练的基础模型,具有生成与人类生成的输出非常相似的原创内容的惊人能力。Henry Wong阐明了医疗保健数据的发展趋势,其特点是数据量爆炸式增长、随着图像和音频等非结构化数据格式的整合而日益复杂化,以及来自孤立数据源的数据互操作性持续存在的挑战。传统的医疗保健数据分析方法已经无法满足需求,需要探索生成式人工智能等创新技术。
默克公司的首席科学家Vlad Terzyski登台,揭示了该公司在数据分析方面的挑战。默克的重点是观察性真实世界数据(RWD),包括在临床试验之外收集的任何数据,如电子病历或保险理赔数据。默克的真实世界证据能力和分析团队取得了显著成就,包括成为唯一一家入围CMS人工智能健康结果挑战赛前25名创新者的制药公司。此外,默克还维护着一个开源算法库,包括机器学习算法和统计软件包,进一步彰显了他们推进科学创新的决心。
Vlad Terzyski阐明了真实世界数据库生态系统的复杂性,这是一个不断演变的领域,包括许多向默克授权真实世界数据的公司。每家公司都呈现独特的数据结构和变量,需要应对数百个变量,给数据管理和分析带来重大挑战。默克基于亚马逊云科技构建的真实世界数据交换平台,为三种不同的用户角色提供服务:定量数据科学家、公民数据科学家和洞见消费者,每个角色都有自己特定的需求。
为了应对这些挑战,默克开发了一种由大型语言模型(LLM)驱动的Text2SQL解决方案。该团队利用之前的代码和研究,为SQL创建了问答数据集,分为三个难度级别:简单、中等和困难,困难查询涉及多个过滤操作、复杂的分组或子查询。公开的Medicare理赔数据集Synthetic Patient Population (SynPUF),包含5个表和339个变量,成为他们应用程序的测试平台。
来自亚马逊云科技人工智能创新中心的应用科学家Tess Fagaber Miharisky深入探讨了Text2SQL管道解决方案的技术细节。该管道将指令、数据库模式、示例数据、特征示例、列和表描述以及可选工具作为输入,集成到Amazon Bedrock LLM中。Tess演示了该工具,展示了用户如何与数据库交互、查看模式信息以及通过连接到亚马逊云科技 API网关和Amazon Lambda函数的前端应用程序输入查询。LLM生成SQL语句、解释查询的摘要,并可选择在Amazon Redshift数据库上执行SQL,提供透明和交互式体验。该解决方案还利用Amazon OpenSearch Service作为向量数据库来检索类似示例,并将输出存储在Amazon DynamoDB中以供后续使用和优化。
Vlad Terzyski随后展示了性能结果,揭示LLM在40个问题的小数据集上取得了令人印象深刻的97%以上的准确率,通过重新提示,简单和中等问题的准确率可提高到100%,困难问题的准确率可达95%。值得注意的是,即使在一名数据科学家审阅答案和问题后,第二名数据科学家仍发现了额外的错误,凸显了LLM在某些情况下超越人类分析师的潜力。
会议最后讨论了默克Text2SQL解决方案的影响和未来方向。计划将该解决方案扩展到SynPUF数据集之外的其他数据库,在默克的整个真实世界数据用户群中推广,通过在Amazon DynamoDB中存储问题和用户反馈来优化性能,探索不同的LLM和提示,开发用户问题的真实数据集,并研究自动化准确性评估方法(如精确匹配和执行准确性),从而摆脱耗时的人工审查过程。
在不断演进的医疗保健数据领域,洞见蕴含着拯救和改善生命的力量,默克利用生成式人工智能和亚马逊云科技 Text2SQL的创新方法,代表了释放多样化真实世界数据源全部潜力的重大一步。通过利用Amazon Lambda、亚马逊云科技 API网关、Amazon Redshift、Amazon OpenSearch Service、Amazon DynamoDB和Amazon Bedrock LLM等尖端亚马逊云科技技术的能力,默克正在为更高效、更准确的数据提取和分析铺平道路,使医疗保健专业人员和研究人员能够做出明智决策,从而最终提高患者结果并推动医学领域的进步。
下面是一些演讲现场的精彩瞬间:
默克公司的代表讨论了公司如何利用生成式人工智能和亚马逊云科技 Text2SQL实现高效的医疗保健数据提取。
在生成式人工智能出现之前,由于医疗保健分析的复杂性,业务用户很难识别满足特定条件的记录。
通过生成式人工智能,分析师可以利用大型语言模型根据文档和数据高效生成SQL语句,从而可以专注于从结果中提取创新见解。
演讲者强调了处理多个数据库的挑战,每个数据库都有独特的结构和变量,这使得开发SQL查询和有效利用通用数据模型变得困难。
演讲者强调了该工具提供的灵活性和用户授权,允许用户完善和编辑由语言模型生成的SQL语句,以确保结果的准确性。
人工智能模型在回答具有挑战性的问题时表现出了惊人的准确性,对于简单和中等查询,准确率达到100%,对于困难的查询,准确率为95%,只需用户进行一次重新提示或澄清。
演讲者讨论了开发用户问题的真实数据集的需求,并探索评估响应准确性的自动化解决方案,而不是依赖数据科学家的手动审查。
总结
在这场引人入胜的演讲中,默克公司分享了他们利用亚马逊云科技的Text-to-SQL技术来简化医疗保健数据提取的创新方法。讲述从概述生成式人工智能开始,强调其在医疗保健和生命科学等各个行业革新的潜力。随后,默克公司深入探讨了他们在数据分析中面临的挑战,尤其是处理具有独特结构和变量的各种真实世界数据源的复杂性。
为了解决这些障碍,默克公司与亚马逊云科技合作,开发了一种基于Amazon Bedrock大型语言模型的Text-to-SQL解决方案。该解决方案旨在通过自然语言查询生成SQL语句,赋予量化数据科学家和公民数据科学家权力。演示展示了该工具理解上下文、利用参考示例并为复杂查询生成准确SQL语句的能力。
影响和未来方向概述了默克公司将此解决方案扩展到其他数据库、通过用户反馈和微调优化性能,以及探索自动化准确性评估方法的计划。最终,这种开创性的方法有望从医疗保健数据中发掘宝贵见解,加速创新并改善患者结果。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。做为全球生成式AI前行者,亚马逊云科技正在携手广泛的客户和合作伙伴,缔造可见的商业价值 – 汇集全球40余款大模型,亚马逊云科技为10万家全球企业提供AI及机器学习服务,守护3/4中国企业出海。