亚马逊云科技赋能生成式AI时代的数据基座

本文链接：https://blog.csdn.net/weixin_46812959/article/details/139941382

关键字: [亚马逊云科技中国峰会2024, Amazon Bedrock, 生成式Ai数据基座, 企业数据资产利用, 数据管理系统构建, 向量嵌入数据处理, 亚马逊云科技数据服务]

本文字数: 2500, 阅读完需: 12 分钟

导读

在”亚马逊云科技中国峰会2024”上,演讲者探讨了如何构建生成式AI时代的数据基座。他们阐述了生成式AI的重要性,以及如何利用亚马逊云科技的各种数据服务来支持生成式AI应用程序的开发。具体包括:1)使用向量数据库存储语义上下文和数据,支持语义相似度检索;2)利用各种数据库和数据湖存储结构化、非结构化和向量数据;3)使用亚马逊云科技的数据集成、流处理和数据治理服务构建端到端数据管道;4)使用AmazonRedshift等服务实现成本优化和弹性扩展。此外,还分享了汇量科技在AmazonRedshift上的实践经验。

演讲精华

以下是小编为您整理的本次演讲的精华，共2200字，阅读时间大约是11分钟。

生成式人工智能(AI)标志着人工智能领域的一次大飞跃,它能够模仿人类的创造力和理解力,生成新内容、新想法和新数据。与传统人工智能侧重于模式识别和预测不同,生成式AI可以基于学习到的数据模式产生原创性输出,包括文本、图像、音乐、代码等,这一切都源于训练它时使用的庞大数据集。

生成式AI具有革新各行业的潜力。在医疗保健领域,它可以通过分析患者的病例来生成个性化的分析报告。在汽车领域,它可以通过生成出来的新的创新点来推动设计和工程的创新。在数据分析和数据建模方面,它可以揭示人类分析师不容易察觉的洞见和模式,从而推动研发、金融等领域的突破。

虽然生成式AI的基础模型和大语言模型很重要,但它只是冰山一角。在冰山以下是一个非常复杂的系统,该系统囊括了数据采集、数据管理、数据分析、数据集成和数据治理。正是有了这些系统,才能够确保生成式AI程序以有效、高效且符合伦理道德的方式运行。

生成式AI仍然是应用程序,该应用程序需要操作型数据库来为应用程序提供上下文,它需要流式处理、批量处理和交互式分析来收集、存储、处理和可视化数据库中的数据。它需要数据集成和数据治理,以确保数据以安全的方式为整个组织的数据资产进行编译和利用。

一份麦肯锡报告最新报告中提到,在生成式AI中数据的关键性,其中描述若一家公司还未找到方法去有效协调自己的数据,为自己的数据提供便捷的安全访问,那么它将无法微调生成式AI,以解锁更多潜在的变革性用途。围绕生成式AI带来的商业价值和竞争优势,制定一个清晰的数据和基础设施战略就变得至关重要。

每一家公司都能够接触到相同的基础模型,那么怎么样去创建出具有实际商业价值的生成式AI应用程序呢?这正是需要公司能够善于利用自己的数据,您的数据就是您的差异化因素。比如说您是一家在线旅行社,希望生成个性化的旅行计划,您就会想到利用数据库中的客户档案,该客户档案可能会包括过往行程、网站历史还有旅行偏好,您可以把这一些数据客户档案跟公司的数据结合在一起,公司的数据可能会包括航班和酒店库存、促销活动和其他类似的旅行细节。我们都见证了生成式AI在内容创作方面的强大能力,为了使这些能力与您的组织更为相关,您希望采用公司数据湖中的数据,如品牌指南,还有以往的广告内容。同时您也可以关联公司实时事务数据库中的数据来获得实时库存,这样才能够对生成式AI进行定制,从而确保广告对于产品更具相关性。当您需要做一个更相关的对话式搜索,依据企业数据为客户和员工提供答案时,这个时候您可以利用企业的非结构化数据,比如说Slack、内部指南、SharePoint等数据去构建一个对话式的搜索增强,从而获得更相关的答案。

对于新兴的生成式AI的数据模式,分为三个类别:第一个是检索增强生成,它可以用私有的特定领域的上下文数据指导预先训练的模型;第二类是微调预先训练的模型;第三类是训练自己的模型。生成式AI用程序提供一个对话的机器人,该机器人会为提问者提供对应的车辆保险的报价。从这样的对话中可以看到,当提问者提出需求时,生成式AI应用程序提供的对话机器人已经有了一些上下文信息,它可以精确地报出提问者对应的家庭住址、车辆信息、常用驾驶人员等信息。

这个数据流是怎么工作的?首先,对于用户提问者,他提交了一个用户语句或提示词,相关的关键词从提示词中被抽取出来。为了检索相关的数据,数据的来源就会是企业的庞大数据库,如数据库、企业数据仓库、企业数据湖。这些额外的数据用于增强用户原来的提示词,被提交给大语言模型并获得回答。这些数据来源可以作为向量嵌入,并存储在向量数据库中。

向量嵌入是一种将数据转换为数值表示以捕捉其含义和关系的方法。对于向量嵌入,一个完整的数据生命周期是:数据源->令牌化->向量化存储在向量数据库->语义相似度检测->补充提示词。

对于检索增强生成的参考架构,最终用户关键路径的数据流程是:用户提问->获取对话状态和历史->获取情景上下文->令牌化->从大语言模型获取用户问题的向量嵌入->为问题的向量嵌入运行相似度检索,获取最匹配文本->用经过优化的提示词调用大语言模型->更新对话状态和历史->返回答案。

对于向量搜索,亚马逊云科技可以提供多种服务,比如说可能用得最多的是Amazon OpenSearch,还有其无服务器版本,其内置KNN插件,可以提供自动的向量嵌入功能。同时亚马逊云科技有关系数据库Amazon Aurora PostgreSQL和Amazon RDS for PostgreSQL,其内置PGVector,可提供向量功能。亚马逊云科技有文档数据库Amazon DocumentDB,有键值数据库Amazon MemoryDB for Redis,其ZeroETL的功能和Amazon OpenSearch一起结合,可以来提供相关功能。亚马逊云科技还有键值的内存数据库Amazon MemoryDB for Redis。最后亚马逊云科技还有一个图数据库Amazon Neptune。亚马逊云科技还提供专用数据库,以及数据仓库,如云原生数据仓库Amazon Redshift。

生成式AI应用程序的幕后数据部分需要数据源,需要流式摄入和批量摄入,从而进行流式处理、批量处理。除此之外,需要关系数据库存放对话状态、对话历史,需要企业数据库和数据仓库存储情景上下文,需要向量数据库存储语义上下文,还需要数据集成、ETL、数据管理等功能。

对于流式处理和批量处理,亚马逊云科技提供托管的Kafka服务Amazon MSK、云原生流式处理服务Amazon Kinesis Data Streams、托管Apache Flink服务Amazon Kinesis Data Analytics等。对于数据集成,可借助Amazon Glue;对于数据湖,可使用Amazon S3。Amazon Bedrock是一项完全托管的服务,可提供来自领先AI公司的高性能基础模型,以及创建生成式AI应用程序所需的广泛功能。

对于数据治理,亚马逊云科技提供身份和访问管理服务、Amazon Glue数据目录管理、Amazon Lake Formation数据权限管控、Amazon SageMaker机器学习治理、Amazon DataZone数据发现与治理等。

综上所述,亚马逊云科技制定数据战略,助力生成式AI用程序,提供全面的服务,用于存储和查询结构化、非结构化和向量数据,提供集成数据的选项,包括ZeroETL,任你轻松连接至所有的数据。它提供端到端的数据治理能力、负责任的AI,并规范用户与大语言模型的互动。

接下来是来自汇量科技的王建东分享了该公司移动广告平台Mintegro的数据离线统计架构,以及在Amazon Redshift云数据仓库中的实践经验。Mintegro是汇量科技Movista旗下的一个程序化互动式移动广告平台,从供给侧到需求侧都为全球开发者提供移动营销策略,实现全球增长。该平台包括供给侧平台(SSP)、开发者变现平台、广告交易平台,以及需求侧平台(DSP)、广告主自主投放平台、数据管理平台(DMP)、创意和自动化工具等。

Mintegro的数据离线统计架构是:原始广告数据(请求、展示、点击、转化安装)记录到S3作为原始日志,策略配置和客户配置保存到RDS和S3作为维表,通过Amazon EKS的Spark处理产生存储在Redshift的数据仓库,基于数仓进行离线分析统计,统计同学周期性产出聚合报表数据保存在S3。Redshift是该公司主要使用的数据仓库。

该公司使用Redshift存储已有多年,数据量快速增长。从2021年底到2022年中,数据量增长一倍;2023年到2024年,数据量增长四倍,成本也随之增长。为应对数据量增长和控制成本,公司将Redshift集群从EC2迁移到RA3节点,实现了存储和计算分离。

RA3节点的优点包括:扩展灵活、高效、良好的冷热数据处理、计算和存储相对独立。迁移后,随着业务数据量的快速增长,存储成本基本保持不变或增长缓慢,不再像EC2那样成本阶梯式增长。此外,RA3节点为Redshift集群提供了动态扩展的新特性,在高峰期可临时动态扩展1-2个集群,确保查询性能。实测显示,由于可增加更多节点,查询性能比迁移前有所提升。

迁移到RA3节点后,不仅解决了存储空间不足的问题,也为后续集群升级或迁移提供了便利,并为未来的空间优化如大表拆分等创造了条件。

针对某些业务场景,整个集群的动态扩展可能成本较高,Amazon Redshift Serverless就可以提供更细粒度的计算扩展能力。Serverless支持Redshift的所有功能,使用方便,只需在后台配置数仓容量,会自动按需扩展资源并按使用时长计费。

该公司有一个单表日增60亿行的大数据量场景,查询频率较低且有较长空闲时间。对于这种场景,Serverless可以很好地在保证查询性能的同时,按需付费、按团队划分成本,从而促进团队内部的查询优化。该场景的架构是:从日志收集到S3,通过Spark统计写入Redshift,不同团队通过Redshift Serverless查询数据库,按团队划分成本促进查询优化。测试显示,在高峰期Serverless会自动扩展资源,确保查询性能。

总的来说,汇量科技通过将Redshift集群从EC2迁移到RA3节点实现了存算分离,有效控制了成本;并结合Serverless,针对不同业务场景提供了灵活的计算扩展能力,优化了资源利用和成本。

最后,视频总结了亚马逊云科技在构建生成式AI时代的数据基座方面的全面解决方案,包括各种数据库、数据仓库、流处理、数据集成、数据治理等服务,可满足生成式AI应用程序对数据的各种需求。

下面是一些演讲现场的精彩瞬间：

亚马逊云科技产品经理方琴和客户汇量科技的王建东老师共同出席亚马逊云科技中国峰会2024并进行演讲。

亚马逊云科技中国峰会2024:生成式AI只是冰山一角,冰山以下是复杂的数据系统

亚马逊云科技中国峰会2024上阐述了生成式AI程序如何依赖于云计算基础设施和服务来确保高效、安全和符合道德的运行。

亚马逊云科技中国峰会2024上,演讲者解释了数据流程背后的工作原理,包括用户提交查询、关键词提取、从企业数据库检索相关数据等步骤。

亚马逊云科技提供多种服务来支持向量搜索,包括OpenSearch、Aurora PostgreSQL、DocumentDB、MemoryDB、MemoryDB for Redis、Neptune和Redshift。

亚马逊云科技提供全面的数据治理解决方案,包括身份和访问管理、数据质量监控、数据编目、细粒度访问控制、机器学习治理以及内部数据治理等,助力企业实现数据安全合规和高效利用。

亚马逊云科技中国峰会2024上,演讲者分享了使用Redshift Serverless解决低使用频率、大数据量和高查询性能需求的经验。

总结

在生成式AI时代,数据基座扮演着关键角色。生成式AI能模仿人类创造力和理解力,生成新内容、新想法和新数据,但其背后需要一个复杂的数据系统作为支撑,包括数据采集、管理、分析、集成和治理。企业需要善用自身数据,将其作为差异化因素,为生成式AI应用程序提供上下文和定制化。亚马逊云科技提供全面的服务,支持存储和查询各类数据,丰富的数据集成选项,以及端到端的数据治理能力和负责任的AI。

汇量科技的案例展示了亚马逊云科技RedShift在离线数据统计架构中的应用。通过迁移到i3节点,RedShift实现了存算分离,降低了存储成本,并支持动态扩展以保障计算性能。RedShift Serverless进一步提供了细粒度的计算弹性,解决了低使用频率场景下的资源浪费问题。亚马逊云科技的数据服务全面满足了汇量科技的业务需求,助力其构建高效、灵活的数据基座。

总之,构建生成式AI时代的数据基座,需要企业重视数据战略,利用云服务提供的强大数据能力,打造安全、高效、符合伦理的生成式AI应用程序。

2024年5月29日，亚马逊云科技中国峰会在上海召开。峰会期间，亚马逊全球副总裁、亚马逊云科技大中华区总裁储瑞松全面阐述了亚马逊云科技如何利用在算力、模型、以及应用层面丰富的产品和服务，成为企业构建和应用生成式 AI 的首选。此外，活动还详细介绍了亚马逊云科技秉承客户至尚的原则，通过与本地合作伙伴一起支持行业客户数字化转型和创新，提供安全、稳定、可信赖的服务，以及持续深耕本地、链接全球，助力客户在中国和全球化发展的道路上取得成功。