基于亚马逊云科技Amazon Bedrock定制生成式AI应用程序

taibaili2023

于 2024-09-05 23:56:21 发布

阅读量514

点赞数 4

文章标签： aws

本文链接：https://blog.csdn.net/weixin_46812959/article/details/141947572

版权

关键字: [Amazon Bedrock, Generative Ai Applications, Model Customization, Knowledge Bases, Fine-Tuning Models, Continued Pre-Training]

本文字数: 1500, 阅读完需: 8 分钟

导读

在一场亚马逊云科技的活动上,亚马逊云科技生成式AI数据科学家Meier Tonkei发表了题为”利用Amazon Bedrock定制生成式AI应用程序”的演讲。演讲中,Tonkei阐述了如何利用自有数据为商业用例量身定制生成式AI解决方案。具体而言,可以通过使用知识库或智能体为提示提供上下文、使用标注数据对模型进行微调,或者使用未标注数据继续预训练来定制模型。该演讲重点介绍了Amazon Bedrock如何能够检索相关信息以增强提示、编排智能体连接数据源、针对特定任务对模型进行微调,以及通过继续预训练实现领域适应,所有这些都结合了亚马逊云科技的安全和隐私功能。

演讲精华

以下是小编为您整理的本次演讲的精华，共1200字，阅读时间大约是6分钟。

在不断发展的生成式人工智能领域,根据企业的独特复杂性来定制应用程序已成为一个重要目标。亚马逊云科技的生成式人工智能数据科学家Meier Tonkei深入探讨了利用组织的专有数据定制这些应用程序的复杂过程,阐明了可供选择的多种方法和技术。

定制的动机是多方面的。企业希望将这些应用程序塑造成符合其独特需求的形式,确保它们理解组织的语言和背景。例如,在法律领域,定制化的应用程序需要理解法律术语、有效分析案件并确定高效的案件管理策略。此外,优化专门任务的性能和培养上下文意识也是至关重要的目标。保持对最新信息的访问也是一个驱动力,例如需要实时数据集成的应用程序,如个性化搜索或动态数据汇总。

Tonkei阐述了两条主要的模型定制途径:不改变模型权重和修改权重。前一种方法涉及通过知识库和代理提供上下文。知识库利用语义搜索、向量存储和嵌入来增强提示,从文档、常见问题解答和维基百科页面中获取相关信息。另一方面,代理则有助于连接实时的结构化数据源,如数据库和API,从而实现动态、实时数据的集成,例如检索前一天的销售数据或下周的预测。

修改模型权重可以通过微调和持续预训练来实现。微调利用标注数据来提高模型在特定任务上的准确性,而持续预训练则利用未标注数据来使模型适应特定领域,从而加深对企业及其相关术语的理解。Tonkei强调,这些技术并不互相排斥,可以组合使用,如持续预训练后进行微调,或集成知识库和代理。

亚马逊云科技的生成式人工智能解决方案Amazon Bedrock被视为构建和扩展定制应用程序的强大工具。它提供了多种基础模型,包括专有模型和来自第三方供应商的模型,可用于广泛的任务,如文本生成、摘要、聊天机器人和图像处理。用户可以直接使用这些现成的模型,或者使用自己的数据对它们进行定制。

视频探讨了一种关键技术Retrieval Augmented Generation (RAG),旨在提高内容质量并减轻幻觉现象——模型生成不正确或虚构的信息。RAG通过检索相关信息并增强提示,确保模型在其知识范围内运行,从而实现这一目标。这种技术对于上下文聊天机器人和问答等用例特别有价值,因为模型的响应应该建立在实实在在的数据基础上,超越传统知识库的局限性。

深入探讨嵌入的细节,视频解释说,Amazon Bedrock提供了Titan文本嵌入模型,能够将长达8,000个标记的文本嵌入到1,536维向量中,涵盖25种不同语言。此外,Amazon Bedrock还提供了英语连贯嵌入模型,能够将长达512个标记的文本嵌入到2,024维向量中,以及在100多种语言上训练的多语言嵌入模型。

RAG工作流程从用户输入开始,然后将其嵌入并使用距离度量(通常是余弦相似度)与向量存储中的向量进行比较。最接近的向量被检索出来,用于增强提示,然后传递给大型语言模型以生成响应。视频承认这个过程涉及的复杂性,包括处理多个数据源、为大量数据创建嵌入,以及管理向量存储的增量更新。

Amazon Bedrock知识库应运而生,旨在解决这些挑战,以安全且可管理的方式创建向量数据库和增强提示。数据注入工作流程包括摄取数据源、将文档分块为较小的段落,并对这些段落进行嵌入以创建向量存储。用户可以选择首选的分块策略和嵌入模型,而亚马逊云科技则处理底层的复杂性。知识库目前支持诸如Amazon OpenSearch Serverless、Amazon Aurora、Redis Enterprise Cloud和Pinecone等向量数据库,MongoDB支持即将推出。

此外,Amazon Bedrock提供了一个简化RAG工作流程的检索和生成API。用户可以将查询传递给该API,它会生成向量嵌入,将增强的提示传递给模型,并返回生成的响应。或者,用户也可以利用检索API获取相关引用,以增强提示,从而对基础模型和提示工程过程拥有更大的控制权。

Amazon Bedrock中的代理进一步赋予用户权力,促进基础模型与数据源之间的连接,并执行由亚马逊云科技协调和管理的操作。这一功能对于需要从数据库和API实时动态集成数据的应用程序尤为宝贵,例如查询数据库以获取最新的销售数据或预测。代理提供自动编排和多步骤方法,允许用户使用选择的实现语言构建和部署应用程序。

对于需要修改模型权重的场景,Amazon Bedrock提供了定制模型,用于微调和持续预训练。微调利用通常较小的标注数据,通过提供提示-响应对来提高模型在特定任务上的准确性。这种技术适用于有指令数据可用的任务,例如定制模型的风格或行为。另一方面,持续预训练则利用更大的未标注数据集,如整本书或章节,使模型适应特定领域。

在这段内容中,Tonkei阐述了这些技术之间的差异、所需的数据格式以及模型定制任务的组成部分,包括输入模型、超参数(批量大小、步数、学习率)、数据、输出模型、指标和日志。输出模型安全地存储在由亚马逊云科技管理的账户中,而用户的数据则保持在其账户中隔离,通过具有强大安全措施的虚拟私有云(VPC)进行访问。

该视频深入探讨了模型定制任务在Amazon Bedrock中的架构基础、安全措施、隐私保护和监控功能。特别强调了数据隔离、加密以及与亚马逊云科技服务(如IAM、CloudTrail和CloudWatch)的无缝集成,确保了强大的访问控制、全面的日志记录和细致的监控。用户数据不会被用于改进任何模型或与模型提供商共享,并且保留在用户指定的亚马逊云科技区域内,支持亚马逊云科技PrivateLink和VPC配置。默认情况下,加密由亚马逊云科技密钥管理服务(KMS)密钥处理,并可提供客户管理的密钥以增加安全层。

总之,Tonkei强调了定制生成式AI模型以符合业务用例的重要性,以及Amazon Bedrock支持的多种技术,包括知识库、智能代理、微调和持续预训练。他鼓励采用协同方法,结合这些技术,以在亚马逊云科技平台上实现生成式AI应用程序的高性能和准确性,同时强调了该解决方案固有的强大安全性、隐私性和负责任的AI实践。

总结

定制可优化内容质量,减少幻象,并提供与上下文相关的响应。RAG 涉及从矢量数据库或 API 等数据源检索相关信息以增强提示,从而提高响应质量并降低延迟。微调和持续预训练分别允许使用标注和未标注数据更新模型权重,以适应特定任务或领域。

总的来说,结合这些技术有助于实现为商业需求量身定制的生成式人工智能应用程序的最佳性能。Amazon Bedrock 通过提供模型选择、定制、部署和安全、可扩展的推理的托管服务,简化了这一过程,确保了负责任的人工智能实践。

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务，服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选，通过生成式AI技术栈，提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 -- 在中国，亚马逊云科技通过安全、稳定、可信赖的云服务，助力中国企业加速数字化转型和创新，并深度参与全球化市场。

taibaili2023

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
基于亚马逊云科技Amazon Bedrock定制生成式AI应用程序

定制可优化内容质量,减少幻象,并提供与上下文相关的响应。RAG 涉及从矢量数据库或 API 等数据源检索相关信息以增强提示,从而提高响应质量并降低延迟。微调和持续预训练分别允许使用标注和未标注数据更新模型权重,以适应特定任务或领域。总的来说,结合这些技术有助于实现为商业需求量身定制的生成式人工智能应用程序的最佳性能。Amazon Bedrock 通过提供模型选择、定制、部署和安全、可扩展的推理的托管服务,简化了这一过程,确保了负责任的人工智能实践。
复制链接

扫一扫