在亚马逊云科技Amazon Bedrock上探索图像生成和图像搜索

本文链接：https://blog.csdn.net/weixin_46812959/article/details/141827701

关键字: [Amazon Bedrock, Image Generation, Multimodal Embeddings, Text Prompts, Search Accuracy, Responsible Ai]

本文字数: 4100, 阅读完需: 20 分钟

导读

在本次亚马逊云科技会议上,演讲者们展示了”在Amazon Bedrock上探索基于基础模型的图像生成和图像搜索”。他们阐释了Amazon Bedrock如何借助TITAN Multimodal Embeddings和TITAN Image Generator等基础模型实现图像生成和搜索。具体而言,TITAN Multimodal Embeddings提供了准确且负责任的图像搜索功能,而TITAN Image Generator则提供了高质量的文本到图像生成、图像编辑和定制功能。该演讲重点介绍了Amazon Bedrock如何提高图像搜索的相关性、通过图像生成实现高效的内容创作,以及采用负责任的AI实践来减轻偏差并确保安全性。

演讲精华

以下是小编为您整理的本次演讲的精华，共3800字，阅读时间大约是19分钟。

在人工智能领域,一场令人振奋的革命正在上演,它赋予我们利用视觉表达的无限潜力。这场革命体现在Amazon Bedrock的开创性产品上,这是一项完全托管的服务,让我们能够访问来自知名公司和亚马逊TITAN家族的精选基础模型,这些模型都是从头开始精心打造的。

在这场革命的前沿,站着Amazon Bedrock团队的主要产品经理Rohit Mittal,他揭示了两个新推出模型的非凡能力:TITAN Multimodal Embeddings和TITAN Image Generator。与他一同探索的还有亚马逊AI团队的应用科学经理Ashwin Swaminathan,以及OfferUp(一家知名的移动市场)的首席数据科学家Andres Belles。

Rohit Mittal首先强调了图像作为一种表达形式的深远影响,它能够瞬间吸引我们的注意力,并在几毫秒内被我们的大脑处理。生成式AI的出现为我们带来了一个新时代,在这个时代里,只需简单的文本提示,就能轻松生成引人入胜的图像,释放了无穷无尽的创造力。从银河系中骑着马的宇航员,到灯泡内栖息的视觉震撼的独角兽和帆船,可能性是无限的。

然而,这种生成视觉内容的新能力也带来了一个巨大的挑战。仅智能手机每天就拍摄超过50亿张图片,每年高达1.8万亿张,这种海量的视觉数据使传统的机器学习和基于关键词的搜索方法无法有效地浏览这个庞大的内容领域。

生成式AI应运而生,成为解决这一挑战的希望之光,不仅能够生成引人注目的图像,还能通过先进的搜索功能提高内容创作效率。Amazon Bedrock站在这场革命的最前沿,通过其尖端的图像生成模型和用于图像搜索的嵌入模型,准备解决这些错综复杂的问题。

在本次探索的议程中,探讨者将深入探讨两种新推出的Titan模型:Titan多模态嵌入模型和Titan图像生成器模型,后者还包括图像编辑任务。Rohit Mittal将带领大家了解一系列引人入胜的使用案例和架构框架,这些都建立在Amazon Bedrock服务之上,这是他们的基础模型即服务(Foundation Model as a Service)产品。

为了说明Titan多模态嵌入模型的变革力量,Rohit Mittal提供了一个引人注目的例子。在左侧,对”蓝色没有鞋带的运动鞋”的查询仅基于文本搜索和产品描述,这种方法无法处理诸如否定等细微差别。相比之下,右侧展示了多模态嵌入模型的卓越能力,其中图像本身捕捉了查询的本质,准确地描绘了没有鞋带的蓝色运动鞋。这种视觉和文本信息的无缝集成,映射到共享的语义空间,确保了卓越的用户体验,使客户能够轻松找到所需的商品,同时让卖家有效地展示他们的产品。

Titan多模态嵌入模型拥有三大主要优势:准确性、易用性和负责任的人工智能。在准确性方面,Rohit Mittal强调该模型在提供精确的搜索和推荐结果方面表现出色。此外,客户可以通过提供特定领域的数据(如自动驾驶汽车捕获的数十亿张广角图像)来进一步提高准确性。这种量身定制的方法确保了跨不同领域的最佳性能,同时保持严格的数据隐私和安全性。

认识到客户的需求多样化,Amazon Bedrock提供了嵌入大小的选择。虽然默认的2024尺寸针对大多数使用案例进行了优化,在准确性和延迟之间取得平衡,但客户也可以选择384或256维的较小嵌入,以优先考虑低延迟需求。

便利性是Bedrock理念的基石,Titan多模态嵌入模型体现了这一理念。单一API简化了生成嵌入的过程,并配备了批量API,可同时处理数千张图像。此外,与Amazon OpenSearch Service的无缝集成确保了一致的体验,客户可直接从OpenSearch生成嵌入并将其存储在提供的向量数据库中,无需外部工具。

负责任的AI是支撑Titan多模态嵌入模型的第三大支柱。Amazon Bedrock采用严格的过滤技术,从训练数据中移除有害内容,减少偏见的传播。此外,还采用了一项申请专利的技术,以最小化人口统计学偏差,确保搜索结果准确反映现实世界的多样性,不受肤色、性别等因素影响而产生刻板印象或失真表述。

转移到Titan图像生成器,Rohit Mittal揭示了一款有望彻底改变图像生成和编辑领域的模型。虽然承认该领域存在竞争对手,但他强调了Titan图像生成器的独特区别。

Titan图像生成器的核心优势在于文本到图像生成,能够根据简单的文本提示生成高质量图像。与许多其他需要冗长复杂提示的模型不同,Titan图像生成器追求简单,用户只需简洁明了的提示即可生成引人注目的视觉效果。该模型还能生成最小失真或幻觉的图像,确保忠实呈现预期主题。

Titan图像生成器的一大亮点是在图像中生成文本的能力,这在制作贺卡或任何需要文本集成的场景中都具有巨大潜力。此外,该模型展现出了对复杂提示的卓越理解能力,能够熟练处理多步骤指令,并准确地将错综复杂的视觉概念转化为令人惊艳的图像。

定制化是泰坦图像生成器的基石,旨在满足每位客户独特的需求和品牌美学。通过利用微调过程,仅需几十万张图像,客户即可调整模型的输出,使其与特定要求完美契合,确保所生成内容在视觉识别上的连贯性和一致性。

泰坦图像生成器的功能远不止于图像生成,还包括一套强大的编辑工具。图像修复(Inpainting)是其核心功能之一,可以替换或移除图像中现有的物体。传统的图像修复方法与亚马逊专有模型驱动的创新自动编辑功能相辅相成。这种突破性方法使用户能够输入一张图像和描述所需修改的文本提示,模型会智能理解意图,识别特定对象并精准执行所请求的更改。

基于掩码的编辑是另一种可供用户选择的选项,通过利用用户提供的图像掩码来指导编辑过程,从而提高精度。无论选择无掩码自动编辑还是基于掩码的编辑,泰坦图像生成器都能带来出色的结果,让用户无缝操作和完善视觉内容。

生成式调整大小是一种由DALL-E等模型推广的技术,允许用户在可选的文本提示的指导下扩展图像边界。这一功能可以创建广阔的场景,同时保留原始图像元素的完整性。专为广告和营销应用而量身定制的外画(Outpainting)功能进一步扩展了创意可能性。用户可以引入产品图像(如香水瓶),并将其无缝融入生活场景,创造出视觉吸引力强、产品诉求突出的作品。

为了展示Titan Image Generator的卓越能力,Rohit Mittal展示了一系列引人入胜的例子。其中一个特别引人注目的例子是,该模型能够以令人难以置信的精度和连贯性,将一个酒杯和一头大象这两个截然不同尺度的物体呈现在生成的图像中。另一个例子描绘了一只穿着西装和领带的狗,印在一个比例准确的靠垫上,并与家具一起展示,展现了该模型轻松理解和执行复杂的多步骤提示的能力。

Rohit Mittal还强调了该模型生成艺术图像的能力,展示了一个戴着帽子和墨镜的人在郁郁葱葱的森林中奔跑,森林中点缀着鲜艳的红色和黄色花朵。生成图像的多样性证明了Amazon Bedrock对负责任的人工智能的承诺,确保了跨性别、肤色和人口统计数据的准确表现,反映了现实世界的丰富多彩。

一个特别引人注目的例子展示了Titan Image Generator在图像中集成文本的能力,描绘了纽约城标志性的天际线上空的烟花。这种能力为应用程序如贺卡创作带来了巨大的潜力,使用户能够为节日和特殊场合制作个性化的视觉震撼信息。

Rohit Mittal的演示以展示Titan Image Generator的定制能力而告终。以一家儿童书公司希望以特定风格(如卡通或素描)生成图像为例,他展示了如何在客户提供的数据上对模型进行微调,确保与所需的美学和视觉识别无缝对接。

自动编辑、修复和扩展的示例进一步凸显了该模型的多功能性。从Titan Image Generator自身生成的图像开始,Rohit Mittal演示了如何通过简单的文本提示(如”将花朵变成橙色”)来完美执行,模型能够理解意图并准确识别修改目标对象。修复功能通过在一个宁静的风景中添加一辆汽车来展示,该风景包括一座谷仓、郁郁葱葱的绿色植被、群山和一个湖泊。随后的步骤展示了修改山脉和在湖面上引入鸭子的能力。

Outpainting是一种专门为广告和营销应用而量身定制的技术,通过将产品图像(如香水瓶)融入生活场景中来体现。这种能力使品牌能够在视觉上吸引人的环境中展示其产品,从而提高产品的吸引力并与消费者产生共鸣。图像变体是另一个强大的功能,它可以根据参考图像生成相似但不同的图像,为视觉内容创作提供了丰富的创意可能性。

为了进一步增强用户体验,Amazon Bedrock在其控制台中引入了图像游乐场,其中包含丰富的功能,使用户能够轻松生成或编辑图像。用户可以提供否定提示、选择样式、尺寸和所需生成的图像数量,并控制种子值,同时在直观的界面中实时获得结果。

在这一阶段,Ashwin Swaminathan深入探讨了Titan Image Generator模型的优势、用例以及支持其实现的架构框架。他强调,图像生成器模型的开发是由三个基本原则指导的:提供高质量、准确的图像,通过设计良好的API和工具确保易于使用,并坚持负责任的AI实践,以确保生成安全、多样化和无毒的内容。

Ashwin Swaminathan阐述了在模型开发过程中进行的严格评估研究,涵盖了各种类别的广泛提示,包括构图、复杂提示和文本生成。这种全面的方法确保了Titan Image Generator能够在不同的用例中表现出色,准确解释和执行复杂的视觉概念,同时无缝地将文本元素集成到生成的图像中。

为了便于客户应用程序的无缝集成,Amazon Bedrock开发了一个简单的图像生成API。该API接受文本提示作为输入,并生成相应的图像,允许用户指定从512x512到1024x1024像素的所需分辨率。此外,用户还可以探索不同的种子值、同时生成多个图像,并利用各种其他参数,使他们能够根据特定需求定制输出。

亚马逊贝德罗克(Amazon Bedrock)深知客户工作流程和使用案例的多样性,因此推出了创新解决方案,简化常见任务。例如,传统图像修复(inpainting)功能需要用户手动遮罩图像区域,并提供文本提示以替换被遮罩部分。然而,亚马逊贝德罗克开发了自动编辑功能,消除了手动遮罩的需求。凭借内部分割模型的世界知识和物体识别能力,泰坦图像生成器(Titan Image Generator)仅根据文本提示,即可自动识别和遮罩图像中的相关像素。这种无缝工作流使用户能够轻松生成大量数据,提高生产力和效率。

此外,亚马逊贝德罗克提供了生成图像变体的API,使用户能够基于单个参考图像创建不同的视觉表现形式。这一功能在产品可视化等应用领域具有巨大潜力,使客户能够探索特定物品的不同风格或变体。

亚马逊贝德罗克认识到每个客户的独特需求,因此提供了微调(fine-tuning)功能,允许用户在自己的专有数据集上专门训练模型。这种方法确保生成的模型针对客户需求进行了定制,并且访问权限仅限于客户本身,从而保护数据隐私和安全。传统微调工作流需要提供图像-文本对作为输入,但亚马逊贝德罗克引入了创新解决方案来简化这一过程。通过利用自身的文本描述模型,客户只需提供图像,该模型将生成相应的文本描述,从而简化了微调所需的图像-文本对生成过程。

负责任的人工智能(Responsible AI)是亚马逊贝德罗克方法的基石。Ashwin Swaminathan强调,在整个模型开发过程中实施了广泛的缓解措施。从彻底过滤训练数据以确保其不包含有害或有毒内容,到实施防护措施和事先过滤器来验证文本提示和生成图像内容的安全性,亚马逊贝德罗克采取了积极的立场,坚持道德人工智能实践。

Amazon Bedrock为Titan Image Generator模型生成的图像实施了一种不可见的数字水印系统。这种水印可作为真实性的痕迹,使用户能够通过专用API验证图像的来源。这一措施不仅增强了信任和透明度,而且还可防止该技术被滥用于制作诸如deepfake之类的恶意内容。

为解决普遍存在的人口统计学偏差问题(这一挑战一直困扰着许多文本到图像模型),Amazon Bedrock采取了全面的策略。Amazon Bedrock确保其模型在包含广泛肤色、性别和种族的多元化数据集上进行训练,从而实现准确和包容的表现,避免传统模型在表现某些人口统计群体时可能存在的偏差,如夫妻或情侣一起摆姿势或律师等专业人士的描绘。

此外,Amazon Bedrock开发了一项正在申请专利的技术,可在图像和嵌入信息上运行,确保生成的输出位于无偏差的空间中,不会传播人口统计学偏差。这种创新方法与Titan Image Generator无缝集成,使用户能够自信地生成多元化和包容性的视觉内容。

接下来,Amazon Bedrock向观众展示了一系列示例用例,说明如何利用其模型构建强大的多模态搜索体验。该过程从索引开始,客户调用Titan Multimodal Embeddings模型为其图像和文本数据生成嵌入。Amazon Bedrock提供灵活的嵌入长度选择,满足不同的延迟和精度需求。寻求低延迟搜索的客户可选择256维的较小嵌入,而优先考虑高精度的客户则可利用1024维嵌入,相应地对其图像数据库进行索引。

为简化数据库集成,Amazon Bedrock与领先的向量数据库供应商建立了合作伙伴关系。客户能够无缝集成Amazon OpenSearch Service,直接从OpenSearch调用Titan Embeddings模型,并将生成的嵌入存储在所提供的向量数据库中。或者,与Pinecone的集成提供了另一种强大选择,确保客户能够利用嵌入的强大功能,同时与其特定的架构需求和偏好保持一致。

坚持负责任的AI原则,Amazon Bedrock确保生成的嵌入无偏差,准确地代表了不同的人口统计和特征。这种方法保证了搜索查询(无论是基于文本、基于图像还是两者结合)将检索到相关结果,而不会基于性别或肤色等因素传播偏差。

随后,Ashwin Swaminathan介绍了查询工作流程,用户可以使用文本提示、图像或两者的组合来搜索索引数据库。这种多模态搜索功能在零售等应用领域具有巨大潜力,用户可以通过提供文本和视觉输入来寻找特定风格或颜色变体的产品。

Titan Image Generator模型无缝集成到这个工作流程中,使用户能够通过简单的API调用从文本提示生成图像。对于图像编辑任务,用户可以提供输入图像和掩码,利用传统的基于掩码的编辑方法。或者,他们可以利用自动编辑功能,其中模型理解文本提示并自动识别和遮罩图像中的相关区域,简化了编辑过程。

为了说明这种集成工作流程的强大功能,Ashwin Swaminathan提出了一个引人入胜的用例:为香水产品创建广告。该过程首先使用Titan Multimodal Embeddings模型从索引数据库中检索相关的香水瓶图像。接下来,使用Titan Image Generator创建视觉吸引力强的组合,将香水瓶整合到生活场景中或生成具有不同背景或风格的变体。最后,可以利用Amazon Bedrock的文本模型生成吸引人的广告文案,完成创建引人入胜广告材料的端到端工作流程。

在这个全面的示例中,我们可以看到Amazon Bedrock各种模型之间的协同作用,使客户能够在统一的生态系统中搜索海量图像数据库、生成引人入胜的视觉效果,并创作相应的文字内容。

在这一阶段,Andres Belles,OfferUp的首席数据科学家登台,分享了他们公司利用Amazon Bedrock模型来改善搜索体验的转型之旅。OfferUp成立于2011年,已成为美国最大的本地买家和卖家移动市场之一,五分之一的美国人使用该平台进行本地商务。

Andres Belles强调,在任何应用程序中,搜索都扮演着关键角色,优化搜索体验直接影响着用户留存率和满意度等关键指标。他描绘了这样一个场景:当用户在OfferUp平台上搜索某个产品时,如果搜索结果个性化且相关,就可以节省时间和精力,从而提高用户参与度和留存率。

然而,移动市场搜索面临着独特的挑战。用户通常使用短小、广泛的搜索查询,仅包含一到五个关键词,为搜索引擎准确解读用户意图提供了有限的上下文。此外,用户提供的内容质量(如图像、标题和描述)也可能存在显著差异,进一步增加了提供相关搜索结果的复杂性。

OfferUp的旅程始于传统的关键词搜索,这项技术虽然可行,但存在固有的局限性。认识到需要更先进的搜索功能,OfferUp开始探索神经搜索,利用向量数据库和亚马逊OpenSearch部署他们自主的语义搜索模型。这一转变涉及从产品标题和描述中生成嵌入,将它们存储在向量数据库中,并将模型部署到生产环境中。

为确保这种新方法的可行性,OfferUp在两个关键领域进行了严格测试:延迟和质量。在延迟方面,他们将数百万条列表回填到OpenSearch数据库中,并对其施加高请求量,观察到P99延迟低于60毫秒-这是一个了不起的成就,彰显了亚马逊OpenSearch解决方案的性能和可扩展性。

质量评估同样至关重要,OfferUp采用了一种方法,即利用其平台上使用频率最高的25个关键词进行搜索,检索相关列表。通过计算相关性召回率——一种衡量检索到的相关结果比例的指标,他们可以量化语义搜索带来的改进。结果令人信服:与基线关键词搜索相比,低密度地区的相关性召回率提高了23%,高密度地区提高了27%。

然而,Andres Belles举出了一个鲜明的例子,凸显了仅依赖文本搜索的局限性。他展示了一件家具物品的图像,标题和描述简洁,但图像本身传达了关于颜色、形状、大小和座位数量的丰富信息——这些细节仅凭文本很难捕捉到。这一认识促使OfferUp整合了亚马逊云科技(Amazon Web Services)的Titan Multimodal Embeddings模型,使其能够在搜索过程中利用文本和视觉信息。

整合过程包括将产品图像与标题和描述一起通过Titan Multimodal Embeddings模型,生成包含组合语义含义的嵌入。然后,这些嵌入被索引到OfferUp的向量数据库中,从而实现了同时使用文本和视觉线索进行搜索的能力。

Andres Belles强调,这种多模态方法使某些列表更容易被发现,克服了仅依赖文本搜索的局限性。此外,与亚马逊云科技(亚马逊云科技)的合作使OfferUp能够快速测试和部署这项新技术,而独立完成这一过程将需要数月时间。

采用相同的质量评估方法,OfferUp观察到在使用Titan Multimodal Embeddings模型时,低密度地区的相关性召回率提高了9%,尽管没有应用迁移学习技术。值得注意的是,整合视觉信息还减少了低密度和高密度地区之间的相关性召回率差异,使系统更加稳定和一致。

安德烈斯·贝莱斯总结了OfferUp的转型之旅,从关键词搜索起步,逐步过渡到神经搜索,相关性召回率提高了23%至27%。随后,OfferUp整合了Titan多模态嵌入模型,进一步提升了低密度地区的相关性召回率9%,同时降低了方差,提高了系统稳定性。

展望未来,OfferUp正积极探索进一步利用人工智能工具的方式,包括Amazon Bedrock的模型,以支持搜索、推荐、图像生成等,彰显了它为用户提供前沿体验的承诺。

总的来说,罗希特·米塔尔重申了本次会议的关键学习,强调了Titan图像生成器和Titan多模态嵌入模型的功能、差异化优势和好处。他对与OfferUp等客户合作,探索这些模型如何推动生成式人工智能应用的变革性体验表示兴奋。

这个叙述凸显了Amazon Bedrock基础模型的深远影响,使企业能够通过先进的图像生成和搜索功能,发挥视觉表达的力量。无论是创建吸引人的视觉效果,还是提高产品的可发现性,这些模型为企业提供了一套全面的工具,以应对不断扩展的视觉数据景观。

通过秉承准确性、易用性和负责任的人工智能原则,Amazon Bedrock为行业树立了新的标准,确保生成式人工智能的益处可以被获取、符合道德并满足每个客户的独特需求。随着视觉表达革命的持续展开,Amazon Bedrock将成为催化剂,赋予企业释放创造力、效率和客户满意度的新领域。

总结

这份演示探讨了Amazon Bedrock在图像生成和搜索领域的出色能力,利用了基础模型。它介绍了两种新的Titan模型:用于精确图像搜索的Titan多模态嵌入模型,以及用于根据文本提示创建引人入胜图像的Titan图像生成器。

Titan多模态嵌入模型提供高精度、易用性和负责任的人工智能。它生成的嵌入能捕捉图像的语义含义,从而实现精确的搜索和推荐。该模型可以使用特定领域的数据进行定制,并提供不同的嵌入大小选项,以在精度和延迟之间进行优化。

Titan图像生成器在文本到图像生成、理解复杂提示和定制方面表现出色。它提供了修复、自动编辑、生成性调整大小和广告用例的扩展等功能。该模型优先考虑生成低失真的高质量图像,并且可以在图像中生成文本。它还通过过滤、添加水印和减轻人口统计偏差来解决负责任的人工智能问题。

该演示展示了利用这些模型的各种用例和架构,如多模态搜索体验、广告创作工作流程和图像生成管道。它还强调了OfferUp在使用Bedrock模型改善搜索相关性方面的经验,展示了在召回率和稳定性方面的显著提升。

总之,Amazon Bedrock的Titan模型为图像生成和搜索提供了强大的功能,使企业能够创建引人入胜的视觉内容并增强用户体验,同时优先考虑精度、易用性和负责任的人工智能实践。

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务，服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选，通过生成式AI技术栈，提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国，亚马逊云科技通过安全、稳定、可信赖的云服务，助力中国企业加速数字化转型和创新，并深度参与全球化市场。