关键字: [Mixbook, Photo Book Creation, Generative Ai Integration, Personalized Photo Experiences, Multi-Model Systems, Prompt Engineering]
本文字数: 400, 阅读完需: 2 分钟
导读
在这场演讲中,来自Mixbook的DJ阐述了他们如何利用生成式人工智能为用户提供个性化的相册体验。他解释道,公司运用计算机视觉和大型语言模型,自动检测照片中的事件,策划照片布局,并为相册生成标题。演讲重点介绍了Mixbook如何通过自动选择主题、组织照片排列,以及使用AI生成标题和装饰,实现创建个性化相册的功能,同时也讨论了诸如提示工程、偏差缓解和基础架构考虑等挑战。
演讲精华
在一个阳光明媚的日子里,来自Amazon Web Services Premier合作伙伴MissionCloud的Ryan Reese与Mixbook的CTO DJ进行了一次富有洞见的对话。Mixbook是一家评分很高的相册公司,致力于让用户以有趣和简单的方式,将美好回忆制作成令人赞叹的相册产品,庆祝生活中的美好时光和挚爱亲朋。它拥有创新的用户友好设计平台和移动应用程序,由AI技术驱动,提供大量设计模板和个性化选项,确保每个产品的卓越质量和价值。Mixbook与知名品牌合作,如Martha Stewart、PetSmart、Crayola和Hallmark,获得了30,000多条好评。
DJ分享了一段视频,展示了Mixbook的创作体验,名为”Mixbook Studio”。这个沉浸式的创意空间让用户可以轻松地将回忆制作成精美的相册。Ryan对Mixbook获得30,000多条正面评价表示赞赏,这确实是一个了不起的成就。
随后,Ryan介绍了MissionCloud的业务。作为Amazon Web Services Premier合作伙伴,MissionCloud是为数不多的全方位亚马逊云科技一站式服务提供商之一,客户可以在这里获得成本优化、24/7托管服务或专业服务。与Mixbook的这个项目就是专业服务团队帮助客户实现的一个令人兴奋的案例,探索了GenAI如何为企业带来价值。MissionCloud是亚马逊云科技领先的GenAI合作伙伴,很高兴能与Mixbook分享它们在利用GenAI提升相册创作体验方面的经验。
DJ进一步解释了Mixbook如何利用GenAI技术改善相册创作流程。传统上,用户需要手动选择主题,这将决定后续的创作流程。但现在,Mixbook可以根据照片的EXIF数据和计算机视觉技术,自动检测用户的活动,如旅行、生日等,并相应地为用户推荐合适的主题。这种自动主题选择功能极大简化了用户体验。
另一个重大进步是自动照片组织。过去,照片通常按时间顺序排列,但现在Mixbook可以利用计算机视觉技术检测照片中的动作,如用户下飞机、与亲朋好友共进晚餐等,并根据这些动作自动组织照片,帮助用户回顾可能已经遗忘的珍贵时刻。通过结合计算机视觉和大型语言模型(LLM),Mixbook可以实现强大的功能,为用户提供更加个性化和富有洞察力的相册创作体验。
未来,用户不仅可以与亲朋好友一起构建和分享回忆,还可以相互补充和丰富这些记忆。LLM在故事叙述方面也有着广阔的应用前景,Mixbook可以注入不同的语气,设置参数和保护措施,并追求最大程度的快乐体验。DJ透露,在应用GenAI于故事叙述时,它们确实遇到了一些挑战,后续它将与Ryan一起分享更多细节。
Ryan赞同DJ的观点,在实施GenAI时,了解整个系统及其目标至关重要。通常情况下,需要多个模型和多模型组件共同完成最终的故事叙述。令人兴奋的是,可以将每一个步骤构建为一个GenAI解决方案,然后将它们串联起来,创建一个整体系统。
在设计这样的系统时,需要考虑多个因素。首先是可用的模型,是使用API访问还是在自己的容器中运行?如果使用Amazon Bedrock这样的API访问层,操作会更简单,但可用的模型数量有限;如果使用SageMaker JumpStart自托管容器,则可以使用更多模型,但需要管理基础设施。因此,在实施GenAI时,必须明确需要使用哪些模型、如何与系统交互以及如何在模型之间传递数据。
对于Mixbook这样的使用案例,它们需要将多个模型串联在一起,因为相册是一种纪念品,可能会摆放在客厅的咖啡桌上,供亲朋好友分享欣赏。与手机上的单一系统不同,印刷产品对图像分辨率有更高的要求,需要确保图像在打印时保持良好的质量。因此,了解整个系统及其每一个环节至关重要。
DJ表示,围绕每次调用还是专用基础设施的问题,它们一直在与MissionCloud保持对话和学习。如果业务具有周期性,在第四季度流量暴增10倍时,构建高可用和高容错的专用基础设施可能更加合理,而在其他时候,每次调用的模式则更加经济。拥有这两种模式并存的生态系统是一个很好的选择。
接下来,Ryan分享了它们在照片标题生成方面的探索。这是一个活跃的研究领域,它们测试了多个不同的模型,每个模型在准确度和内容丰富度上都有所不同。从最简单的”熊猫在丛林中吃香蕉”到非常详细的描述,不同模型的表现各不相同。通过将这些描述与LLM相结合,可以进一步编辑和优化标题。DJ补充说,在尝试不同大小的LLM模型时,它们发现一个有趣的现象:7亿参数的模型在某些情况下的表现与70亿参数的模型相当,这颇为出人意料。因此,尝试不同模型很有必要。
另一个挑战是,Mixbook不仅需要为单张照片生成标题,还需要为一组相关照片(称为”photo spread”)生成统一的标题。这比单张照片的情况复杂得多。有时,用户可能会明确选择一个主题,如婚礼主题,但照片内容可能与之不符,如新生儿照片。在这种情况下,Mixbook可以利用AI技术分析照片内容,而不受主题限制,为用户生成合适的标题。
除了标题生成,GenAI在装饰元素创建方面也大有可为。Ryan分享了一个例子,传统上,用户需要从Mixbook提供的现有装饰元素中选择,如”生日快乐”的横幅或婴儿贴纸等。但现在,这些元素可以由GenAI自动生成,并根据照片内容进行个性化设计,包括透明背景和其他必要的特征,为相册增添趣味性。
在提示工程方面,DJ分享了一些有趣的发现。它们构建了两种提示:一种追求”最大快乐”,使用富有感染力和诗意的语言;另一种追求”最大安全”,语言较为简单和保守。单独使用任何一种提示都可能产生不理想的结果。例如,如果”最大快乐”提示与照片主题不符,生成的标题可能会与实际内容相去甚远,甚至出现不当内容。而”最大安全”提示虽然可以避免这些问题,但可能过于枯燥乏味。
因此,他们采用了结合这两种提示的方式,形成一个健康的交集,既追求令人愉悦的体验,又确保输出的安全性。此外,对大型语言模型进行”重新指示”也是一种很好的方法,可以进一步聚焦和优化输出结果。通过选择这种兼顾”最大快乐”和”最大安全”的方式,Mixbook能够获得更加满意和无害的输出。
在实施生成式人工智能时,Mixbook团队利用了亚马逊云科技的多种服务,如S3、SageMaker等。他们尝试了不同大小的大型语言模型,并一直在探索每次调用与专用基础设施之间的权衡。正如DJ所说,亚马逊云科技为他们提供了宝贵的时间和资源,让他们能够自由探索生成式人工智能的可能性,这些发现最终导向了生产部署,非常值得。
Ryan强调,将生成式人工智能系统投入生产是一个艰巨的任务,需要大量基础设施建设和大型语言模型运维框架。以基于检索增强的聊天机器人(RAG)为例,需要多个亚马逊云科技服务的支持,并建立完整的大型语言模型运维框架,以确保获得最佳答复、保持知识库更新、安排模型微调等。
成本也是一个重要考虑因素。大型语言模型按标记计费,输入和输出都需要付费。750个单词约合1,000个标记,在RAG等系统中,从知识库中提取数千字的内容传递给大型语言模型就可能消耗100万个标记。因此,需要根据用户数量和使用情况,评估预计的标记消耗量,并考虑使用SageMaker JumpStart等服务来降低成本。
DJ表示,SageMaker JumpStart对Mixbook来说是一个游戏规则改变者。亚马逊云科技提供了时间、空间和credits,让他们能够自由探索,这些发现时刻最终导向了真正的生产部署,是非常宝贵的经历。
Ryan继续分享了一些提示工程和多模型系统的例子。提示工程仍然是一个挑战,需要进行大量试验和负面提示,以获得理想的输出。而在许多情况下,单一模型无法完成所有任务,需要将多个模型串联成一个管道,如图像生成、上采样、矢量化等,形成一个多模型系统。
在偏差和有害内容防范方面,DJ透露他们花费了60%到70%的时间和精力来确保系统不会产生性别偏见或令人反感的内容。这包括大量的防御性编程、测试生成不当结果的情况,以及与专家合作等工作。DJ强调,任何企业在采用这种技术时,都需要就其目标展开伦理讨论,列出所有不希望出现的情况,并为此投入大量的迭代工作,这是实现生产部署的关键一步。
最后,Ryan和DJ分享了一些生成式人工智能在Mixbook未来可能的应用场景,如场景编辑等。他们鼓励大家使用Mixbook的AI工具,享受创作的乐趣,并为与会者提供了折扣码”Innovate 50”。DJ表示,通过Mixbook Studio和AI工具,用户可以创作出超乎想象的作品,并与亲朋好友分享这些珍贵的数字记忆。
Ryan赞赏DJ的分享,并对Mixbook产品给予高度评价。一本高质量的印刷相册不仅是珍贵的纪念品,更是一种独特的分享方式,当朋友家人来访时,可以拿起相册与他们一起回顾美好的时光,比无休止的手机滑动更有意义和乐趣。
总之,Mixbook与亚马逊云科技的合作展示了生成式人工智能在提升用户体验方面的巨大潜力。通过计算机视觉、大型语言模型和多模型系统的综合应用,Mixbook为用户提供了前所未有的个性化相册创作体验。但在实现生产部署时,仍需解决诸多挑战,如偏差防范、基础设施建设和成本控制等。未来,生成式人工智能在相册创作及其他领域的应用前景广阔,值得我们拭目以待。
总结
作为相册行业的领军企业,Mixbook公司巧妙地运用了生成式人工智能(Generative AI)的强大功能,从而彻底革新了个性化相册的创作流程。该公司通过应用计算机视觉技术和大型语言模型(LLMs),实现了自动策划照片、检测事件和动作,并生成富有情感色彩的说明文字,精准捕捉珍贵回忆的精髓。这种创新方法大大简化了创作过程,让用户无需付出过多努力,即可在精美纪念品中重温和保存最宝贵的时刻。
其中一项关键创新是基于图像内容自动选择主题和组织照片,确保整体叙事连贯有意义。此外,Mixbook还利用LLMs生成注入情感、语气和讲故事元素的说明文字,提升相册体验。然而,要实现这一目标需要克服诸如提示工程、偏差缓解和在令人愉悦与安全之间求得平衡等挑战。
为了探索各种LLMs、提示策略和基础设施考量,从而构建一个健壮、可扩展且经济高效的GenAI解决方案,Mixbook与亚马逊云科技(Amazon Web Services)合作伙伴Mission Cloud展开了合作。这一过程凸显了伦理考量、防御性编程和迭代测试的重要性,以确保人工智能的负责任和无偏差实施。
Mixbook创新性地运用GenAI,展示了这项技术在创造个性化、情感共鸣的体验方面的变革潜力。随着GenAI不断发展,Mixbook等公司正在为创意表达和记忆保存开辟新的前景。
亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 -- 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。