日前,在51CTO主办的WOT全球技术创新大会上,去哪儿旅行技术总监郑吉敏带来了主题演讲《国际酒店AI生成视频实践》,围绕着国际酒店的业务架构,详细介绍了生成视频如何进行流程AI化以及相关实践和思考,带给观众全新的视野和独家的经验分享。
本文将摘选其中精彩内容,统一整理,希望为诸君带来启发。
本文将从以下四个部分展开:
视频生成挑战与机遇
专业影视生成流程AI化
AI生成视频实践
视频生成成果展示与思考
视频生成挑战与机遇
我们首先来看看,国际酒店视频生成所遇到的挑战。
随着AIGC技术的发展,我们关注其在实际业务中的应用。我们认识到AIGC已具备生成视频的能力,且我们的业务对此有相应的需求。
因此,我们首先确定了使用AIGC生成视频的场景。
接下来,我们考虑如何将视频制作工程化,并确保视频质量。回到视频本身,目前其核心元素有两点:文案和图片。我们需要审视现有的文案和图片资源,通过组织这些内容生成视频,并以赋能现有业务作为终点。
在制作视频时,我们面临的第一个问题是素材选择。我们手头的素材已经明确,包括基础的文案、图片信息和用户点评,这些素材需要精心挑选并有效利用以生成视频。
素材选择的难点在于信息的筛选和利用。例如,酒店图片质量参差不齐,高星酒店的图片通常更清晰,成为视频的亮点,但并非所有酒店的图片都具备这一特性。此外,用户点评中包含多种语言,翻译后的信息可能无法直接使用。
面对这些挑战,我们需要找到解决方案,以确保视频内容的质量和准确性。
接下来谈谈挑战背后我们看到一些机遇。
围绕着国际酒店业务的异国风情特征,我们沉淀了高度多样化的信息。
对于观众观看体验来说,视频不仅仅是展示酒店,更重要的是通过视频传达酒店所在区域的多样性,以及与本地酒店不同的特色和定位。
我们面临的问题是国际酒店视频的制作是否能够成功,以下是我列出一些可行性的数据支撑:
1. 国际酒店视频覆盖率低。在开始之前,我们发现国际酒店视频的覆盖率大约为19.6%,显示了巨大的提升空间。
2. 视频对转化有明显提升。去年,我们对高星酒店视频进行了测试,结果显示视频显著提高了用户的转化率。
3. 国内酒店有视频生成经验。国内酒店已经针对低星酒店生成了视频,这验证了我们已经具备基础的视频制作能力。
基于这些基础,我们确定了国际酒店视频制作需要具备的三个基本特征:风格多样性、内容多样性和元素多样性。
专业影视生成流程AI化
我们将专业影视生产流程简化为四个关键步骤:
第一,策划创意。
第二,分镜创作。
第三,现场拍摄。
第四,后期剪辑。
围绕这四个过程,我们用上图简单介绍一下。
以上图的片段为例,每个分镜会有文案描述她的动作,并配有女生说的话或者内心独白来展现剧情。
通过这些元素的组合,我们能够制作出一个连贯的影视片段。每个分镜都由图片或视频、文案和语音组成,经过后期剪辑,形成一个完整的小视频。这是影视制作中的基本流程。
基于上述内容,我们来看看,视频制作流程的AI化。
视频本质上由多个分镜构成的,每个分镜都包含图片、文案、配乐等核心元素。在AI的帮助下对素材进行加工,从而生成每个分镜的内容。
随后,通过转场动画和特效,将各个分镜流畅地拼接成一个完整的视频。
AI生成视频实践
具体到AI生成视频的实践中,我们还会面临一个问题,就是判断视频质量高低的标准——如何生成一个用户愿意观看的内容?
我们总结优质视频有以下关键因素:
首先,我们强调价值趣味,这涉及到剧情设计和分镜的构思。我们需要考虑如何设计分镜,以及是否有合适的模板来更好地连接每个分镜。
紧接着是清晰画质,我们追求1080p甚至4K的高清标准,确保用户在观看时不会因为画质问题而感到不适。
最重要的,视频的主题应该是优质的。我们的目标不仅是画质和设计方面的精良,更要传达出酒店的亮点和特色,让用户通过视频就能直观感受到酒店的魅力。
最终,我们希望用户在观看视频后,愿意分享视频。
基于优质视频的基础元素,我们规划了视频生成的业务流程。
第一步,素材选取。我们首先提取图片和文字素材,并进行去重和高清处理,确保基础素材的质量。对于文字,特别是小语种,我们会进行翻译和亮点抽取,以适应不同语言环境的需求,达到实际可用的水平。
第二步,预处理阶段。这个阶段的目标是让图片和文字满足用户的基本要求。我们还会根据需要,将文字输入到大语言模型中,图片则输入到多模态大模型中,进行再加工。
第三步,分镜制作。我们会大量运用运镜和特效技术,模拟用户实际观察酒店的视角和动态效果。例如,对于酒店外景,我们会模拟用户走近酒店的动作,使用拉近效果;对于房型图片,则模拟用户在房间内的视线移动,通过左右迁移来增强现场感,让用户感觉身临其境。此外,我们还会根据场景添加特效,如海岛场景的叠化和模糊效果,夜晚场景的星星特效,营造更丰富的意境。
最后一步,模板剪辑合成。在这个阶段,我们将每个分镜与旁白结合,将完成的每个分镜,利用多套模板进行合成,通过特效和音乐确保视频的丝滑过渡,避免生硬感,最终生成一个完整的视频。
接下来我们看一下从业务层面,来看整个视频的生成。通常来讲我们还是以每个分镜作为我们的基础单元,构建以业务为核心的生产流程。
在构建业务模型时,底层的是AI技术的能力。这些能力包括文本预处理、图片预处理、大语言模型、多模态模型以及分镜制作和模板合成等,它们各自独立,为自研提供通用能力。
这种设计的优势在于,一旦上层思路确定,我们可以自由决定使用适合的AI能力,个性化的适配不同酒店需求。
业务模型的上层,是业务规则。前面也提到过,国际酒店的地域文化差异显著,我们采用定制化策略,使得视频与酒店的定位相匹配,避免视频的千篇一律。
接下来重点讲下模板,模版让我们以不同的方式组装分镜,业务的多样性决定了我们模版的多样性。
目前核心模版分这几类,商业简约风格、豪华&奢华风格、海岛风情、日式风格等等。
我们与公司的UI团队展开合作,由他们设计相应的模板,确保视频展示方式与酒店的特色相匹配,从而提升视频的整体效果。
通过这种方式,我们的平台AI能力在多方面得到了有效沉淀。
去哪儿网的业务线、算法和AI技术架构是分开的,通常采用合作的方式来完成工作,因此我们会实现各AI能力的单独扩展,由业务方自主选择并以插件形式复用所需能力。
这里包含文案处理、图片处理等多种AI能力的插件。
接下来简单讲下,AI对于多语种翻译的增强。
我们的翻译实践表明,在处理27种语言时,传统神经网络+深度学习虽然能实现基本的"信"(准确传达原意),但往往缺乏"达"(通顺)和"雅"(情感和风格)。
通过使用GPT-3.5,我们能够提升翻译质量至7到8分,效果与使用谷歌翻译差不多,如果使用GPT-4,效果还会更好。
小语种翻译尤其受益于大型语言模型,但也要注意在成本上获得平衡。
接下来说一下AI对多模态生成的加强。
在生成视频方面,我们主要尝试过Pika和Runway平台。基于Runway的Gen-2模型,通过精细调整参数并确保内容符合物理逻辑,我们能够创造出逼真的图像,例如模拟真实的海浪动态。我们注意到,如果不进行特殊控制,生成的海浪可能不符合自然现象(上图)。因此,我们在多模态生成中特别强调物理逻辑的准确性。
目前,Runway在生成效果方面表现最强,尽管它的API接口尚未完全开放。一旦开放,预计将极大促进我们的多模态生成工作。
不过,即使有了强大的工具,参数的调整仍然非常关键。
视频生成成果展示与思考
我们来看一下视频生成的成果展示。
下面这个视频是典型的简约商务酒店风格,通过左右移动,模拟用户进入房间的观看效果。(为方便展示,视频经过压缩,原视频清晰度为1080p)。
接下来同样是一个简约商务酒店,这个酒店的特点是周围的地标建筑。
在做简约商务酒店的视频时,还会进行元素定制,突出酒店的亮点、对用户度假时特别关注的问题进行强调,例如位于普吉岛的酒店是否有免费的无边泳池等。
接下来是一个日式和风酒店。
接下来,是在AI能力基础上,进行过简单的人工加工的海岛视频。
这里边有了很多特效以及动态,让观看者能感受到轻松、浪漫的气氛。
最后讲一下视频的数据结果,这是我们APP里的展现形式,默认是在目前打开详情页的位置进行播放,上线后效果相对提升6%。
总结
在AI生成视频的过程中,我们也踩过坑、积累了不少经验。比如,最开始我们会强调支持4K以提供高清体验,但考虑到实际手机端的加载情况,最终选择了1080p作为标准。
再比如,刚开始实践时,我们执着于使用旁白朗读文案。但在实际测试中发现,优美的背景音乐配合高清图片更适合高端酒店。
在动画和动态图片的运用上,图片的动态化会为吸引力加成,但是物理规律的准确性特别重要。
展望未来,我们计划在提供视频生成能力的同时,实现对高端酒店的定制化覆盖。我们将根据不同酒店的风格定制视频内容,包括风格、场景和亮点,并针对不同客群展示相应酒店视频,同时为运营团队提供快速响应市场的能力,为他们顺利与酒店达成合作助力。
目前,生成一个视频的成本大约是1.25元,时间大约在半分钟到一分钟左右,这是一个高效具备高成本效益的解决方案。
参考阅读
本文由高可用架构转载。技术原创及架构实践文章,欢迎通过公众号菜单「联系我们」进行投稿