去哪儿国际酒店AI生成视频实践-CSDN博客

日前，在51CTO主办的WOT全球技术创新大会上，去哪儿旅行技术总监郑吉敏带来了主题演讲《国际酒店AI生成视频实践》，围绕着国际酒店的业务架构，详细介绍了生成视频如何进行流程AI化以及相关实践和思考，带给观众全新的视野和独家的经验分享。

本文将摘选其中精彩内容，统一整理，希望为诸君带来启发。

本文将从以下四个部分展开：

视频生成挑战与机遇
专业影视生成流程AI化
AI生成视频实践
视频生成成果展示与思考

视频生成挑战与机遇

我们首先来看看，国际酒店视频生成所遇到的挑战。

随着AIGC技术的发展，我们关注其在实际业务中的应用。我们认识到AIGC已具备生成视频的能力，且我们的业务对此有相应的需求。

因此，我们首先确定了使用AIGC生成视频的场景。

接下来，我们考虑如何将视频制作工程化，并确保视频质量。回到视频本身，目前其核心元素有两点：文案和图片。我们需要审视现有的文案和图片资源，通过组织这些内容生成视频，并以赋能现有业务作为终点。

在制作视频时，我们面临的第一个问题是素材选择。我们手头的素材已经明确，包括基础的文案、图片信息和用户点评，这些素材需要精心挑选并有效利用以生成视频。

素材选择的难点在于信息的筛选和利用。例如，酒店图片质量参差不齐，高星酒店的图片通常更清晰，成为视频的亮点，但并非所有酒店的图片都具备这一特性。此外，用户点评中包含多种语言，翻译后的信息可能无法直接使用。

面对这些挑战，我们需要找到解决方案，以确保视频内容的质量和准确性。

接下来谈谈挑战背后我们看到一些机遇。

围绕着国际酒店业务的异国风情特征，我们沉淀了高度多样化的信息。

对于观众观看体验来说，视频不仅仅是展示酒店，更重要的是通过视频传达酒店所在区域的多样性，以及与本地酒店不同的特色和定位。

我们面临的问题是国际酒店视频的制作是否能够成功，以下是我列出一些可行性的数据支撑：

1. 国际酒店视频覆盖率低。在开始之前，我们发现国际酒店视频的覆盖率大约为19.6%，显示了巨大的提升空间。

2. 视频对转化有明显提升。去年，我们对高星酒店视频进行了测试，结果显示视频显著提高了用户的转化率。

3. 国内酒店有视频生成经验。国内酒店已经针对低星酒店生成了视频，这验证了我们已经具备基础的视频制作能力。

基于这些基础，我们确定了国际酒店视频制作需要具备的三个基本特征：风格多样性、内容多样性和元素多样性。

专业影视生成流程AI化

我们将专业影视生产流程简化为四个关键步骤：

第一，策划创意。

第二，分镜创作。

第三，现场拍摄。

第四，后期剪辑。

围绕这四个过程，我们用上图简单介绍一下。

以上图的片段为例，每个分镜会有文案描述她的动作，并配有女生说的话或者内心独白来展现剧情。

通过这些元素的组合，我们能够制作出一个连贯的影视片段。每个分镜都由图片或视频、文案和语音组成，经过后期剪辑，形成一个完整的小视频。这是影视制作中的基本流程。

基于上述内容，我们来看看，视频制作流程的AI化。

视频本质上由多个分镜构成的，每个分镜都包含图片、文案、配乐等核心元素。在AI的帮助下对素材进行加工，从而生成每个分镜的内容。

随后，通过转场动画和特效，将各个分镜流畅地拼接成一个完整的视频。

AI生成视频实践

具体到AI生成视频的实践中，我们还会面临一个问题，就是判断视频质量高低的标准——如何生成一个用户愿意观看的内容？

我们总结优质视频有以下关键因素：

首先，我们强调价值趣味，这涉及到剧情设计和分镜的构思。我们需要考虑如何设计分镜，以及是否有合适的模板来更好地连接每个分镜。

紧接着是清晰画质，我们追求1080p甚至4K的高清标准，确保用户在观看时不会因为画质问题而感到不适。

最重要的，视频的主题应该是优质的。我们的目标不仅是画质和设计方面的精良，更要传达出酒店的亮点和特色，让用户通过视频就能直观感受到酒店的魅力。

最终，我们希望用户在观看视频后，愿意分享视频。

基于优质视频的基础元素，我们规划了视频生成的业务流程。

第一步，素材选取。我们首先提取图片和文字素材，并进行去重和高清处理，确保基础素材的质量。对于文字，特别是小语种，我们会进行翻译和亮点抽取，以适应不同语言环境的需求，达到实际可用的水平。

第二步，预处理阶段。这个阶段的目标是让图片和文字满足用户的基本要求。我们还会根据需要，将文字输入到大语言模型中，图片则输入到多模态大模型中，进行再加工。

第三步，分镜制作。我们会大量运用运镜和特效技术，模拟用户实际观察酒店的视角和动态效果。例如，对于酒店外景，我们会模拟用户走近酒店的动作，使用拉近效果；对于房型图片，则模拟用户在房间内的视线移动，通过左右迁移来增强现场感，让用户感觉身临其境。此外，我们还会根据场景添加特效，如海岛场景的叠化和模糊效果，夜晚场景的星星特效，营造更丰富的意境。

最后一步，模板剪辑合成。在这个阶段，我们将每个分镜与旁白结合，将完成的每个分镜，利用多套模板进行合成，通过特效和音乐确保视频的丝滑过渡，避免生硬感，最终生成一个完整的视频。

接下来我们看一下从业务层面，来看整个视频的生成。通常来讲我们还是以每个分镜作为我们的基础单元，构建以业务为核心的生产流程。

在构建业务模型时，底层的是AI技术的能力。这些能力包括文本预处理、图片预处理、大语言模型、多模态模型以及分镜制作和模板合成等，它们各自独立，为自研提供通用能力。

这种设计的优势在于，一旦上层思路确定，我们可以自由决定使用适合的AI能力，个性化的适配不同酒店需求。

业务模型的上层，是业务规则。前面也提到过，国际酒店的地域文化差异显著，我们采用定制化策略，使得视频与酒店的定位相匹配，避免视频的千篇一律。

接下来重点讲下模板，模版让我们以不同的方式组装分镜，业务的多样性决定了我们模版的多样性。

目前核心模版分这几类，商业简约风格、豪华&奢华风格、海岛风情、日式风格等等。

我们与公司的UI团队展开合作，由他们设计相应的模板，确保视频展示方式与酒店的特色相匹配，从而提升视频的整体效果。

通过这种方式，我们的平台AI能力在多方面得到了有效沉淀。

去哪儿网的业务线、算法和AI技术架构是分开的，通常采用合作的方式来完成工作，因此我们会实现各AI能力的单独扩展，由业务方自主选择并以插件形式复用所需能力。

这里包含文案处理、图片处理等多种AI能力的插件。

接下来简单讲下，AI对于多语种翻译的增强。

我们的翻译实践表明，在处理27种语言时，传统神经网络+深度学习虽然能实现基本的"信"（准确传达原意），但往往缺乏"达"（通顺）和"雅"（情感和风格）。

通过使用GPT-3.5，我们能够提升翻译质量至7到8分，效果与使用谷歌翻译差不多，如果使用GPT-4，效果还会更好。

小语种翻译尤其受益于大型语言模型，但也要注意在成本上获得平衡。

接下来说一下AI对多模态生成的加强。

在生成视频方面，我们主要尝试过Pika和Runway平台。基于Runway的Gen-2模型，通过精细调整参数并确保内容符合物理逻辑，我们能够创造出逼真的图像，例如模拟真实的海浪动态。我们注意到，如果不进行特殊控制，生成的海浪可能不符合自然现象（上图）。因此，我们在多模态生成中特别强调物理逻辑的准确性。

目前，Runway在生成效果方面表现最强，尽管它的API接口尚未完全开放。一旦开放，预计将极大促进我们的多模态生成工作。

不过，即使有了强大的工具，参数的调整仍然非常关键。

视频生成成果展示与思考