[AI+视频]aliyun的通义EMO初体验及感想

最新推荐文章于 2024-06-13 10:29:41 发布

子晓聊技术

最新推荐文章于 2024-06-13 10:29:41 发布

阅读量860

点赞数 4

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/xiaoliouc/article/details/138205014

版权

人工智能专栏收录该内容

50 篇文章

订阅专栏

阿里云的EMO，由智能计算研究院开发，能通过音频和肖像图片生成动态表情视频。通义实验室的AI模型EMO在通义App上开放，用户可以轻松创作。文章作者分享了自己的初体验，指出AI视频在不同场景的应用价值，以及技术背后的意义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

4 月 25 日消息，EMO（Emote Portrait Alive）是一个由阿里巴巴集团智能计算研究院开发的框架，一个音频驱动的 AI 肖像视频生成系统，能够通过输入单一的参考图像和语音音频，生成具有表现力的面部表情和各种头部姿势的视频。

阿里云今日宣布，通义实验室研发的 AI 模型 ——EMO 正式上线通义 App，并开放给所有用户免费使用。借助这一功能，用户可以在歌曲、热梗、表情包中任选一款模板，然后通过上传一张肖像照片就能让 EMO 合成演戏唱歌视频。

看到消息后，我立马去体验了下。之前在通义千问APP中体验过通义舞王，还专门写了一篇文章【AI+视频】只要一张图片就能生成跳舞视频的几种方案

打开通义APP输入EMO进入,

体验了下消遣娱乐发发短视频还不错。

前不久逛huggingface 发现腾讯开源的模型，和aliyun开源的EMO类似。

地址： https://huggingface.co/ZJYang/AniPortrait

AniPortrait框架的设计思路来源于将音频信息与静态肖像相结合，创造出既逼真又连贯的动画效果。通过利用先进的Audio2Video大模型，AniPortrait能够分析音频中的节奏、语调和发音，然后将这些信息转化为对应的3D面部网格和头部姿势，最终生成动画肖像。

最近发现，像AI生成视频领域，不同公司提供不同场景的AI解决方案（不管之前提到的 pixverse 、 Sora、Runway、Pika、还是D_ID、cre8tiveai 、neuralframes，我其实知道的视频工具并不少），对普通人来说这些AI视频工具只是短视频领域的一个应用场景，不管是生活消遣还是引流赚钱。作为技术人，不应该局限AI 文生视频或图片生视频的单纯应用。

不管是文字、音频、图片还是视频，相关之间其实可以互相转换。看来自己还需要对音视频技术更一步深入。了解事物的本质（道）后，其实运用每一样应用（术）会更容易。

《道德经》 “有道无术,术尚可求;有术无道,止于术”

《易经》有云，“易有太极,始生两仪。两仪生四象,四象生八卦。”

《云笈七笺》曾道， “鸿蒙未分，化元光一道，道生一，一生二，二生三，三生万物”

原文链接：[AI+视频]aliyun的通义EMO初体验及感想