4 月 25 日消息,EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院开发的框架,一个音频驱动的 AI 肖像视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。
阿里云今日宣布,通义实验室研发的 AI 模型 ——EMO 正式上线通义 App,并开放给所有用户免费使用。借助这一功能,用户可以在歌曲、热梗、表情包中任选一款模板,然后通过上传一张肖像照片就能让 EMO 合成演戏唱歌视频。
看到消息后,我立马去体验了下。之前在通义千问APP中体验过 通义舞王,还专门写了一篇文章【AI+视频】只要一张图片就能生成跳舞视频的几种方案
打开通义APP输入EMO进入,
体验了下消遣娱乐发发短视频还不错。
前不久 逛huggingface 发现腾讯开源的模型, 和aliyun开源的EMO类似。
地址: https://huggingface.co/ZJYang/AniPortrait
AniPortrait框架的设计思路来源于将音频信息与静态肖像相结合,创造出既逼真又连贯的动画效果。通过利用先进的Audio2Video大模型,AniPortrait能够分析音频中的节奏、语调和发音,然后将这些信息转化为对应的3D面部网格和头部姿势,最终生成动画肖像。
最近发现,像AI生成视频 领域,不同公司提供不同场景的AI解决方案(不管之前提到的 pixverse 、 Sora、Runway、Pika、还是D_ID、cre8tiveai 、neuralframes, 我其实知道的视频工具并不少),对普通人来说这些AI视频工具只是 短视频领域的一个应用场景,不管是生活消遣还是引流赚钱。 作为技术人, 不应该局限AI 文生视频或图片生视频的单纯应用。
不管是 文字、音频、 图片 还是视频, 相关之间其实可以互相转换。看来 自己还需要对音视频技术更一步深入。了解事物的本质(道)后,其实运用每一样应用(术)会更容易。
《道德经》 “有道无术,术尚可求;有术无道,止于术”
《易经》有云,“易有太极,始生两仪。两仪生四象,四象生八卦。”
《云笈七笺》曾道, “鸿蒙未分,化元光一道,道生一,一生二,二生三,三生万物”