[AI+视频]aliyun的通义EMO初体验及感想

阿里云的EMO,由智能计算研究院开发,能通过音频和肖像图片生成动态表情视频。通义实验室的AI模型EMO在通义App上开放,用户可以轻松创作。文章作者分享了自己的初体验,指出AI视频在不同场景的应用价值,以及技术背后的意义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

4 月 25 日消息,EMO(Emote Portrait Alive)是一个由阿里巴巴集团智能计算研究院开发的框架,一个音频驱动的 AI 肖像视频生成系统,能够通过输入单一的参考图像和语音音频,生成具有表现力的面部表情和各种头部姿势的视频。

阿里云今日宣布,通义实验室研发的 AI 模型 ——EMO 正式上线通义 App,并开放给所有用户免费使用。借助这一功能,用户可以在歌曲、热梗、表情包中任选一款模板,然后通过上传一张肖像照片就能让 EMO 合成演戏唱歌视频。

看到消息后,我立马去体验了下。之前在通义千问APP中体验过 通义舞王,还专门写了一篇文章【AI+视频】只要一张图片就能生成跳舞视频的几种方案

打开通义APP输入EMO进入,

图片图片

      

体验了下消遣娱乐发发短视频还不错。

前不久 逛huggingface 发现腾讯开源的模型, 和aliyun开源的EMO类似。

地址: https://huggingface.co/ZJYang/AniPortrait

图片

AniPortrait框架的设计思路来源于将音频信息与静态肖像相结合,创造出既逼真又连贯的动画效果。通过利用先进的Audio2Video大模型,AniPortrait能够分析音频中的节奏、语调和发音,然后将这些信息转化为对应的3D面部网格和头部姿势,最终生成动画肖像。

最近发现,像AI生成视频 领域,不同公司提供不同场景的AI解决方案(不管之前提到的  pixverse 、 Sora、Runway、Pika、还是D_ID、cre8tiveai 、neuralframes, 我其实知道的视频工具并不少),对普通人来说这些AI视频工具只是 短视频领域的一个应用场景,不管是生活消遣还是引流赚钱。 作为技术人, 不应该局限AI 文生视频或图片生视频的单纯应用。   

不管是 文字、音频、 图片  还是视频, 相关之间其实可以互相转换。看来 自己还需要对音视频技术更一步深入。了解事物的本质(道)后,其实运用每一样应用(术)会更容易。

《道德经》   “有道无术,术尚可求;有术无道,止于术”

《易经》有云,“易有太极,始生两仪。两仪生四象,四象生八卦。”

《云笈七笺》曾道, “鸿蒙未分,化元光一道,道生一,一生二,二生三,三生万物”

原文链接:[AI+视频]aliyun的通义EMO初体验及感想

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值