首个文字生成手语模型来了！SignLLM通过文字描述来生成手语视频，目前已经支持八国手语！

最新推荐文章于 2024-08-16 08:29:27 发布

AIGC Studio

最新推荐文章于 2024-08-16 08:29:27 发布

阅读量2.5k

点赞数 18

分类专栏： AIGC 深度学习论文阅读文章标签：人工智能 AIGC 计算机视觉图像生成 stable diffusion

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xs1997/article/details/139509399

版权

AIGC 同时被 3 个专栏收录

349 篇文章

订阅专栏

339 篇文章

订阅专栏

251 篇文章

订阅专栏

SignLLM 是目前第一个通过文字描述生成手语视频的多语言手语模型。

该项目引入了首个多语言手语数据集 Prompt2Sign，它使用工具自动采集和处理网络上的手语视频，能够不断更新，且具有轻量化特点。

该模型当前支持 8 种手语类型。包括美国手语、德国手语、瑞士德语手语、瑞士法语手语、瑞士意大利语手语、阿根廷手语、韩国手语和土耳其手语。

PS：目前未提供代码（后续提供），也期待更新中文手语~

相关链接

论文：https://arxiv.org/pdf/2405.10718

项目：https://github.com/SignLLM/Prompt2Sign

论文阅读

摘要

在本文中，我们介绍了第一个综合性的多语言手语数据集Prompt2Sign，它建立于包括美国手语(ASL)和其他七种语言在内的公共数据。我们的数据集将大量视频转换成精简的，模型友好的格式，优化与翻译模型的训练比如seq2seq和text2text。

在这个新数据集的基础上，我们提出 SignLLM是第一个多语言手语制作(SLP)模型，它包括两种新颖的多语言SLP模式，允许从输入文本或提示生成手语手势。两者都是模式可以使用新的损失和基于强化学习的模块，通过增强模型自主抽取高质量数据的能力，加快了训练速度。

我们给出的基准结果SignLLM，这表明我们的模型在跨八种手语的SLP任务中的表现达到了最先进的水平。

方法

上图表示Prompt2Sign数据集主要组成部分，Prompt2Sign数据集是重新处理过的姿势数据，哪些数据更有用，更适合训练。再处理的输入工具是来自数据集或互联网的公共视频。

上图展示SignLLM旨在生成各种应用场景的手语姿势。

(左)Prompt2Sign数据集的数据类型和抽象表示。(中)Prompt2LangGloss和MLSF的训练过程，计算原理强化学习损失。(右)SignLLM的输出可以进行转换进入大多数姿势表示格式，然后可以渲染成现实的人类外观风格转移/特别微调生成模型。

我们用a增强Text2Gloss标记生成具有语言学意义的Gloss属性。vt()和xu()表示数据类型和抽象表示。

我们使用一些元素:User, Agent，环境，迭代更新过程，PLC的强化学习草图适用于序列预测的过程。

实验

(左)文本或提示作为模型输入。(右)我们用的是调整过的样式迁移模型，将预测的姿态视频转换为最终视频。

结论

我们提出了第一个多语言SLP模型SignLLM，该模型基于我们提出的标准化多语言手语数据集Prompt2Sign。我们的模型有两种模式，MLSF和Prompt2LangGloss，逐步融合了多样化的更多的手语，减轻了共享参数造成的问题。我们的新损耗和新模块解决了训练时间长的问题由于更大的数据集和更多的语言。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AIGC Studio 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。