re:Invent 2023 | 如何构建生成式 AI 驱动的美国手语动画

本文链接：https://blog.csdn.net/weixin_46812959/article/details/134833808

关键字: [Amazon Web Services re:Invent 2023, GenASL, Generative Ai, American Sign Language Avatars, Amazon Web Services Cloud, Asl Gloss, Assistive Technology]

本文字数: 1800, 阅读完需: 9 分钟

视频

如视频不能正常播放，请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1RC4y1c7uL

导读

想象一个没有语言障碍的世界。在本论坛中，通过由亚马逊云科技云端和生成式 AI 支持的逼真的美国手语 (ASL) 动画解决方案，了解朝着这个方向迈出的一步，该解决方案通过将语音和文本转换为 ASL 动画，打破障碍，培养更具包容性的沟通。了解它如何创建富有表现力的 ASL 动画，捕捉手语的细微差别和情感，获得真实的体验。看看用户如何输入音频、视频或文本，让全息 ASL 化身将其解释为逼真的视频。该解决方案使用 AI/ML 服务，包括 Amazon Transcribe、Amazon SageMaker、AmazonBedrock 和文本到视频模型。

演讲精华

以下是小编为您整理的本次演讲的精华，共1500字，阅读时间大约是8分钟。如果您想进一步了解演讲内容或者观看演讲全文，请观看演讲完整视频或者下面的演讲原文。

亚马逊云科技在今年re:Invent上举办了一场关于如何利用其云计算能力构建生成式AI驱动的美国手语(ASL)虚拟形象的主题演讲。这场由亚马逊云科技高级解决方案架构师阿拉拉·达（Alara Da）、苏雷什·班（Suresh Ban）以及斯拉普主要数据工程师、聋哑人罗伯·科赫（Rob Koch）共同主持的演讲颇具启发性。在现场，罗伯的手语部分由一位现场的美国手语翻译员进行配音。

这个项目的灵感来自于阿拉拉今年夏天早些时候的一次难忘的互动。在亚马逊云科技中西部社区日活动上，阿拉拉和苏雷什完成了一个关于生成式AI的主题演讲后，他们去了附近的星巴克咖啡店。在那里，他们开始热情地讨论生成式AI可能解锁的无尽可能性。然而，当阿拉拉试图与一位聋哑顾客沟通时，她意识到自己的沟通方式并不有效。这次经历让她认识到了辅助技术对于帮助依赖视觉沟通者的必要性。正是在这时，阿拉拉和苏雷什构思了一个利用亚马逊云科技的云计算和生成式AI功能来构建一个可以将语音和文字转换为ASL动画的应用程序的想法。

阿拉拉解释称，无障碍意味着确保任何人使用产品或服务都能平等地受益，无论他们可能拥有的任何条件或残疾如何。一些无障碍障碍可以通过引入专用设备来消除，而其他障碍则需要完全重新设计环境和体验。阿拉拉强调，无障碍首先是做最人性化的事情——这意味着关心他人，不排斥人们并从而创造障碍。

在全球范围内，约有15%的人口，即10亿人口，患有残疾。这部分残疾人人口甚至超过了印度和中国，成为世界第三大国家。此外，全球有超过25亿人依赖至少一种辅助产品。据估计，有4.66亿人患有听力损失，其中包括3400万儿童，其中大多数孩子的父母都有听力损失。预计到2050年，这一数字还将上升至超过35亿人口需要至少一种辅助产品。特别值得关注的是，预计将有9亿人受到听力损失或沟通问题的困扰。

亚马逊Transcribe利用深度学习神经网络将语音自动转换成文本。这是一项完全托管的服务，使亚马逊云科技能够构建和维护最新的模型，而用户则可以专注于他们的应用程序。用户无需具备机器学习专业知识，便可从这一人工智能服务中受益。
亚马逊Polly采用了Anthropic的Claude b2大型语言模型，可以根据英语录音生成美国手语（ASL）术语。通过亚马逊Polly，使用基础模型轻松构建和扩展具有生成性的AI应用变得轻而易举。Polly为用户提供了访问像Claude b2这样的前沿模型的途径。
用于生成手势的视频数据集来自波士顿大学的手语词典视频数据集。该数据集包含了3,300个由6名美国手语签名者表演的手势视频，以及将术语映射到视频帧的元数据。通过机器学习模型mmPose和RTMpose（实时多人姿态估计）分析视频帧，然后重新创建签名以生成化身。

异步API设计有效地解决了长时间输入的超时问题。通过步骤函数，用户无需定制Lambda函数便可与亚马逊云科技服务（如Transcribe和Polly）轻松集成。系统会检测输入是音频还是文本，然后启动转录任务并在完成后持续查询状态。接下来，系统将转录结果文本传递给Polly或Claude以生成美国手语（ASL）术语。这些术语将与数据库中的签名视频相结合，从而生成用户的3D化身。最后，系统将生成预签名的S3 URL并提供给用户，以便他们查看生成的输出视频。前端由Amplify负责身份验证和管理，而后端则依赖于API网关和步骤函数。此外，所有的日志都会被记录到CloudWatch，以提供监控指标和警报。

在结语部分，演讲者谈到了未来改进的方向，包括升级到3D化身渲染以实现更逼真的动作、利用Stable Diffusion等图像生成模型来创建更接近人类的化身、在拼接视频剪辑时实现更平滑的帧过渡、以及添加从美国手语视频到口头音频的反向翻译功能。总之，这个演示展示了如何使用亚马逊云科技云服务创新地解决失聪和听力障碍人士与美国手语交流的问题。GenASL应用程序能够实时翻译语音和文本为签字化身和视频，从而缩小了沟通差距。演讲者强调了对包容性设计和辅助技术的关注可以为我们在人与人之间建立新的联系方式开辟新的可能。

下面是一些演讲现场的精彩瞬间：

领导者发布了一项创新应用，该应用利用了亚马逊云科技在云计算和人工智能领域的技术，为使用者提供了视觉沟通的功能。

这款应用经过精心设计，旨在打造一个无障碍的人行道，让各类人群都能够轻松跨越路缘石。

所谓无障碍，就是消除各种障碍，使得所有人，无论其身体状况或残疾程度如何，都能充分享受产品和服务带来的好处。

亚马逊Transcribe采用深度学习技术，将音频输入转化为英文文本。

总结

演讲者们在讨论他们是如何开发一款名为GenASL的应用程序的，这款应用程序旨在帮助失聪和重听人士实现视觉交流。该应用程序能够将音频输入转换成文本，然后由Anthropic的Claude大型语言模型生成相应的美国手语（ASL）注解。这些注解使用大写字母和连字符来表示ASL符号。接下来，将这些ASL注解输入到mmPose机器学习模型中，从而从ASL视频数据集中生成手势视频。如果没有相应的手势视频，则会使用手指拼写技术来表示这个单词。

该应用程序的后端具备批量处理视频的功能，前端则是用于认证的亚马逊云科技Amplify前端，整个处理过程通过API层进行调用。演示过程中展示了该应用如何接收音频、麦克风和文本输入以生成视频。未来的改进方向包括创建更流畅的视频，以及将手语视频转换为语音。

演讲者们鼓励在所有产品中纳入可访问性功能，以使社会变得更加包容。相关资源包括GenASL应用程序、Amazon Polly（用于生成人工智能语音）以及亚马逊的可访问性计划。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134833792

想了解更多精彩完整内容吗？立即访问re:Invent 官网中文网站！

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处，一键获取亚马逊云科技全球最新产品/服务资讯！

点击此处，一键获取亚马逊云科技中国区最新产品/服务资讯！

即刻注册亚马逊云科技账户，开启云端之旅！

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁？

亚马逊云科技（Amazon Web Services）是全球云计算的开创者和引领者，自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务，涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体，以及应用开发、部署与管理等方面；基础设施遍及 31 个地理区域的 99 个可用区，并计划新建 4 个区域和 12 个可用区。全球数百万客户，从初创公司、中小企业，到大型企业和政府机构都信赖亚马逊云科技，通过亚马逊云科技的服务强化其基础设施，提高敏捷性，降低成本，加快创新，提升竞争力，实现业务成长和成功。