即插即用的AI手语识别

关键字: [Amazon Web Services re:Invent 2023, SignSpeak, Sign Language Recognition, Accessibility For Deaf, Asl Translation, Text To Sign Language, Bidirectional Communication]

本文字数: 1000, 阅读完需: 5 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV16g4y1o76m

导读

仅在美国,每天使用美国手语(ASL)的互动次数就估计超过3700万次。加入这个闪电演讲,体验来自Sign-Speak的首个手语识别API!这款软件实现了ASL的识别,将其翻译成英语,同时通过一个虚拟人物将英语口语翻译成ASL。通过接纳ASL,你可以使你的服务具备美国最常用语言之一的能力。深入人工智能,成为前所未有的无障碍冠军。

演讲精华

以下是小编为您整理的本次演讲的精华,共700字,阅读时间大约是4分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

演讲者尼古拉斯和布莱恩受邀在台上介绍了手势语言识别技术。布莱恩分享了他的故事,他是美国约5000万聋哑人之一,美国手语(ASL)是他们主要的语言,而非英语。在日常生活中,他经常遇到没有适当无障碍功能的技术和服务带来的挫败和挑战。由于ASL与英语语法结构间的差异,简单的文本消息往往导致误解和错误。如TTY等过时的设备曾支持基于文本的通信,但现在已被现代聋人社区较少使用。尽管专业ASL口译员可在面对面互动中提供必要的无障碍服务,但全球范围内仍存在短缺,且多数地区仍未提供此便利。

布莱恩强调,该领域亟需创新,以使聋人社区能与美国口语并行使用。真正平等意味着给予同等的便利和访问权。在布莱恩引人注目的开场后,尼古拉斯进一步阐述了无障碍技术的巨大需求。

美国约有5000万聋哑人,是一股强大的经济力量,每年拥有9000亿美元的消费力。为他们提供无障碍不仅是道义上的责任,且在如此庞大的人群及其潜在购买力面前,从商业角度看也具有重要意义。此外,除道德和经济因素外,各类法规,包括具有里程碑意义的《美国残疾人法》和最近的FCC规定,均要求在法律上为聋人提供便利。这些规定要求所有视频会议平台和实时流媒体应用程序必须具备字幕和手势语言解释功能。

尼古拉斯解释了SignSpeak的AI创新解决方案如何实现双向通信访问。聋用户可输入系统,将其ASL识别并转换为文本或语音输出。这使得他们能与语音助手、智能设备、自动电话系统等交互。该技术还具备其他功能——将文本或音频信息转回逼真的ASL手势,通过虚拟角色技术实现。

展示文本和手语输出是非常理想的,因为不同的大聋人社区对无障碍需求各不相同。有些个人强烈倾向于阅读字幕,其他人与ASL手势联系最紧密,而有些人从同时提供两种选项中受益最大。SignSpeak旨在为所有失聪和重听人士提供全面的无障碍选择和自由选择。例如,一个聋用户进入系统的例子,带有语音翻译,允许双向对话。

尼古拉斯宣布SignSpeak API现在在有限的使用中,因为他们正在与开发者合作将其集成到各种应用程序中并提高其无障碍性。计划在2024年初全面公开发布。他展示了调用API是多么容易——只需提供视频输入并接收文本或手语视频回复。有大量的定制选项可用于适应不同的使用场景,如实时数据流或预处理视频文件。头像外观、签名风格和上下文调整也可以根据每个应用程序进行调整。

早期的整合包括视频通话、通过视频输入的自动闭路字幕、通过手语的智能电视控制等。进行用户测试和社区审计以确保技术负责任地发展并有利于聋人社区。SignSpeak旨在道德地收集数据并将利润用于进一步改善访问。演讲者们在结束时邀请观众在他们的展台上了解更多关于API的信息和就业机会。

总之,SignSpeak的开创性AI使ASL和英语文本/语音之间的无缝双向通信成为可能。这有望打破美国估计5千万聋人的无障碍障碍, 在为听力世界设计的技术和服务中授予同等功能。

下面是一些演讲现场的精彩瞬间:

一位聋哑领袖致力于在科技和产品中为聋哑社区创建更多的无障碍环境。

作为全球领先的云计算公司之一,亚马逊云科技每年都在努力为聋人和听力障碍者提供无障碍服务,满足了他们高达900亿美元的消费需求。

亚马逊云科技提供了一种创新的双向解决方案,能够将手语转换为文本和语音,从而增强了聋人和听力障碍者的无障碍体验。

这项技术实现了英语和美国手语之间的无缝转换,有效地缩小了沟通上的差距。

演讲者解释道,通过同时提供文本字幕和手语翻译,可以为聋人和听力障碍者提供全面的无障碍体验,因为他们的内容消费偏好各不相同。

此外,合作伙伴已经将亚马逊云科技的API集成到了智能电视中,使得聋人可以通过签署命令(如“打开Netflix”)而非对遥控器发声来提高无障碍性和产品黏性。

这位领袖鼓励观众如果对公司的使命和技术感兴趣,可以申请相关的开放职位。

总结

IDE105-Plug_and_play_with_AI_sign_language_recognition探讨了创新技术,为失聪和听力困难的人士提供无障碍服务。

失聪人士Brian分享了他在日常生活中的沟通和信息获取方面的个人挑战,解释说他的主要沟通方式是美国手语而非英语。他强调了在手势语言和口头语言之间实现功能对等的重要性。

尼古拉斯随后介绍了SignSpeak,这是一个双向解决方案。它将聋用户的手势转换成文本或语音输出供听力正常的人使用,同时将文本和语音转换成聋用户的手势动画。这使得聋用户能够完全与基于声音的系统如智能扬声器互动。

其主要特点包括可选性、定制性和根据社区反馈负责任地部署技术。SignSpeak目前处于有限可用状态,但计划将在2024年初正式发布。演讲最后提到了整合API和工作为这个有使命感的创业公司的机会。

总的来说,演讲者们有力地表明了SignSpeak具有改变生活的潜力,使数百万失聪人士能够实现自然的交流和对真实世界的无障碍访问。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134868127

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 - 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。

  • 21
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值