亚马逊云科技-Transcribe优化语音转文本GenAI

亚马逊云科技-Transcribe优化语音转文本GenAI

关键字: [yt, Amazon Transcribe, Amazon Transcribe Speech Recognition, Automatic Transcription Accuracy, Call Analytics Insights, Medical Transcription Applications, Media Subtitling Localization]

本文字数: 500, 阅读完需: 2 分钟

导读

在一场亚马逊云科技的网络研讨会上,演讲者介绍了”Transcribe优化语音转文本GenAI”。演讲者阐释了Amazon Transcribe如何为多个行业提供自动语音识别解决方案,具体解释了它提供准确的转录功能,包括自定义词汇表、语言模型和内容编辑,并支持实时流式处理和批量处理。该演讲重点介绍了Amazon Transcribe如何通过字幕提高无障碍性、通过呼叫分析提升客户体验,以及在医疗保健领域实现高效的临床文档记录。

演讲精华

以下是小编为您整理的本次演讲的精华,共200字,阅读时间大约是1分钟。

亚马逊云科技推出了Transcribe服务,这是一种利用深度学习进行语音识别的自动语音转文本AI服务。作为全面托管和持续训练的服务,Transcribe无需配置和维护任何基础设施,可以高效精准地取代传统昂贵的手动转录过程,并根据业务需求进行弹性扩展,客户只需为所使用的服务付费。例如,客户Intuit每年处理超过2.75亿分钟的客户互动。

Transcribe旨在使自动转录过程对客户而言简单快捷,无需任何机器学习经验。它通过使音频可发现和可搜索来改善业务成果,这对于不断添加音频和视频内容的组织尤为重要,如客户呼叫、音频和视频娱乐及教育内容、医疗互动和法律调查的数字证据。它还通过字幕和审核来增加客户对内容的参与度,从而提高效率、收入,并通过分析来获取和留存客户。

Transcribe可实时或批量转录,支持多种音频视频格式如WAV、MP3、FLAC、MP4、AMR、AUG和WebM。它提供丰富功能如发音、大写、数字规范化和扬声器或频道标记等,使输出可直接用于字幕或分析。它还为每个单词提供时间戳,以及单词级置信度分数,帮助提高转录精度。Transcribe提供自动语言识别和多语言识别功能,还可通过自定义词汇表和自定义语言模型(CLM)来提高准确率。

Transcribe支持多达10个备选转录,并提供词汇过滤和个人身份信息(如姓名和地址)编辑功能,以保护用户隐私和内容审核。客户如Intuit、Wix和Octopus Energy等都在使用Transcribe服务,获得了良好效果。例如,Wix在完成CLM训练和上述自定义功能后,其美国英语转录准确率达到了92%左右。Octopus Energy使用内部文档、客户评论和数GB的客户电子邮件来训练CLM模型,相对准确性提高了12%到20%。DeNA是日本领先的移动游戏和互联网服务公司之一,利用Transcribe的词汇过滤功能可以识别和编辑不当术语。

亚马逊重视客户隐私,并为某些敏感个人信息(如姓名、地址、社会安全号码等)提供编辑功能。亚马逊了解客户的自动语音识别(ASR)需求可能是流式处理或批处理,或者客户可能需要美国英语、南非英语、巴西葡萄牙语或海湾阿拉伯语。客户可查看文档以了解支持的语言和功能的完整列表。

到目前为止,已经讨论了亚马逊Transcribe的基本功能,它可用于批处理和流式模式。还有两种使用亚马逊Transcribe API的用例,即Transcribe Call Analytics和Transcribe Medical。

Transcribe Call Analytics是一种基于机器学习的API,用于生成高度准确的呼叫记录并提取对话见解,以改善客户体验和代理人工作效率。使用Transcribe Call Analytics,开发人员可以分析呼叫记录,获取逐句呼叫记录以及可添加到应用程序中的可操作见解。

Transcribe Medical是一种先进的机器学习服务,可准确转录医学术语,如药物名称、程序,甚至疾病和疾病状况。Amazon Transcribe Medical可以服务于各种用例,如转录医生与患者的对话以进行临床文档记录、捕获药物警戒或为远程医疗咨询添加字幕。

会议后期将深入探讨Transcribe Call Analytics和Transcribe Medical。虽然Transcribe在多个行业中都有应用,但今天的网络研讨会将重点关注三个主要用例:媒体搜索和字幕、呼叫分析和临床文档记录。

媒体和娱乐客户正在使用Transcribe进行多种用例,包括为现场和点播内容自动生成视频字幕或字幕、内容审核、搜索和发现以及会议字幕。

随着越来越多的终端客户依赖呼叫中心互动,公司报告呼叫量空前增加。客户可以在呼叫中心使用Transcribe来解锁实时和事后转录分析的见解,了解客户的声音并帮助代理人改善客户体验。

在医疗用例中,客户正在使用Transcribe来通过自动临床文档记录、药物警戒、付款人分析和健康字幕来更好地推动患者结果。

最喜欢的一张幻灯片展示了团队为赢得客户对其呼叫中心的信任、帮助客户和企业以及其他合作伙伴所做的努力。亚马逊Transcribe为来自多个行业的客户提供服务,涵盖了上述三种用例以及更多无法在今天介绍的用例。虽然在某些行业取得了更多的使用和成功,但如果客户有任何疑问,欢迎与亚马逊团队联系,他们将乐意分享与客户的行业或用例相关的案例研究。

接下来,让我们深入探讨第一个用例,查看一些架构示例并进行演示。第一个是媒体搜索和字幕。一些常见的客户挑战包括难以在没有过时和不完整的元数据的情况下管理和货币化媒体库;由于听力障碍或嘈杂的环境,部分客户无法访问音频和视频内容;随着大量内容(尤其是用户生成的内容)的产生,难以监控内容并确保其符合社区政策和品牌。

亚马逊Transcribe应对了这些挑战。首先,在内容搜索和发现方面,Transcribe可以自动创建富有语音词的元数据索引,以轻松搜索和查找所需内容。第二个用例是字幕和本地化。亚马逊Transcribe帮助内容制作者和媒体分发商通过自动生成带时间戳的字幕(可与视频内容一起显示)来提高覆盖面和可访问性,从而增加用户参与度并满足无障碍要求。对内容进行转录还可以为翻译和本地化做好准备,帮助客户更快地触及更广泛的受众,进一步提高用户粘性。研究表明,本地化视频实际上可以将观看时长增加15%。

最后,Transcribe可用于内容审核和合规性,以检测潜在的不当内容,避免在全球市场出现问题,并增加品牌安全性,同时遵守合规标准。

到目前为止,上述功能非常适合媒体搜索和字幕。例如,单词级时间戳可让用户找到所需内容的确切位置。使用特定行话、亵渎或任何其他不当术语的过滤器来维护所有用户的良好体验,创建并使用多个词汇过滤列表,根据标签为成人或儿童受众创建适当的字幕。

同样,内容编辑可用于自动审查,方法是自动识别和删除敏感的个人信息(如PII内容)或不当的语音(如游戏玩家聊天频道和新闻报道)。这些用例也非常适合与亚马逊Transcribe Streaming配合使用,后者提供低延迟实时转录。

Transcribe Streaming的一个关键功能是我们所谓的部分结果。为现场直播生成字幕需要流式模型,因为转录文本应该在解说出现后不久就显示在屏幕上。这种实时需求与批量转录相比带来了独特的挑战,往往会影响结果质量,因为语言模型对未来上下文的了解有限。

亚马逊Transcribe会逐步生成部分结果,对连续语音段的转录输出进行修剪,直到最终确定。这些部分结果中的某些单词或短语可能会随着流处理的继续而发生变化。我们称之为稳定化。如果客户直接向观众显示转录结果(例如,为视频创建字幕),可以使用部分结果稳定化。通过稳定化,客户可以选择不会更改的转录输出部分以及单词级时间戳,从而更容易让观众阅读字幕。

亚马逊Transcribe还以网络VTT和SRT格式输出批量转录作业,以用作现有工作流程中的视频字幕。输出文件将包括任何内容编辑、词汇过滤,并在这两种格式中区分多个发言者。

现在让我们来看一个实时架构示例,为直播流添加闭路字幕。首先,从广播馈送摄像机开始,视频直接以流式方式传输到亚马逊Elemental Media Connect,这是一项用于实时视频的高质量传输流服务。从那里,流由亚马逊Elemental Media Live处理,将其从原始视频转换为RTMP流。这将启动基于亚马逊Fargate或EC2的工作流,从实时流中读取音频,将其转换为Transcribe所需的音频格式,然后将音频发送到Transcribe。生成的实时字幕被转换为闭路字幕段,以便重新注入实时流中。这是使用单词级时间戳、部分结果稳定化和最终段完成的。输出流被发送回Media Live以实现高可用性和故障转移,然后发送到亚马逊Elemental Media Package进行打包和分发。如果要在网站上显示,可以使用亚马逊Interactive Video Service (IVS)进行实时发布。如何生成实时闭路字幕的示例可以在屏幕左下角二维码链接中的示例项目中找到。

现在让我们看一个演示,了解如何轻松为视频文件生成字幕。这里是在亚马逊云科技管理控制台中的操作。已经将一个视频文件上传到S3。要生成行业标准的WebVTT或Web视频文本轨道,请选择搜索栏并输入Transcribe,然后选择亚马逊Transcribe。我们将创建一个新的转录作业,输入作业名称,并浏览或选择S3中文件的URL,向下滚动到字幕格式,根据需要选中SRT或WebVTT。向下滚动并选择”下一步”。如果需要启用PII编辑或词汇过滤或自定义词汇表,请在此配置。然后向下滚动并选择”创建作业”。已经有一个已完成的作业,所以不会创建新作业。作业完成后,选择该作业并向下滚动到”下载”部分。请注意,可以下载SRT和VTT转录文件。下载这些文件并将它们命名为与视频相同的名称时,视频播放器(如VLC)将自动播放闭路字幕。

让我们快速看一下生成的闭路字幕。转录音频可能是复杂、耗时且昂贵的。需要雇佣人员手动完成,或实施难以维护的应用程序,或使用难以集成且结果糟糕的服务。亚马逊Transcribe利用深度学习技术,以成本的一小部分快速准确地将现场或录制的语音转换为文本,是一个巨大的飞跃。它使用起来很简单,不需要任何机器学习经验。

现在让我们看一些在媒体和娱乐字幕方面使用Transcribe的客户。NASCAR每月发布数百个短视频内容,需要为所有点播内容(包括多站点和多语言字幕)提供字幕。在评估了多家供应商的准确性、成本效益和灵活性后,他们选择了亚马逊Transcribe。结果是,NASCAR在字幕方面的支出比原估计少97%。

[NASCAR视频字幕]

现在让我们转向呼叫分析。呼叫分析完成了大部分繁重工作,为提供端到端解决方案做好准备,可插入呼叫中心并提供所需的智能见解,无论是在实时呼叫期间还是呼叫后。

这有两个方面。1.帮助主管评估来电者体验质量。例如,主管需要知道最初不满意的来电者在通话过程中是否变得更加满意,如果没有,原因是什么?在通话结束前可以采取什么行动来帮助代理人改善客户体验?通话进展不顺利时,一旦通话结束,主管可以分析通话记录,得出可操作的见解,如代理人绩效、平均呼叫解决时间、来电者和代理人情绪、通话期间的平均静音时间,甚至产品反馈等见解。

第二个方面是帮助代理人在实时通话期间优化来电者的体验质量。实时呼叫转录消除了代理人在通话期间做笔记的需求,使他们能够更专注于提供积极的客户互动。呼叫后分析由亚马逊Transcribe提供支持,可帮助代理人回顾呼叫记录,了解改进的机会。

如前所述,公司发现呼叫中心的呼叫量有所增加。公司希望在这些对话中保持较高的客户满意度,并希望利用这些呼叫来解决代理人培训机会。他们还希望从这些呼叫中获得见解,了解客户呼叫的宏观趋势。鉴于客户处理的巨大呼叫量,手动了解这些见解或提高客户满意度的机会是很困难的。此外,公司还需要遵守行业法规,并解决GDPR、PII、PCI和PHI编辑等合规性需求。在大规模执行和实施这些需求也是一个挑战。

从实际情况来看,拥有100名代理人的客户每周积累2,000多小时的通信。没有比这更丰富的反馈循环了。呼叫中心最终只能手动评分少量随机抽样的客户接触。构建和管理定制应用程序供主管和分析师使用是很困难的。这些应用程序通常缺乏语音转录精度,无法快速分析大量呼叫。较差的准确性和及时性导致见解有限,无法检测情绪类别和问题。无法快速识别新兴主题、培训机会。

亚马逊Transcribe应对了这些挑战,通过实时转录客户代理对话来提高客户满意度。通过为代理人提供辅助提示并提前预升级,亚马逊Transcribe帮助保持客户满意。可以使用转录文本提取客户呼叫的见解,例如在通话过程中发生的问题、行动项和结果,以及整个对话过程中来电者和代理人的情绪。与亚马逊QuickSight等商业智能工具集成后,Transcribe为任何呼叫中心提供了强大的分析和预测报告引擎。

根据客户的要求,可以自动编辑机密信息(如PII、PCI或PHI)的转录文本,以满足审计和合规性要求。行业客户可以制定呼叫类别规则,以确定代理人是否遵守脚本或偏离脚本,这有助于代理人培训。最后,实时通话转录等功能可以帮助代理人遵守脚本,形成有效的代理人辅助用例,有助于提供更好的客户体验。同时,代理人会收到下一步最佳操作的提示,以快速解决客户查询或手头的问题,而主管可以收到主动警报,防止客户升级和流失。

现在让我们来看一个典型的亚马逊Transcribe Call Analytics架构。首先,从上传到亚马逊简单存储服务(简称S3)的呼叫记录开始。S3触发器用于启动亚马逊Step Function(一种编排服务)。该工作流将启动亚马逊Transcribe Call Analytics的转录作业,后者将分析文件并输出详细的逐字时间戳转录、情感分析、PII编辑,并检测客户呼叫的问题或地区、通话期间概述的任何行动项以及通话结果。生成的JSON呼叫分析数据随后被发送到亚马逊Comprehend(一种利用机器学习在文本中发现有价值的见解和联系的自然语言处理服务),以检测口语实体及其情感。Step Function工作流完成后,结果将存储回S3。从这里,可以通过两种方式分析数据。第一种方式是构建一个托管在亚马逊CloudFront的网站,这是稍后将讨论的呼叫后分析解决方案示例之一所提供的。第二种方式是使用亚马逊Athena(一种交互式查询服务,可轻松分析S3中的数据)。使用标准SQL,我们可以构建聚合分析或在商业智能工具(如亚马逊QuickSight或其他工具)中构建仪表板。此参考架构可通过亚马逊呼叫后分析示例项目快速部署。博客和CloudFormation模板可在屏幕左侧二维码链接中找到。

让我们看一下呼叫后分析项目部署的用户界面。客户服务是一切的核心。客户将选择提供最佳代表的供应商。Transcribe Call Analytics旨在为您提供最重要的数据和指标,以进行质量管理、改善客户体验,并识别代理人培训机会。使用Transcribe Call Analytics,您还可以在对话与预定义规则匹配时收到问题警报。例如,当提及”主管”一词时,我们也可以看到来电者和代理人的逐句情绪以及汇总情绪,您可以看到每个参与者讲话的时长,以及是否有任何口语中断。

在每个行业中,维护工作场所法规都是强制性的。Transcribe符合PCI、GDPR以及SOC 1、2和3合规性,支持自动编辑个人身份信息,如姓名、社会保险号和地址,还可以从音频录音中编辑这些信息。Transcribe Call Analytics还通过突出显示通话中的问题、行动和结果及其在逐句记录中的位置,对通话进行总结。

State Auto Insurance Company在9个业务领域提供保险,包括汽车、家庭和商业,为33个美国州提供服务。该公司的目标是更好地对待客户、为客户提供灵活性,并在多年后利用技术使代理人的工作更轻松。他们使用亚马逊Transcribe从数百万通电话中获取见解,因此,减少的呼叫量和效率提升估计为他们节省了80万美元的运营成本,同时也提高了用户体验。State Auto还使用Transcribe构建了15个机器学习模型,现在可以完成之前需要8到10名员工才能完成的工作。评估每周5,000次索赔呼叫后,State Auto只需20分钟即可为整个部门开启呼叫监听并利用现有模型获取见解。您可以在我们网站上的亚马逊Transcribe客户页面阅读客户案例研究,了解更多类似的成功案例。

现在让我们讨论一下医疗领域。从医生与患者的对话和医疗笔录到患者呼叫和远程医疗,每年都会产生超过15亿小时的医疗音频数据。目前还没有一种方便、准确、安全和可扩展的方式来真正释放这些音频中蕴含的见解。通过利用技术来挖掘这些信息,我们可以对其进行分析并用于推动更好的患者护理、工作流程效率,甚至改善医疗保健提供者的底线。

亚马逊Transcribe Medical支持美国英语的转录,并继续支持各种口音,包括带有中国和印度口音的英语。它为初级保健和专科护理领域提供转录专业知识,如家庭医学、内科、儿科和妇产科,还支持心脏病学、神经病学、妇科、儿科、肿瘤学、放射学和泌尿科等专科。Transcribe Medical符合HIPAA资格,并优先考虑患者数据安全和隐私。它是一项无状态服务,不存储输入音频,也不存储输出文本,转录仅在内存中处理,因此客户数据永远不会写入磁盘。用户可以完全控制自己的数据,并决定是否希望在本地环境或自我管理的云存储中存储转录文本。Transcribe Medical还支持流式传输和频道识别,以解锁远程医疗和实时听写等用例。

现在让我们看一个将Transcribe Medical与Amazon Comprehend Medical结合使用以提供完整转录分析的架构示例。首先,从连接到托管在CloudFront的网站的现场麦克风开始。该网站将麦克风数据直接发送到Transcribe Medical,并实时返回准确的转录文本。然后,转录文本被发送到Amazon Comprehend Medical,这是一项符合HIPAA资格的自然语言处理服务,使用经过预先训练的机器学习来理解和从医学文本(如处方、程序和诊断)中提取健康数据。Transcribe Medical的输出存储在S3中,可通过Amazon Athena和您选择的商业智能工具(如Amazon QuickSight)进行分析和可视化。这是基于开源医疗转录分析示例项目,相关资源可在屏幕左下角的二维码链接中找到。

现在让我们看一个演示,了解如何轻松地将Amazon Transcribe Medical与Amazon Comprehend Medical链接起来进行一些强大的分析…

亚马逊Transcribe是一款革命性的医疗保健应用程序,通过其符合HIPAA的平台为用户提供在线治疗师的虚拟访问。在服务超过200万人次交谈之后,Talkspace致力于打破围绕心理健康的障碍和偏见。该公司希望在亚马逊云科技上标准化其机器学习工作负载,以更好地了解客户需求、提高服务水平并为治疗师提供节省时间的工具,从而改善客户体验。由于节省时间的好处,在实施Transcribe Medical后,治疗师创建的笔记数量增加了20%。Cerner在其Digital Voice Scribe中使用Transcribe Medical API,可自动收听医生与患者的互动,从而节省时间并提高效率。

网络研讨会全面介绍了亚马逊Transcribe及其在媒体搜索和字幕、呼叫分析和临床文档记录等多个行业的应用。Christopher Lott阐述了Transcribe的核心功能,如自动语音识别、多种格式支持、语音转录的丰富功能(发音、大写、数字规范化等)、自动语言识别、自定义词汇和语言模型等。他还强调了Transcribe在隐私和安全方面的功能,如词汇过滤和个人身份信息(PII)编辑。

Christopher分享了Transcribe在媒体搜索、字幕和内容审核方面的用例,并展示了如何利用Transcribe Streaming为直播内容添加实时字幕。他还介绍了NASCAR等客户如何使用Transcribe进行字幕。

接下来,他探讨了Transcribe Call Analytics在呼叫中心的应用,包括实时转录、情绪分析、PII编辑等功能,以及State Auto Insurance等客户的成功案例。

在医疗领域,Christopher介绍了Transcribe Medical如何准确转录医学术语,并符合HIPAA等法规。他演示了将Transcribe Medical与Comprehend Medical结合使用的架构,并分享了Talkspace和Cerner等客户案例。

最后,Christopher总结了开始使用Transcribe的建议,包括构建概念验证、与亚马逊云科技解决方案架构师合作以及参加培训课程。整个演示全面阐释了Transcribe在不同行业的强大功能和应用案例。

总结

亚马逊 Transcribe 是一项全面托管的人工智能服务,利用深度学习技术准确高效地将语音转换为文本。它使企业能够从音频内容中提取有价值的见解,提高了各行业的无障碍性、参与度和合规性。

Transcribe 通过自动生成丰富的元数据、时间戳和字幕,简化了媒体搜索和字幕制作,提高了用户参与度和无障碍性。其实时转录功能,包括部分结果稳定化等特性,支持直播字幕。该服务还有助于内容审核,可检测和编辑不当或敏感内容。

在呼叫中心领域,Transcribe Call Analytics 提供实时和通话后分析,从中提取代理人绩效、情绪、问题和结果等见解。这有助于主管发现培训机会,改善客户体验。与商业智能工具集成后,它提供强大的分析和预测功能,同时通过编辑确保合规性。

在医疗保健领域,Transcribe Medical 能准确转录医学术语,支持各种专科和口音。与 Amazon Comprehend Medical 集成后,它可从医生和患者对话中提取见解,推动更好的患者护理、工作流程效率和底线改善,同时优先考虑数据安全和隐私。

凭借其可扩展性、准确性和丰富的功能集,Amazon Transcribe 使企业能够释放音频内容中蕴含的价值,推动创新,并提升跨多个行业的客户体验。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 – 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值