前言
阿里云智能于6月1日发布通义听悟,并面向公众开放公测。阿里云智能CTO周靖人表示,通义听悟是依托通义千问大模型和音视频AI模型的AI助手,可进行实时语音识别,实现对话的实时记录、多语言翻译、发言总结、提取PPT、内容规整等。特别适合职场开会、上课复习、媒体采访、分析师访谈、新媒体工作者整理视频、外语交流等诸多知识类场景。
据我所了解,通义听悟是通义家族第一个面向大众消费者端的应用产品。在多媒体时代,人们每天记录、分享和观看大量的音频视频内容,通义听悟通过前沿的语音AI技术,能够准确地将音频视频内容转写为易读的文字。根据现场演示,通义听悟可高准确度生成会议记录、区分不同发言人,还可以在一秒内给音视频划分章节并形成摘要、总结全文 及每个发言人的观点、整理关注重点和待办事项。此外,大模型一键提取PPT、针对多个音视频内容向AI提问、概括特定段落等功能也将于近期上线。随着大模型能力的飞速进步,通义听悟能为用户提供更多先进的能力,帮助用户梳理和挖掘出音视频内容中的信息价值,并将所有的记录和收集都沉淀为知识资产,随时供用户回顾和利用。
通义听悟另一显著优势是,通义听悟的小程序版后续将在钉钉、阿里云盘、夸克等阿里旗下产品中推出,并与这些产品内部的场景功能及音视频内容融会贯通。公测期间注册的用户后续还将获得更大的阿里云盘存储空间,在云盘内在线播放视频时可自动出字幕。
周靖人介绍,通义听悟集成了阿里最先进的语音和语言技术。其内置阿里新一代工业级语音识别模型,能对10人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频内容进行摘要总结帮助用户记录重要会议的要点,捕捉讲座中的精彩知识,整理访谈中的关键信息,为用户提供更深入、更高效的智能服务。
据了解,通义听悟听悟除个人版本外,还有企业级应用,通义听悟企业版以在阿里内部广泛使用。帮助使用者减少了大量会议记录和整理的工作广受好评。