自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 问答 (44)
  • 收藏
  • 关注

原创 什么是α-β剪枝算法?

IBM的深蓝战胜国际象棋大师卡斯帕罗夫很大程度上要归功于α-β剪枝算法[2],那么什么是α-β剪枝算法呢?我们从极小-极大过程开始讲起。1. 极小-极大过程我们先看看人是如何下棋的。人在下棋时首先根据当前局面考虑若干总可能的走法,再对每种可能的走法考虑对方会如何走,再考虑自己会如何应对……高手会这样往前看很多步,根据最后的局面判断哪种走法是最优的。换句话说,高手会选择那种即使对方正确应对的情况下,己方依然占据最大优势的走法,而不是把希望寄托在对方犯错上。人类棋手的这种思考方法可以用一个“极小极大过程

2021-08-27 14:51:26 995

原创 Whisper的应用

分享一波Whisper的应用,感兴趣的朋友可以试一试。

2022-09-30 17:42:13 343

原创 【语音之家】AI产业沙龙—VoxSRC-22说话人识别挑战赛快商通方案介绍

厦门快商通Kriston AI Lab是在李海洲教授指导下,专注于智能语音处理、自然语音理解、人机对话系统等技术研究与应用的团队。Kriston AI团队在刚刚结束的VoxSRC-22说话人识别挑战赛中的赛道一、赛道二和赛道四共三个赛道均获得全球第二名的优异成绩。本次沙龙Kriston AI团队将介绍他们在闭集说话人验证、开集说话人验证和说话人日志方面的最新成果。

2022-09-30 11:11:25 463

原创 SH-SSS丨从人设到音色——基于说话人属性特征的语音合成

SH Symposium Series on Speech (SH SSS 2022) ,SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。 来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。

2022-09-29 10:59:45 4

原创 长文本口语语义理解技术系列③:待办抽取实践

最终,采用了三段式的训练顺序,先在人工标注训练集(train)上进行训练模型,然后在 pseudo label 数据集中继续训练,最终回到人工标注训练集(train)上进行 fine-tuning,在行动项识别任务上的取得了较好的效果。同时,为了减轻人工劳动,从庞杂的会议记录中提取重要的信息(比如议题、结论、待办事项等),存档为会议纪要,很多会议相关的自然语言处理 (Natural Language Processing, NLP) 任务被提出,希望机器可以辅助整理重要信息,这些任务中就包括智能待办,即。

2022-09-28 11:13:10 69

原创 SH-SSS丨从人设到音色——基于说话人属性特征的语音合成

本文提出基于人设,也就是说话人属性特征的信息,来合成语音,达到个性化的声音定制的目的。引入说话人属性特征的概念,使得面向有声小说等应用的声音定制化语音合成成为可能,用户可以设定或修改人物属性特征,从而操纵合成语音的声音特点。除了要求合成丰富多样的语音之外,这些应用还特别期望合成的声音特点符合人们对角色的人物背景设定、外貌特征等的预期。而对于有声小说等应用,虽然没有人物画面,但是人们依旧希望依据角色的人设特点生成合适的声音,如大叔音、少年音等。是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。

2022-09-27 10:35:01 184

原创 竞赛获奖系统解读:远场说话人确认中基于两阶段迁移学习解决域不匹配问题

作为Interspeech2022的赛事活动,远场说话人验证挑战赛 (FFSVC) 由昆山杜克大学、新加坡国立大学、南加州大学和希尔贝壳联合组织,主要关注极具挑战性的远场说话人确认任务。2020年举办的第一届FFSVC赛事主要关注多通道跨域说话人确认问题 [1]。今年第二届FFSVC赛事[2]考察单通道说话人确认的跨域问题,具体分为两个赛道,赛道一主要关注完全监督的说话人确认,其中允许使用VoxCeleb和FFSVC的数据作为训练集;赛道二考察半监督方法的远场说话人确认,具体来说只允许用VoxCeleb数据

2022-09-26 10:46:32 542 1

原创 Interspeech 2022丨火山语音7篇论文再次成功入选国际顶会

对于此,论文基于贝叶斯后验概率原理,将端到端估计的后验概率拆解成似然概率和“内部语言模型”概率乘积形式,目标是更好地估计“内部语言模型”,从而让模型更高效地与外部语言模型融合,进而提出两个“内部语言模型”的估计方法,分别是一次性静态上下文矢量学习方法以及基于轻量级神经网络动态上下文矢量学习方法,两种估计方法无需任何额外假设,在多种语料以及多种环境下验证了提出方法的有效性。基于此,该论文提出将对话历史作为 context 输入到流式RNN-T模型中,总结出几种不同的引入对话历史的方法和训练策略,

2022-09-23 11:03:00 360

原创 语音之家SOTA | 开源发布:SPEECHIO_ASR_ZH00002 鲁豫有约

数据集可直接在 leaderboard 中使用,方便SpeechIO 的读者以及厂商复现、核对评测结果,欢迎合理的修改建议和 Pull Request。SPEECHIO_ASR_ZH00000 :Leaderboard 调试集(经济、货币、金融)分发采用了商用的阿里云对象存储服务,大量的数据分发会对 SpeechIO 产生高额流量费用。格式1 metadata.tsv:包括音频路径,音频长度,文本标注等字段。SPEECHIO_ASR_ZH00001 场景:新闻联播。支持平台:Linux / MacOS。

2022-09-22 15:33:53 132

原创 【语音之家】AI产业沙龙—语音技术在国音智能的应用

由CCF语音对话与听觉专委会 、中国人工智能产业发展联盟(AIIA)评估组、国音智能、语音之家、北京希尔贝壳科技有限公司共同主办的【语音之家】AI产业沙龙—语音技术在国音智能的应用,将于2022年9月27日18:30-20:50线上直播。

2022-09-22 11:53:25 23

原创 Interspeech论文介绍 | OpenASR21挑战赛THUEE队伍系统描述

本文介绍清华大学语音与音频技术实验室(SATLab)Interspeech 2022录用论文. 在去年的IARPA OpenASR21低资源语音识别挑战赛中,来自SATLab实验室参赛队伍THUEE在中取得了第一名的优秀成绩。THUEE队伍在受限赛道中使用了基于Kaldi的CNN-TDNN-F和CNN-TDNN-F-A系统,在半受限赛道中则使用了wav2vec 2.0 XLSR-53预训练模型。

2022-09-22 11:14:11 223

原创 【语音之家】AI产业沙龙—语音技术在国音智能的应用

【语音之家】AI产业沙龙—语音技术在国音智能的应用,将于2022年9月27日18:30-20:50线上直播。

2022-09-22 10:44:44 293

原创 语音之家SOTA | TIOBE 滚动测试报 2021.10

发现 [直播带货 李佳琪薇娅] [直播王者荣耀 张大仙骚白] [老罗语录] 三个场景测试集标注错误,全面检查&修正;,为阿里云新算法的试用版;测试集发布:[新闻联播] 测试集已公开发布,后续滚动测试不会每期都覆盖该场景。测试:全厂商 × 全场景 滚动刷新测试。测试:全厂商 × 全场景 滚动刷新测试。测试:全厂商 × 全场景 滚动刷新测试。测试:全厂商 × 全场景 滚动刷新测试。测试:全厂商 × 全场景 滚动刷新测试。测试:全厂商 × 全场景 滚动刷新测试。测试:全厂商 × 全场景 滚动刷新测试。

2022-09-21 16:30:52 111

原创 长文本口语语义理解技术系列②:关键词抽取实践

为了帮助用户提升信息获取及信息加工的效率,阿里巴巴达摩院语音实验室的口语语言处理团队实践了一系列针对音视频转写结果的长文本语义理解能力。

2022-09-20 14:50:18 131

原创 长文本口语语义理解技术系列①:段落分割实践

为了帮助用户提升信息获取及信息加工的效率,阿里巴巴达摩院语音实验室的口语语言处理团队实践了一系列针对音视频转写结果的长文本语义理解能力。本文主要围绕其中的信息结构化段落分割相关能力进行介绍。

2022-09-20 14:46:32 112

原创 语音之家SOTA | 同声传译现场 时政

本类素材,源语言说话人的音量一般会被压制得非常低,可听见,但听不清内容,从语音识别的角度来讲更像是一种噪声。这种人声噪声,对频谱造成的干扰比一般噪声要复杂得多,对语音系统的挑战也更大。内容上,本期测试内容很简单,主要是一些时政新闻中的常见词汇和话题。本场景为英文到中文的同传现场,场景目标是识别中文内容,由标注员负责切分并标注中文同传声音的片段。讯飞和阿里的引擎对低音量灵敏且对英文比较灵敏,经常识别出零散的英文乱码词汇,错误率较高。同传室,制作棚,同传人员周边安静,无噪声。组织语言常见卡顿,重复。

2022-09-19 16:19:15 82

原创 Interspeech2022论文解读 | LODR:一种更好、更轻量的语言模型融合新方式

本文介绍清华大学语音处理与机器智能实验室(Speech Processing and Machine Learning Intelligence, SPMI)与美团的联合工作:为端到端ASR(Automatic Speech Recognition)提出一种性能更好、解码更轻量的语言模型融合方式——LODR。该工作已被语音领域的国际会议Interspeech 2022接收,论文的作者是郑华焕、安柯宇、欧智坚、黄辰、丁科、万广鲁。

2022-09-19 15:49:27 116

原创 语音之家SOTA|TIOBE 场景测试:华语大学生辩论赛

讯飞目前被低估(听写服务场景匹配差),转写服务接入调试中,详见(SOTA)YouTube 爬取,华语大学生辩论世界杯,现场视频,原始时长约2小时。现代的商业语音识别引擎面对快语速场景时的表现,相比传统技术更加稳定鲁棒。本场景会进行定期重测(每3个月),关注最新滚动测试报告查看最新结果。辩题为:大学生兴趣爱好、专业能力培养、道路选择。大学生辩论赛队员,主持人,致辞嘉宾等。辩论赛吐字清晰,半备稿,语言较流畅。辩论赛现场,室内场馆会场,有观众。场景测试:华语大学生辩论赛。场景:华语大学生辩论赛。

2022-09-16 18:43:04 110

原创 【语音之家】AI产业沙龙—如何应用k2开发语音识别系统

将于2022年9月22日19:00-20:35线上直播

2022-09-16 18:30:06 69

原创 《WeNet语音识别实战》答疑回顾(四)

我训练Aishell-1模型,训练到第10个左右的epoch,loss就会飞掉,可能是什么原因呀?

2022-09-15 14:52:25 205

原创 HIMIA 声纹识别&唤醒词识别实战 | 双开课

智能语音市场处于大幅增长前期,逐渐成熟的语音技术使得智能语音的商业化落地成为可能。随着智能音箱以及智能语音交互的设备不断落地,声纹识别的技术成为人体物理特征验证的一项重要语音技术。未来智能语音交互的设备都将具备声纹识别功能、借此确认用户身份,只有自己的声纹才可以启动购物、签字、控制等。

2022-09-14 17:36:58 188

原创 语音之家SOTA | TIOBE 场景测试:电台节目 张震鬼故事

YouTube 抓取“张震鬼故事” 往期节目,原始音频约3小时。

2022-09-14 13:54:12 37

原创 开放丨Kaldi语音识别理论与实践

《Kaldi语音识别理论与实践》课程,由清华大学语音识别实验室讲师教研教学,如果你想独立构造一套基础的语音识别系统, 或者你是一名零基础的语音技术初学者,本门课程是对Kaldi工具分解式学习,适合语音小白入门学习

2022-09-09 12:04:53 259

转载 声学的未来三十年

这里结合最近几年的思考,谈谈未来三十年里,声学方向的主要机会。着重介绍我熟悉的电声学、通信声学、心理声学和机器听觉。

2022-09-08 17:36:53 27

原创 SH-SSS丨CUSIDE:分块、模拟未来、解码的流式语音识别新框架

为了在不损失识别精度的前提下实现低延迟语音识别,我们提出了一种基于分块、预测未来、解码(Chunking, Simulating future context and Decoding,CUSIDE)的低延迟语音识别框架。在该模型中,模型使用模拟的未来帧而不是真实未来帧作为未来信息,由此可以免除对未来信息的依赖,减小识别延迟。...

2022-08-26 18:10:13 482

原创 SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征

SH Symposium Series on Speech (SH SSS 2022) SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台。 来自AI语音技术领域的优秀论文作者、专家学者,用最精炼的表达来解读最新的高质量论文。......

2022-08-11 17:04:29 619

原创 《WeNet语音识别实战》答疑回顾(三)

WeNet是目前语音识别最流行的开源工具之一,为搭建语音识别系统提供一套高性能易部署的工业级解决方案,是学习端到端语音识别最佳实践项目。

2022-08-08 14:54:32 709

转载 更好的中英文混合语音识别系统

语音作为人与人交流的直接媒介,承载着人们日常生活中的大部分信息来源。基于近年来通信技术与物联网的发展,各式各样的语音助手、智能家具等软硬件层出不穷,人机交互技术的发展及人们对其需求日益攀升。语音识别技术在人机交互上扮演着重要的角色,任何因其导致的识别错误都可能在人机交互系统中的各个模块上传播,并最终导致交互失败。因此针对语音识别的研究具有重要的学术价值和应用价值。...

2022-08-02 18:24:47 236

转载 论文推介:Glow-WaveGAN 2—高质量的零资源语音合成与转换

当前包括语音合成和语音转换在内的语音生成任务需要目标说话人一定规模的数据参与到模型的训练或者参数更新过程中,而基于零资源(zero-shot)的语音生成任务旨在利用一句话生成系统未见过的目标说话人的语音,具有更加广泛的应用价值。在零资源语音生成场景中,声学模型和声码器两个阶段中都存在着适应新说话人的挑战。...

2022-07-29 17:02:41 115

原创 热词增强和热词唤醒在实现上的区别是什么?

热词增强是语音识别中的一项技术,它对一些特定场景中特定名词做实时的定向增强,一般会部署在算力比较强劲的端侧。热词唤醒即为Hot Word或者Wake-up Word,是一个轻量级的关键词检测,通常部署在端侧的设备上,如音响、手机等。它占用资源很小,网络规模一般在几十k到几百k。...

2022-07-28 16:25:30 169

原创 现在语音识别主流的方案是什么?主流的落地方案又是什么呢?

目前开源语音识别的主流的方案有Kaldi、 K2、PaddleSpeech、ESPnet 、WeNet。

2022-07-28 16:22:12 371

原创 【语音之家】AI产业沙龙—AI语音赋能产业数字化新场景

由CCF语音对话与听觉专委会 、中国人工智能产业发展联盟(AIIA)评估组 、普强信息技术(北京)有限公司、语音之家、北京希尔贝壳科技有限公司共同主办的【语音之家】AI产业沙龙—AI语音赋能产业数字化新场景,将于2022年7月28日14:30—15:15线上直播。......

2022-07-27 18:03:25 76

原创 《WeNet语音识别实战》答疑回顾(二)

WeNet的核心目标是为语音识别提供一套高性能易部署的工业级解决方案,完全聚焦于语音识别任务,同时对于常用的语音识别应用场景提出了一套效果极佳的端到端解决方案,而不去提供各类模型方案的大而全的集合。正因为这一明确的设计目标,WeNet在保持简洁易用的同时,在语音识别正确率、实时率和延时性都有着非常出色表现,可以直接在工业场景中落地应用。

2022-07-26 22:27:26 384

转载 论文分享 | 科大讯飞研究院获颁ACL 2022人机交互研讨会最佳论文

由国际计算语言学学会主办的ACL(Annual Meeting of the Association for Computational Linguistics)国际会议,是全世界规模最大、最全面的计算语言学及其应用方面的顶级会议,在自然语言处理领域享有国际性的学术影响力。...

2022-07-22 13:55:03 61

转载 论文推介:CaTT-KWS—基于级联Transducer-Transformer的多阶段自定义关键词识别框架

关键词识别(Keyword Spotting,KWS)旨在从连续的音频流中检测特定的关键词,被广泛应用于各种端侧设备中作为语音交互的入口组件,例如智能家居的设备唤醒(WuW)和设备操控(Comand&Control),智能座舱的人车语音交互。由于通常部署平台的计算资源有限,KWS技术要求较小的模型尺寸与较低的计算量。另外,模型的推理速度还需要满足实际应用中对于触发时延的要求。自定义关键词识别(Customized Keyword Spotting)可以允许用户自己定义检测的关键词,且无需重新训练模型,可以快

2022-07-20 18:20:15 91

转载 端到端语音识别应用基于前缀树的热词技术

在深度学习火爆的今天,大规模数据下训练的大规模模型在线上任务中日益常见。随着大模型效果的提升,随之带来了一些使用上的不便。通常情况下,大模型需要基于大量语料、文本训练,迭代周期长。且对于特定场景下词语在训练语料中出现次数不多,常常拟合不好。本文介绍的是关键词即特定场景语料,在序列到序列任务中通过构建状态转移自动机的方法改善最终效果的方案。...

2022-07-19 15:34:57 81

转载 论文推介:语音指令识别中的最小序列混淆错误准则

作为语音识别领域的一项典型任务,语音指令识别(Speech Command Recognition,SCR)是一种从连续的音频流中检测出预定义的命令的技术。SCR技术已经被广泛应用于计算资源受限的端侧设备上以实现用户对设备的语音操控,达到解放双手的目的。然而在实际应用中,由于端侧设备上部署的模型大小和算力受限,模型的能力和云端模型无法相比,发音相近的指令词之间容易发生混淆,这会严重影响用户体验。比如说在家居场景中,对于空调的温度调节,不同温度数字之间的差异可能只有一个字,再比如“制冷模式”“制热模式”两个指

2022-07-14 14:48:28 64

原创 《WeNet语音识别实战》答疑回顾(一)

WeNet是目前工业界最流行的开源端到端语音识别系统,也是学习端到端语音识别的最佳实践项目(代码运算)。语音识别的学习者和从业者,可以通过学习课程高效全面的掌握Wenet的基本原理和实战方法,降低自己摸索的成本,快速构建出高性能的语音识别系统。 ...

2022-07-12 16:31:35 216

原创 学了WeNet可以做点什么呢?

wenet这个工具包本身的定位不是提供一些基础的组件让大家去实践一些新的算法,它最大的特点是讲究落地性,它会总结并集成目前工业界最有效的一些实践的方式,相当于帮大家做了筛选,直接跳过一些坑。...

2022-07-04 17:21:55 647

原创 现在语音识别落地有比较难的点吗?

目前来说,语音识别落地的难点有中英混、方言、预训练模型。

2022-07-04 16:53:20 451

空空如也

请问cmake -B build的时候报这个错,大家有遇到的吗?

2022-08-03

想着用自己电脑训模型,理论上可以吗?

2022-08-03

stage1这个报错是为什么? sudo了一下,conda,pytorch环境都已经按要求配置好了

2022-08-03

WeNetspeech数据集的采集处理脚本代码,有没有开源呢?能否用这个代码自己去采集数据?

2022-08-03

用了aishell的数据集报这种问题的原因是什么?

2022-08-03

模型测试时,使用的average model,这是什么方法,有没有参考资料。

2022-08-03

如果想要在WeNet放出来的checkpoint模型u2pp_conformer_exp上增量训练,需要怎么做?

2022-08-03

aishell example运行stage 4,遇到这个报错,请问是什么问题?

2022-08-03

单并发,用的WeNetspeech离线大模型以及libtorch1.10,rescore和search都在500ms+,,为什么这么慢呢?一般TLG有多大呀?语言模型大小会很影响速度的吧?

2022-08-02

实战1课程AIshell-1模型训练,到stage4 neural network training训练的时候报了这个runtime 的错,是什么原因?

2022-08-02

这里用conv2d做降采样的原理是什么?为什么用两个conv2d,第一次conv2d通道是从1->odim,第二次conv2d从odim->odim?第一次通道数为什么要改变?

2022-08-02

最后一个模型量化,在x86上也是有必要的吗?速度会提升多少?

2022-08-02

sort是让一个batch内的音频按顺序排列吗?

2022-08-02

conf中shuffle和sort为什么不冲突,而且注解说sort size必须小于shuffle size

2022-08-01

目前如果用WeNet,如果要使用一台服务器支持100个并发,这样需要什么要配置才能满足要求?

2022-08-01

一般这种websocket 如何做高并发,有没有好的解决方案呢

2022-08-01

我们测试websocket server 在高并发连接情况下出现连接慢的情况,这个是同时100个ws连接下出现的。这个有什么好的解决办法吗?

2022-08-01

热词输出带上 context 的标志了,是不是通过参数可以控制?还是要改下代码,去掉?

2022-08-01

这个热词文件,有行数限制么?比如:3万行,可以么?

2022-08-01

热词标记,但是最后没有实现是因为什么?

2022-08-01

web socket server,用的onnx的模型,加上热词后,score从3-10都试了下,没有起作用。onnx模型,是从非流模型导出的,会是这个原因吗?

2022-08-01

WeNet进行一些简单的优化rtf大概能到多少?

2022-08-01

为什么这里算概率一定要把这些全部加起来,为什么不能像一个一个地算,求出最大概率为声学对齐结果呢?

2022-07-22

不把16k降到8k维护一套8k的是因为16k准确率高吗?如果有存储需求16k意味着存的音频占的硬盘翻倍了,rtf也会下降吧

2022-07-22

一般外呼场景都是8k采样率的录音, 假设模型都一样 ,8k和16k不同采样率训练出的模型准确率会有差距吗?

2022-07-22

web socket server 配置了 热词的文本文件后,如果有追加或更新,需要重启服务么?还是说,自动就生效了?

2022-07-22

在流式识别中,如何解决背景噪音带来的干扰?

2022-07-22

web socket server支持语言模型吗?

2022-07-22

-context_score 这个值是什么范围?一般多少合适?

2022-07-22

web socket server 怎么启用热词?

2022-07-20

热词的文件是什么结构?

2022-07-20

CTC的尖峰效应,是不是可以理解为:目标函数约束前面的神经网络,将一个词的多帧信息,集中到了'尖峰'这一帧?

2022-07-20

WeNet 转 onnx 的时候要拆成几个模型导出,可以合并为一个吗?

2022-07-19

目前WeNet的时间戳方案不太准确(一是静音的判断不准确,二是字与字的时间戳是连着的,无论中间静音有多大),请问有什么方案可以提高时间戳的准确度吗?

2022-07-19

WeNet有什么独特的地方吗?比如流识别方面?

2022-07-19

当前最新的比较好的算法好像也就是 conformer了,还有比这更好的吗,如果找不到更好的算法,应该从哪些方面来优化预训练模型呢?

2022-07-19

端到端模型对于领域文本优化有什么方案可以在实际应用中使用的?

2022-07-19

如果想充分理解一个预训练模型的算法,比如aishell预训练模型,应该从哪入手?

2022-07-19

请问现在工业上用传统的技术多还是端到端的技术多啊?

2022-07-05

热词增强和热词唤醒在实现上的区别是什么?

2022-07-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除