自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(299)
  • 问答 (44)
  • 收藏
  • 关注

原创 WeNet语音识别实战

音之家-AI工匠学堂推出《WeNet语音识别实战》, WeNet是目前工业界最流行的开源端到端语音识别系统之一,也是学习端到端语音识别的最佳实践项目。语音识别的学习者和从业者,可以通过学习这门课程高效全面的掌握WeNet的基本原理和实战方法,降低自己摸索的成本,快速构建出高性能的语音识别系统。...

2022-06-21 15:06:58 5744 3

原创 迈向语音大模型的平权之路

什么样的事情最有价值?。把 1B 级别的大模型优化到和 200M级别模型相同水平的 RTF 同时 WER 维持代差,难道不是一件该令人亢奋的事情吗?在两个月前的年度总结中,WeNet 社区已经开始向着更“大”更“强”迈进,去全面拥抱语音大模型的无限未来。然而,横在语音大模型面前的还有两座必须翻越的山峰:和。经过 2023 年下半年的努力,WeNet 已经翻越了第一座山峰,达成了。

2024-05-22 13:48:28 615

原创 GPT-4o, 语音的 ChatGPT 时刻终于来了!

千呼万唤始出来,语音的 ChatGPT 时刻终于来了!当 ChatGPT 引爆世界后,语音的从业者就一直在期待、想象、实验、推进基于 LLM 的语音交互应用和技术,OpenAI 自己也推出了 Whisper 识别、合成的语音模型,但之前更多的是持续性的改进和小的创新,远未有当初 ChatGPT 那样颠覆性的体验和效果。今天,仍然是 OpenAI,AI 行业的风向标,他来了,带着 GPT-4o 来了!GPT-4o 中有很多方面的改进,然而,最大最颠覆性的,还是在语音交互。

2024-05-20 17:32:17 673

原创 Codec-SUPERB @ SLT 2024: 编解码器语音处理通用性能基准

神经音频编解码器最初被引入是为了将音频数据压缩成紧凑的代码,以减少传输延迟。最近,研究人员发现编解码器作为将连续音频转换为离散代码的合适分词器的潜力,这些代码可以用来开发音频语言模型(LM)。神经音频编解码器在最小化数据传输延迟和作为分词器的双重角色突显了其关键重要性。近年来,编解码模型取得了重大进展。在过去三年内,开发了许多高性能的神经音频编解码器。理想的神经音频编解码模型应该保存内容、副语言信息、说话者和音频信息。

2024-05-16 11:10:06 933

原创 浅谈音频鉴黄技术

基于音频的鉴黄技术包括了基于内容的音频分类算法[7]以及基于声音事件检测的算法[8]。基于内容的音频检测常依赖于诸如梅尔倒谱系数(MFCC)等特性来实现音频的初步文本化,再利用文本分类模型来判断音频内容。这种方法的研究重心主要在于两个子任务:音频文本化,即语音识别和文本分类。如麻旭妍[9]提出了一种结合音频分类技术和模式匹配的方法。在此方法中,首先进行滤波、预处理和端点检测,以实现部分音频的分类与处理,从而进一步提纯音频,降低杂质并优化运算时空。

2024-05-14 14:59:04 776 1

原创 IJCAI 2024|第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题

聚焦于语音深度鉴伪识别领域,旨在激发全球算法爱好者和专家的创新潜力,共同应对由人工智能技术发展带来的挑战。

2024-05-13 14:33:52 118

原创 ICME2024 | 基于半监督对比学习的表现力语音合成

在单一语种的中文数据集以及多语种的中英混合的数据集上,大量实验表明我们提出的方法可以实现语音中风格、情感、音色、语种的解耦与重组,为目标说话人合成自然、高表现力的双语多风格多情感语音。如表1所示,提出的方法取得了最优的自然度,最高的情感、音色、风格相似度,反映出其有效地解耦了情感、音色、风格,并实现了重组。尽管之前的方案在中文上为目标说话人合成了极具表现力的语音,但它在英文上的表现不佳,发音错误较多,且两阶段的系统存在级联误差,影响了合成语音的自然度。针对这些问题,在本文中,我们进一步简化了框架,

2024-05-07 13:59:31 747

原创 WhisperCLI-本地部署语音识别系统;Mis开源LLM推理平台;Dokploy-开源版Vercel;Mem-大规模知识图谱

近日,一项旨在为AI设备构建开源生态系统的尝试引起了大众的广泛关注。它的目标是通过提供一个开放的平台,使得全球的开发者和研究人员可以更好地进行AI设备的开发和研究。项目的开源性质将有助于推动技术的创新,通过全球开发者的共同努力,可以推动AI设备的技术进步。Moondream 2模型的这一创新应用,使得AI技术的使用更加便捷和高效,为未来的AI边缘计算开辟了新的可能。最新的研究论文展示,通过新的装包格式FP6-LLM,可以在不引发常见不稳定性或由于尝试不当引发的训练速度下降的情况下,实现全张量核心的利用。

2024-05-06 17:57:31 965 3

原创 苹果AI终于来了!从2.7到30亿四款大模型代码全开源,AI技术持续“狂飙”|钛媒体AGI

还使用了与Meta的Llama相同的分词器,以确保实验的一致性。苹果在论文中还表示,与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,苹果发布的版本包含了在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。虽然最小的参数只有2.7亿,但苹果使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在内的公共数据集,一共约1.8万亿tokens数据进行了预训练,这也是其能以小参数表现出超强性能的主要原因之一。

2024-04-26 16:20:40 949

原创 CHiME-8多通道远场语音识别Baseline介绍

语音领域每年都有很多比赛,每个比赛都有自己的侧重点,其中CHiME系列比赛的侧重点就是多通道远场语音识别,与其他的语音识别比赛有所区别的是,CHiME提供分布式麦克风和麦克风阵列数据,这样可以选择合适的前端算法以降低识别的WER,著名的也是在这个比赛中提出的。CHiME比赛今年已经是第8届了,今天我们一起看看下官方提供的基线系统。自从CHiME7之后,麦克风阵列的几何结构信息就不能被用于前端语音增强,因此一些传统的方法无法使用。

2024-04-26 16:15:44 988 1

原创 融合ChatGPT+DALL·E 3,这模型该有多强?

香港中文大学终身教授贾佳亚团队提出多模态模型更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,堪称王炸。Mini-Gemini还提供了2B小杯到34B的超大杯,最强模型在多个指标上相比谷歌的Gemini Pro甚至GPT-4V都不遑多让。目前,Mini-Gemini,登上了PaperWithCode热榜。,超会玩梗,一起来体验下!

2024-04-17 14:40:52 1083

原创 IEEE TASLP | METTS:基于跨说话人跨语种情感迁移的多语种情感语音合成

CVAE的条件是多语种的文本,建立与文本相关的情感表达,实现语种特定的情感建模。此外,METTS-REF的情感相似度优于METTS-ID,证明直接迁移参考音频的情感会带来与参考音频更高的情感相似度。可以看到,按照情感染色时,中文的情感聚类较好,说明其有效地捕捉了情感信息。在跨语种合成语音时,说话人原始语种的发音方式会影响“第二语言”的表达,导致外语口音问题,尤其在情感表达复杂的情境下更为严重。然而,人类情感表达丰富多样,因此合成多样化的情感语音并灵活控制生成语音的情感是一项巨大的挑战。

2024-04-17 14:17:48 809

原创 全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类

这次的Claude 3,更是整了个大的,一次就发了三个模型——Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高。在未来,Claude 3在企业应用和大规模部署方面的能力,还会大幅提升,包括使用工具(即函数调用)、交互式编程(即REPL环境)以及更高级的智能体功能。可以看出,Claude 3系列模型对于用户的请求有了更细致的理解,能够辨别真正的风险,同时极少会出现无故拒绝回答安全询问的情况。而这一次的Claude 3系列,已经在这方面取得了显著改进。

2024-03-29 17:24:38 672

原创 ​Edge-TTS:微软推出的,免费、开源、支持多种中文语音语色的AI工具

edge-tts --voice zh-CN-YunyangNeural --text "大家好,欢迎关注语音之家,语音之家是一个助理AI语音开发者的社区。查询结果中的Gender为声音的性别,Name为声音的名字,如zh-CN-YunjianNeural,其中zh表示语言,CN表示国家或地区,可以根据需求选择不同的声音。它接受与 edge-tts 选项相同的参数。此外,必须使用 --rate=-50% 而不是 --rate -50%(注意等号的缺失),否则 -50% 将被解释为另一个参数。

2024-03-22 15:30:00 2294

原创 全球首个AI程序员诞生,码农饭碗一夜被砸!10块IOI金牌华人团队震撼打造,996写代码训练模型

从为期8周的训练营毕业,然后找到一份价值 20 万美元的工作,这样的日子已经一去不复返了。它首先使用了Shell Deon CLS存储库,然后阅读了自述文件和编辑器,了解了子代码,然后,它返回Shell,安装了所需要的依赖项。接下来,就是献技的时刻,Devin克隆了GitHub库,了解如何使用readme运行,设置好所需pip的要求,查看所有的脚本语言,并开始运行。众所周知,编程竞赛的核心就是要迅速准确地解决编程难题,强调快速解决复杂问题的能力,而且对于创新的解决问题的思路有着很高的要求。

2024-03-21 11:11:22 757

原创 文本到语音合成系统 ,开源!

TTS(Text To Speech,文本转语音)是一种将文字转换为语音的技术,它可以将计算机程序生成的文字转化为人类可以听懂的声音。TTS技术利用自然语言处理和语音合成技术,将文本转化为语音,并可以通过音频播放设备输出语音。

2024-03-15 14:27:20 288

原创 VideoDubber时长可控的视频配音方法

本次分享由中国人民大学、微软亚洲研究院联合投稿于AAAI 2023的一篇专门为视频配音任务定制的机器翻译的工作《VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing》。这个工作将电影或电视节目中的原始语音翻译成目标语言。

2024-03-11 15:07:19 803

原创 2.8k star! 用开源免费的edge-tts平替科大讯飞的语音合成服务

edge-tts是github上的一个开源项目,可以免费将文本转为语音,别看它只有2.8k star,替代科大讯飞的收费TTS服务完全没问题,因为这个项目实际是调用的微软edge的在线语音合成服务,支持40多种语言,300多种声音,效果毋容置疑。

2024-03-04 15:44:40 1006

原创 ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

为促进驾驶场景中语音处理和识别研究,在ISCSLP 2022上成功举办智能驾驶座舱语音识别挑战 (ICSRC)的基础上,西工大音频语音与语言处理研究组 (ASLP@NPU)联合理想汽车、希尔贝壳、WeNet社区、字节、微软、天津大学、南洋理工大学以及中国信息通信研究院等多家单位在ICASSP2024上推出了车载多通道语音识别挑战赛(ICMC-ASR)。

2024-03-01 14:24:30 1080

原创 多模态说话人开源项目3D-Speaker

3D-Speaker是通义实验室语音团队贡献的一个结合了声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业级模型,训练代码和推理代码。

2024-02-29 11:04:07 1505

原创 论文分享|AAAI2024 基于异构图上下文建模实现对话语音合成的情感渲染

本次分享内蒙古大学S2LAB与字节跳动、港中文(深圳)合作,关于情感对话语音合成的工作《Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling 》。该工作利用异构图实现情感上下文建模机制,生成符合对话语境的情感语音,实现了对话语音合成的情感渲染。该工作被AAAI 2024录用。

2024-02-28 14:55:25 1092

原创 优化回声消除过程:AEC Challenge冠军方案线性部分解析

我们知道在WebRTC的AEC中包含两个部分,参考WebRTC AEC 流程解析,分别是线性部分,用于消除线性回声;非线性部分,用于消除硬件等引入的非线性部分。这里的线性部分采用了分块频域自适应滤波器(Partitioned Block Frequency Domain Adaptive Filter, PBFDAF),这个滤波器在Speex中称为分块频域波器(Multidelayblock frequency Filter,MDF), 其实它们原理是一样的,都是基于NLMS的自适应滤波器。

2024-02-27 14:59:08 824

原创 ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

视听语音识别(Audio-visual speech recognition, AVSR)是指结合音频和视频信息对语音进行识别的技术。当前,语音识别(ASR)系统在准确性在某些场景下已经达到与人类相媲美的水平。然而在复杂声学环境或远场拾音场景,如多人会议中,ASR系统的性能可能会受到背景噪音、混响和多人说话的重叠的干扰而严重下降。基于视频的视觉语音识别(VSR)系统通常不会受到声学环境的干扰。

2024-02-26 17:32:18 1217

原创 CHiME丨​MMCSG(智能眼镜多模态对话)

CHiME 挑战赛已经正式开启,今天分享下 CHiME 的子任务MMCSG(智能眼镜多模态对话),欢迎大家投稿报名!

2024-02-23 14:00:23 663

原创 HBK声学与振动 | 助听器测试

高质量的助听器能让有听力障碍的用户轻松自如地进行交流。我们的头和躯干模拟器、耳模拟器和人工乳突为优化音频质量和清晰度提供了全面的测试解决方案。

2024-02-22 14:15:42 132

原创 解读OpenAI Sora文生视频技术原理

OpenAI Sora文生视频(图像看作单帧视频)一放出就炸翻整个AI 圈,也是ChatGPT掀起GenAI热潮时隔一年后,OpenAI再次史诗级的更新。OpenAI 随后公布的技术综述[文献1],难掩其勃勃雄心:视频生成模型作为世界模拟器。

2024-02-21 15:37:08 997

原创 AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

Sora突破之后的突破又来了!语音初创公司ElevenLabs放大招,直接用AI给Sora经典视频完成了配音。网友惊呼离AI完全生成电影又近了一步。

2024-02-20 10:57:00 992

原创 WhisperFusion:具有超低延迟无缝对话功能的AI系统

WhisperFusion 基于 WhisperLive 和 WhisperSpeech 的功能而构建,在实时语音到文本管道之上集成了大型语言模型 Mistral (LLM)。

2024-02-19 15:05:25 1039 1

原创 工程经验分享 Incremental FastPitch

分享 NVIDIA 基于 GPU 的 TTS 解决方案介绍。

2024-01-30 16:23:57 745

原创 WhisperBot:整合了Mistral大型语言模型的实时语音转文本系统

欢迎来到 WhisperBot。WhisperBot 基于 WhisperLive 和 WhisperSpeech 的功能而构建,在实时语音到文本管道之上集成了大型语言模型 Mistral (LLM)。

2024-01-29 14:53:52 1342 1

原创 GPT-SoVits: 上线两天获得了1.4k star的开源声音克隆项目,1分钟语音训练TTS模型

近期,RVC变声器创始人 (GitHub昵称:RVC-Boss)开源了一款跨语言音色克隆项目 GPT-SoVITS。项目一上线就引来了互联网大佬和博主的好评推荐,不到两天时间就已经在GitHub上获得了1.4k Star量。

2024-01-24 14:38:10 3595 2

原创 细数语音识别中的几个former

随着Transformer在人工智能领域掀起了一轮技术革命,越来越多的领域开始使用基于Transformer的网络结构。目前在语音识别领域中,Tranformer已经取代了传统ASR建模方式。近几年关于ASR的研究工作很多都是基于Transformer的改进,本文将介绍其中应用较为广泛的几个former架构。

2024-01-23 11:40:42 1644

原创 2024年,AI大模型有哪些新看点?

自ChatGPT-4问世以来,过去的大半年中,我们虽然没有在ChatGPT发布一周年之际等来“ChatGPT-5”,但围绕ChatGPT,仍有不少新看点。其中的一些引发我们对人工智能(AI)与人的关系进行新的思考,另一些则为AI的发展和安全带来新的争论。

2024-01-22 16:55:16 1324

原创 音乐人声分离工具:极简的人声和背景音乐分离工具

这是一个极简的人声和背景音乐分离工具,本地化网页操作,无需连接外网,使用 2stems/4stems/5stems 模型。

2024-01-19 10:51:27 1202

原创 又快又好! 基于Consistency Model的一步采样歌声转换模型CoMoSVC已开源

在2023年,AI虚拟歌手如AI孙燕姿等已经引起了广泛的关注,而大多数应用都是基于开源框架SoVITS。最近,香港科技大学和微软亚洲研究院推出了一种基于Consistency Model的歌声转换系统CoMoSVC,它在歌声转换速度上与基于Flow的SoVITS系统相媲美,但在自然度和相似度方面大幅超越了原有模型。它的MOS评分(满分5分)比基于Flow的SoVITS系统高出了1分,同时也达到或超过了基于多步采样Diffusion Model的评分。

2024-01-18 16:06:41 598

原创 最强开源中英双语大模型发布,340亿参数超越Llama2-70B !

未来,FlagScale 将继续保持与上游项目 Megatron-LM 最新代码同步,引入更多定制功能,融合最新的分布式训练与推理技术以及主流大模型、支持异构AI硬件,力图构建一个通用、便捷、高效的分布式大模型训练推理框架,满足不同规模和需求的模型训练任务。在开放式的环境中学习多种任务是通用智能体的重要能力。《我的世界》(Minecraft)作为一款受欢迎的开放世界游戏,具有无限生成的复杂世界和大量开放的任务,为智能体提供了丰富的交互接口,进而成为近几年开放式学习研究的重要测试环境。

2024-01-12 16:58:55 1042

原创 Rectified Flow Matching 语音合成,上海交大开源

https://github.com/cantabile-kwok/VoiceFlow-TTS(持续更新中)rectified flow matching 与 flow matching 对比效果。rectified flow matching 与 grad-tts 对比效果。项目实现的参考信息,可以看到该项目做的工作很完备。VoiceFlow框图。

2024-01-10 15:58:55 466

原创 评测集开放丨中文读唇总动员:CNVSRC 2023 中文连续视觉语音识别挑战赛

视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。为此,清华大学在2023年发布了CN-CVS数据集[1],成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别 (LVCVSR) 提供了可能。本次赛事以 CN-CVS 中文视觉语音识别数据库为基础数据,评估在录音室朗读 (Reading) 和网络演讲 (Speech) 两类场景下的 LVCVSR 系统的性能。

2024-01-10 15:55:03 1116

原创 奥特曼YC演讲:套壳ChatGPT者死,我行不代表你行

来源丨量子位这是在最新YC校友分享会上,OpenAI CEO奥特曼发表的演讲观点。为此他还特意补充道:尤其别花太多精力在UI界面上。一时间引发共鸣无数。不少业内人士表示:除了这句话以外,奥特曼这段演讲中可谓金句频出,个中不少“干货细节”,也被大伙儿纷纷摘录转发——包括GPT-5、6的进展,关于AGI未来趋势的看法,以及亲身创业的种种。比如,“AI女友”只是个美丽的陷阱,千万不要轻易尝试。听完演讲后的网友,甚至将之形容为“金子一般的收获”。所以奥特曼究竟在这场演讲中分享了啥?一起来看看。

2024-01-08 16:29:41 835

原创 假期归来必看!2023年9月份,爆款论文总结,了解最新学术进展!

以下文章来源于AINLPer ,作者ShuYini十一假期结束了,十月基本上算是过了一半了,小伙伴们收收心准备开始学习工作吧。按照惯例,月初继续带到家盘一下上个月(九月份)的热点论文。本月论文主要分为三个方面。其中在大模型微调方面有:麻省理工(MIT)提出了LongLoRA微调算法、北大&微软提出的RAIN对齐方法等;在大模型发布方面有:MAmmoTH、InternLM-20B、Xwin-LM、Falcon等模型发布;在大模型应用方面有:交通管理、文档问答、情感分析、编程等。

2024-01-03 19:30:00 840

空空如也

请问cmake -B build的时候报这个错,大家有遇到的吗?

2022-08-03

想着用自己电脑训模型,理论上可以吗?

2022-08-03

stage1这个报错是为什么? sudo了一下,conda,pytorch环境都已经按要求配置好了

2022-08-03

WeNetspeech数据集的采集处理脚本代码,有没有开源呢?能否用这个代码自己去采集数据?

2022-08-03

用了aishell的数据集报这种问题的原因是什么?

2022-08-03

模型测试时,使用的average model,这是什么方法,有没有参考资料。

2022-08-03

如果想要在WeNet放出来的checkpoint模型u2pp_conformer_exp上增量训练,需要怎么做?

2022-08-03

aishell example运行stage 4,遇到这个报错,请问是什么问题?

2022-08-03

单并发,用的WeNetspeech离线大模型以及libtorch1.10,rescore和search都在500ms+,,为什么这么慢呢?一般TLG有多大呀?语言模型大小会很影响速度的吧?

2022-08-02

实战1课程AIshell-1模型训练,到stage4 neural network training训练的时候报了这个runtime 的错,是什么原因?

2022-08-02

这里用conv2d做降采样的原理是什么?为什么用两个conv2d,第一次conv2d通道是从1->odim,第二次conv2d从odim->odim?第一次通道数为什么要改变?

2022-08-02

最后一个模型量化,在x86上也是有必要的吗?速度会提升多少?

2022-08-02

sort是让一个batch内的音频按顺序排列吗?

2022-08-02

conf中shuffle和sort为什么不冲突,而且注解说sort size必须小于shuffle size

2022-08-01

目前如果用WeNet,如果要使用一台服务器支持100个并发,这样需要什么要配置才能满足要求?

2022-08-01

一般这种websocket 如何做高并发,有没有好的解决方案呢

2022-08-01

我们测试websocket server 在高并发连接情况下出现连接慢的情况,这个是同时100个ws连接下出现的。这个有什么好的解决办法吗?

2022-08-01

热词输出带上 context 的标志了,是不是通过参数可以控制?还是要改下代码,去掉?

2022-08-01

这个热词文件,有行数限制么?比如:3万行,可以么?

2022-08-01

热词标记,但是最后没有实现是因为什么?

2022-08-01

web socket server,用的onnx的模型,加上热词后,score从3-10都试了下,没有起作用。onnx模型,是从非流模型导出的,会是这个原因吗?

2022-08-01

WeNet进行一些简单的优化rtf大概能到多少?

2022-08-01

为什么这里算概率一定要把这些全部加起来,为什么不能像一个一个地算,求出最大概率为声学对齐结果呢?

2022-07-22

不把16k降到8k维护一套8k的是因为16k准确率高吗?如果有存储需求16k意味着存的音频占的硬盘翻倍了,rtf也会下降吧

2022-07-22

一般外呼场景都是8k采样率的录音, 假设模型都一样 ,8k和16k不同采样率训练出的模型准确率会有差距吗?

2022-07-22

web socket server 配置了 热词的文本文件后,如果有追加或更新,需要重启服务么?还是说,自动就生效了?

2022-07-22

在流式识别中,如何解决背景噪音带来的干扰?

2022-07-22

web socket server支持语言模型吗?

2022-07-22

-context_score 这个值是什么范围?一般多少合适?

2022-07-22

web socket server 怎么启用热词?

2022-07-20

热词的文件是什么结构?

2022-07-20

CTC的尖峰效应,是不是可以理解为:目标函数约束前面的神经网络,将一个词的多帧信息,集中到了'尖峰'这一帧?

2022-07-20

WeNet 转 onnx 的时候要拆成几个模型导出,可以合并为一个吗?

2022-07-19

目前WeNet的时间戳方案不太准确(一是静音的判断不准确,二是字与字的时间戳是连着的,无论中间静音有多大),请问有什么方案可以提高时间戳的准确度吗?

2022-07-19

WeNet有什么独特的地方吗?比如流识别方面?

2022-07-19

当前最新的比较好的算法好像也就是 conformer了,还有比这更好的吗,如果找不到更好的算法,应该从哪些方面来优化预训练模型呢?

2022-07-19

端到端模型对于领域文本优化有什么方案可以在实际应用中使用的?

2022-07-19

如果想充分理解一个预训练模型的算法,比如aishell预训练模型,应该从哪入手?

2022-07-19

请问现在工业上用传统的技术多还是端到端的技术多啊?

2022-07-05

热词增强和热词唤醒在实现上的区别是什么?

2022-07-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除