语音之家-CSDN博客

原创 WeNet语音识别实战

音之家-AI工匠学堂推出《WeNet语音识别实战》， WeNet是目前工业界最流行的开源端到端语音识别系统之一，也是学习端到端语音识别的最佳实践项目。语音识别的学习者和从业者，可以通过学习这门课程高效全面的掌握WeNet的基本原理和实战方法，降低自己摸索的成本，快速构建出高性能的语音识别系统。...

2022-06-21 15:06:58 6951 4

原创 A Comprehensive Survey of Spoken Language Models

为填补该领域系统性综述的空白，芝加哥大学、卡内基梅隆大学、台湾大学与Meta等单位的研究者联合撰写了首份全面综述论文——《On The Landscape of Spoken Language Models: A Comprehensive Survey》。该论文聚焦SLM的发展现状，系统梳理了当前语音大语言模型的定义、模型架构、训练方式与评估策略。这篇综述也讨论了SLM取得的重要进展与当前面临的挑战，展望SLM作为未来通用语音处理系统的潜力与前景。

2025-04-25 11:34:53 354

原创最新开源模型DeepCoder，媲美OpenAI-o3，训练方法、数据集大公开

今日，AI界突现开源重磅——Together AI与Agentica全面开源DeepCoder-14B-Preview，不仅开放模型权重，更罕见公开了完整训练数据、方法及优化细节。值得一提的是，Together AI不仅开源了DeepCoder-14B的模型权重，还完整公开了训练数据集、方法、日志及优化方案，使开发者能够全面掌握该模型的开发全流程。通过消除熵损失和KL损失、引入过长过滤和上限裁剪等技术，GRPO+使模型在训练过程中能够保持稳定的熵值，避免训练崩溃，并能更自然地生成较长输出，提高了推理能力。

2025-04-10 15:32:53 847

原创老黄携GB300震撼登场！DeepSeek推理暴涨40倍加速全球最快，26年Rubin问世

这次，老黄的金句直接升级为「买得越多，赚得越多」。老黄展示这张图中，x轴代表了生成的token，y轴代表着每秒token吞吐效率，理想情况下，图中黄色曲线应该是一个方形，即在工厂能力极限之内，非常快速生成token。但老黄认为，技术进步太快，工作负载又重，像AI工厂这样的大型项目，最好投资在最新版本的技术上，比如Blackwell，这样才能跟上潮流，避免落后。相比之下，新的Blackwell架构比Hopper强多了，尤其在能耗固定的情况下，性能提升了25倍，甚至在推理模型上直接比Hopper高40倍。

2025-03-28 11:52:22 826

原创新算法实现混响环境中多说话人语音分离

通过调整A组麦克风数量（5/7/10个）发现，当A组为7个、B组固定17个时，以第一个说话人为例，其短时客观可懂度（STOI）从处理前的37.35%提升至92.16%，信干比（SIR）从1.40dB跃升至25.37dB，信畸比（SDR）达到9.49dB。在实际办公室环境（2.94×4.4×3.04米，混响时间410ms）的验证中，使用15个麦克风（A组5个，B组10个）对2个说话人与2个噪声源进行分离。个噪声源，Q个麦克风被划分为两组（A组和B组），其接收信号可表示为传递函数矩阵与声源信号的线性组合。

2025-03-28 11:32:20 676

原创开源超越GPT-4o！中国团队造出“SQL翻译官”，250万数据炼成真功夫

未来，有望扩展至多语言、多数据库引擎场景，在自然语言交互式数据分析中发挥更大作用，推动大数据和人工智能技术发展应用。从自然语言问题到SQL查询的推理步骤，让用户明白模型如何得出结果，提高模型可解释性与用户信任度，也方便研究人员优化模型。训练时，模型学习问题到SQL的转换，也学习每步推理逻辑，提高推理准确性与可靠性，向用户展示透明推理过程，增强信任。在Spider、BIRD等9个权威文本转SQL基准测试中，OmniSQL成绩优异，，不依赖外部SQL修正模块，减少系统复杂性与维护成本，提升运行效率与稳定性。

2025-03-18 15:13:44 983

原创 LIFT：将长上下文知识注入模型参数，提升大模型长文本能力

为了在模型原有能力和微调后新的参数内知识之间找到平衡，我们提出了一种专门的参数高效微调模块——门控记忆适配器（Gated Memory Adapter），它能平衡原始模型的 In-Context Learning（ICL）能力和 LIFT 训练后对长输入的记忆理解能力。针对每一篇需要处理的长文本，LIFT 通过分段的 language modeling 以及精心设计的辅助任务来微调模型，实现用模型参数来记忆和理解长文本，从而避免过长的 context 造成的推理复杂度提升和长程依赖丢失。

2025-03-18 15:06:51 555

原创 DeepSeek一口气开源3个项目，训练速度，GPU利用，优化经验

DeepSeek 的开源周已经进行到了第四天。今天这家公司一口气发布了两个工具和一个数据集：DualPipe、EPLB 以及来自训练和推理框架的分析数据。来源丨新智元、机器之心、赛博禅心DeepSe此次本次开源的三个项目：DualPipe：一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法；EPLB：一个针对V3/R1的专家并行负载均衡工具；深入分析V3/R1模型中的计算与通信重叠机制。

2025-02-28 11:13:19 619

原创【直播预告】Xmart•学生论坛丨袁锐斌：Scaling Foundation Models for Music

音乐是跨越人类文明的通用语言，与创造力、文化和情感深度融合。本次演讲将分享我们在构建开源音乐基础模型过程中的探索历程。我们秉持"AGI不仅应理解与创作音乐，也应从音乐学习中受益"的愿景，系统性地推进音乐智能研究。首先介绍业界广泛应用的MERT——基于音频模态的音乐理解模型。随后展示如何将符号音乐理解与生成能力融入LLaMA框架，实现自然语言与符号表征的统一建模（ChatMusician）。

2025-02-28 11:11:03 665

原创 OpenAI开源SWELancer，大模型冲击100万年薪

具体来讲，SWE-Lancer 包括了独立工程任务（从 50 美元的 bug 修复到 32,000 美元的功能实现）和管理任务，其中模型选择各种技术实施方案。目前，测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified，但这两个有一个很大的局限性，主要针对孤立任务，很难反映现实中软件工程师的复杂情况。对于 OpenAI 开源的这个基准测试，有人认为很棒，并表示随着软件工程中 AI 能力的扩展，拥有标准化的评估方法非常重要，但应该是独立的。任务是全栈式的，而且很复杂。

2025-02-21 11:16:55 1002

原创人工智能语音合成公司ElevenLabs获1.8亿美元C轮融资，估值33亿美元

此轮融资由Andreessen Horowitz和ICONIQ Growth联合领投，其他投资者包括NEA、World Innovation Lab、Valor、Endeavor Catalyst Fund、Lunate、Sequoia Capital、Salesforce Ventures、Smash Capital、SV Angel、NFDG和BroadLight Capital。近日，据海外媒体报道，人工智能语音合成公司ElevenLabs宣布已完成1.8亿美元的C轮融资，其估值也达到了33亿美元。

2025-02-13 13:49:19 498

原创小红书最新开源语音识别模型FireRedASR，中文效果新SOTA

值得一提的是，在需要歌词识别能力的场景中，FireRedASR-LLM 也表现出极强的适配能力，CER 实现了 50.2%～66.7% 的相对降低，这一成果进一步拓宽了 FireRedASR 的应用范围，使其不仅能胜任传统语音识别需求，还能在创新性的多媒体场景中大放异彩。FireRedASR-AED（右下）：基于经典的 Attention-based Encoder-Decoder 架构，FireRedASR-AED 通过扩展参数至 1.1B，成功平衡了 ASR 语音识别的高准确率与推理效率。

2025-02-13 13:30:59 1178

原创 AI教父辛顿力挺马斯克，明确反对 OpenAI 的营利化转型。

让我们回到2015年，当时的OpenAI是以非营利研究机构的身份诞生的。2024年2月，马斯克发起诉讼，要求北加州联邦法院阻止OpenAI改变其结构，他认为非营利组织不能违背其最初的使命，这些使命得到了包括他在内的捐赠者的支持。Encode认为，OpenAI目前所采用的非营利控制结构提供了必要的治理护栏，如果将控制权移交给营利性实体，这些护栏将被剥夺。作为AI领域的传奇人物，杰弗里·辛顿教授不仅是2024年诺贝尔物理学奖得主，更被誉为"人工智能教父"，他深知技术快速发展的背后，风险同样在加速。

2025-01-09 16:04:29 322

原创 ICASSP2025丨上交大跨媒体语言智能实验室12篇录用论文分享

自动音频描述(AAC)的目标是为输入的音频信号生成自然的文本描述。近年来，音频预训练模型和大语言模型(LLMs)的发展显著提升了音频理解和文本推理能力，为AAC的改进带来了可能性。在本文中，我们提出了SLAM-AAC，通过引入重述增强和CLAP-Refine策略进一步提升AAC性能。我们使用音频自监督模型EAT提取细粒度音频表征，并通过轻量级的线性层将其与文本嵌入对齐。生成音频描述的LLM通过LoRA适配器实现高效微调。借鉴机器翻译中的回译方法，我们在预训练阶段实施了重述增强策略，以扩展Clotho数据集。

2025-01-09 15:49:55 2184

原创 AI首次自主发现人工生命！人类窥见上帝造物

Sakana AI联合MIT、OpenAI等机构提出了全新算法，自动搜索人工生命再达新的里程碑！不需要繁琐手工设计，只通过描述，AI就能发现全新的人造生命体了。就在刚刚，由Transformer八子创立的Sakana AI，联合来自MIT、OpenAI、瑞士AI实验室IDSIA等机构的研究人员，提出了「自动搜索人工生命」的新算法！言归正传，ALife，即「人工生命」，是一门跨学科研究，旨在通过模拟生命的行为、特性和演化过程来理解生命的本质，通常结合了计算科学、生物学、复杂系统科学以及物理学等领域。

2024-12-26 13:46:06 854

原创 CultureLLM 与 CulturePark：增强大语言模型对多元文化的理解

本文介绍团队刚刚在加拿大温哥华召开的顶会NeurIPS 2024上发表的两篇系列工作：CultureLLM 和CulturePark。此项研究以生成文化数据并训练文化专有模型为主要手段，旨在提升已有基础模型的多文化理解能力，使得其在认知、偏见、价值观、在线教育等不同场景下的文化理解任务上均得到提升。

2024-12-26 13:28:45 1289

原创隔墙有耳：非视距声学成像算法介绍

具体而言，从发射阵列发出chrip信号，并通过麦克风阵列测量返回的波形，并通过分析多次反射的声音效应来解决拐角成像的问题。共焦测量是指发射和接收位置相同或非常接近的情况，可以通过直接捕捉从物体表面反射回来的信号，来重建物体的形状。这表明，通过信号的傅里叶变换，我们能够通过分析信号的延迟来推断反射器的位置和物体的几何形状。由于非共焦测量的数据具有额外的传播时间延迟，需要对时间维度进行重采样，以将这些额外的传播时间调整回共焦测量对应的时间。这是通过对时间数据进行适当的调整和插值，消除由偏移带来的额外时间差异。

2024-12-20 10:37:38 864

原创市场规模超 60 亿美元，语音如何改变对话式 AI？

本篇报告的作者 Lightspeed 投资了 Character.ai（AI 角色对话）、Cartesia（语音 AI 模型）、Volley（语音 AI 游戏）、Yellow.ai（语音 AI 客服）等语音 AI 公司。不同于此前分享的侧重企业应用场景分析，Lightspeed 此篇报告更关注语音 AI 底层技术模型的演进趋势。语音技术的演变：语音技术从 1970 年代的「交互式语音应答」（IVR）系统发展到现代智能语音电话树，再到如今的 LLM 系统，用户体验不断提升。

2024-12-20 10:35:56 648

原创通义实验室开源 ClearerVoice-Studio语音处理框架

随着语音技术的普及，语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题，常常使语音质量和可懂度大打折扣。无论是录制清晰语音却因周围环境嘈杂充满噪声，还是在地铁、餐厅等喧闹场景中与人通话时不得不提高嗓音，这些场景都体现了语音处理技术的迫切需求。特别是在复杂的多人对话环境中，如何，避免其他干扰，一直是语音处理领域的难点和热点。，一个集成等功能的语音处理框架。通过融合复数域深度学习算法，我们大幅提升了语音降噪和分离的性能，能够最大限度地消除背景噪声并保留语音清晰度，同时保持语音失真最小化。

2024-12-12 14:25:01 1162

原创空间智能版ImageNet来了！李飞飞吴佳俊团队出品

要求模型对视频中的关键事件、主要交互等进行概括性描述，例如总结出脖子上挂了个相机的人在超市中有什么关键交互行为。

2024-11-12 14:12:58 921

原创 OpenAI华人VP翁荔离职：北大校友，掌管安全，最近B站分享被热议

就在刚刚，那个掌管OpenAI安全的北大校友，OpenAI研究副总裁（安全），离职了。翁荔是OpenAI华人科学家、ChatGPT的贡献者之一。北大毕业后，翁荔在2018年加入OpenAI，后来在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。。而就在前不久，她还刚刚现身，发表了的主题演讲。

2024-11-11 17:01:58 694

原创技术沙龙预告丨揭秘新一代大规模声音克隆TTS模型MaskGCT

MaskGCT 是一个两阶段模型：在第一阶段，模型使用文本预测从语音自监督学习（SSL）模型中提取的语义标记；通过对 10 万小时的自然语音进行实验，结果表明 MaskGCT 在质量、相似度和可理解性方面优于当前最先进的零样本 TTS 系统。非自回归系统在训练过程中需要显式的文本与语音对齐信息，并预测语言单元（如音素）的持续时间，这可能会影响其自然度。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练，展现出超自然的语音克隆、风格迁移以及跨语言生成能力，同时保持了较强的稳定性。

2024-11-06 14:55:04 706

原创微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

Transformer自问世后就大放异彩，但有个小毛病一直没解决：总爱把注意力放在不相关的内容上，也就是信噪比低。微软亚研院、清华团队提出全新改进版 Differential Transformer，专治这个老毛病，引起热议。

2024-11-06 11:09:35 658

原创刚刚，ChatGPT变身AI搜索免费用！OpenAI颠覆谷歌，搜索变天了

ChatGPT搜索重磅登场！在过去几周，他表示，自己玩的爱不释手，让使用量直接翻一番，甚至再也回不到过去了。ChatGPT会为你制定出一份完美的规划，从整条路线起始点，沿途驻足的网红打卡点，到交通工具选择、旺季时间，再到酒店预定等一系列必备问题，都会为你贴心地考虑到。不过，即使启用AI搜索，会话中的每个查询也不一定会用到Grounding，以后这会导致额外的成本和延迟。技术层面，搜索模型是GPT-4o的微调版本，通过创新的合成数据生成技术进行二次训练，包括从OpenAI o1-preview中蒸馏的输出。

2024-11-01 14:03:44 1003

原创开放下载丨超自然对话语音合成数据集NCSSD

🔎 超236小时自然对话语音数据，包括搜集自互联网的电视剧集片段（搜集子集），以及人工录制的对话内容（录制子集）。🌏 支持两种语言：中文（Zh）和英语（En）📣 丰富的对话场景，涵盖多种对话主题和内容，丰富的说话人（776人以上）。🏆 基于NCSSD训练的GPT-Talker性能优秀，可以为agent合成自然且具有表现力的对话语音。NCSSD 数据集统计GPT-Talker模型结构图NCSSD数据集构建过程。

2024-11-01 11:36:28 801

原创语音语言模型最新综述！关于GPT-4o背后技术的尝试

SpeechLMs作为一种新兴的语音交互技术,展现出了巨大的潜力。它不仅能够克服传统ASR+LLM+TTS方案的局限性,还能实现更自然、更丰富的人机语音交互。随着研究的深入,我们有理由相信SpeechLMs将在未来的AI语音交互中扮演越来越重要的角色。

2024-10-25 15:13:36 1530

原创中科大&科大讯飞开源OpenMusic：音乐生成更高质量，更有乐感

为了解决这些挑战，今天和大家分享一种全新的高质量音乐生成范式，该范式结合了质量感知训练策略，使生成模型能够在训练过程中辨别输入音乐波形的质量。创新性地将masked扩散Transformer引入到音乐信号中，展示了其在建模音乐潜在空间上的独特效果，以及其在质量控制感知方面的卓越能力，从而进一步提升了生成音乐的质量和音乐性。文本对齐度低，大多数的音频处于少标签，弱标签，错标签。提出了一种质量感知训练范式，使模型在训练过程中能够感知数据集的质量，从而在音乐性（美学角度）和音频质量方面实现卓越的音乐生成效果。

2024-10-16 17:55:04 887

原创诺贝尔物理学奖为啥颁给AI？谈谈人工智能的历史变迁及对人类社会的影响

直到2012年，Geoffrey Hinton带着他的学生Alex在李飞飞构建的ImageNet图像大数据上，用提出的Alex网络将识别性能比前一届一次性提高将近10个百分点，这才让大部分的人工智能学者真正转向深度学习，因为以之前每届用统计机器学习方法较上一届提升性能的速度估计，这次的提高需要用20多年时间。尽管从神经生理学角度来看，这个网络的记忆能对应于原型说，每个神经元可以看成是一个具有某个固定记忆的离散吸引子(Discrete Attractor)，但它的记忆是有限的，且不具备良好的几何或拓扑结构。

2024-10-10 14:46:45 922

原创刚刚，2024年诺贝尔物理学奖揭晓，John J. Hopfield、Geoffrey E. Hinton 获奖！

分别是1903年的Marie Curie，1963年的Maria Goeppert-Mayer，2018年的Donna Strickland、2020年的Andrea Ghez及2023年的Anne L’Huillier。2019年——美国科学家James Peebles获奖，获奖理由是“在物理宇宙学的理论发现”；2022年——Alain Aspect，John Clauser及Anton Zeilinger获奖，以表彰他们在“用纠缠光子进行实验，建立了贝尔不等式的违反，开创了量子信息科学的先机”的贡献。

2024-10-09 11:36:31 369

原创保守派中间派原生派，谁将主导搜索引擎未来三十年？

传统搜索引擎倾向于 CTR 导向（ Click Through Rate ，点击率），这直接关系到广告收入，所以，返回内容往往倾向点击率高的网页（很多时候是一些 UGC 网站，比如论坛、知识问答网站，或者「内容农场站」和「 AI 内容站」），而不是最准确的答案。AI 搜索会让搜索引擎从信息检索工具，进化成帮助用户完成知识探索的「知识引擎」，并最终，凭借不可逆的历史趋势，取代传统搜索引擎，成为用户检索信息、获取知识的首选。最重要的，几乎每句话都会注明出处，就像学术论文务必注明引文来源，引注数量也颇为可观。

2024-09-19 17:21:09 723

原创刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理极限

大模型领域的技术发展，今天起再次「从 1 开始」了。大语言模型还能向上突破，OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜，OpenAI 正式公开一系列全新 AI 大模型，旨在专门解决难题。这是一个重大突破，新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。OpenAI 称，今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型，而且还只是预览版 ——o1-preview。

2024-09-19 17:09:35 851

原创 OpenAI「草莓」两周内发布？网传不是多模态，反应慢了10多秒

很多LLM的弱点就在推理能力上，而有些初创公司为了提高它们的推理能力，就采用了一种廉价的技巧，将问题分解为更小的步骤，尽管这些方法速度慢且成本高昂。另外，在FLOPs一致的评估中，对于那些较小的基础模型已取得一定程度非平凡成功率的问题，测试时计算可以使其超越规模大14倍的模型。草莓可能会有低价位和高价位的两档，前者会有速率限制，并且限制用户每小时的最大消息数量；另外，在去年Q*的前期准备中，OpenAI研究人员开发了一种被称为「测试时计算」的概念变体，目的是提升LLM的问题解决能力。

2024-09-13 11:04:47 506

原创执教10年46枚美国IMO金牌！对话前总教练罗博深：不看好AI教育，不建议AI辅助学数学

相较于常规的数学课，LIVE 的教学风格更像是一种即兴表演，注重交流讨论、实时反馈，再加上游戏直播间般专业的灯光布置，以及线上的各种视觉特效，使得数学教育更像是充满趣味的社交媒体直播，而非枯燥无趣的传统线上课堂。解答竞赛数学题目，需要孩子切实学会调动自身的积极性，不断去尝试，运用不同的知识，从不同的角度和思路与问题进行碰撞，而竞赛成绩，或许是最微不足道的附加值。因为在他眼中，数学竞赛绝不是升学途中的点缀，除了能让孩子接触到更复杂、更有趣的数学题目，更为重要的是在解题过程中培养孩子思考和解决问题的胆量。

2024-09-02 17:02:48 1149

原创爆火毒舌AI每小时赚2.8万！每分钟36个新用户，火遍全球只因改了一句提示词

（约2.8万元）说的就是病毒式传播的“毒舌AI”，只需输入一个推特用户名，就能得到AI根据历史发言做的犀利点评。而且只要是公开账号就行，并不需要获取任何权限，。比如马斯克是肯定逃不过这一劫的。首先AI会总结出几个能代表这个人的表情符号：火箭（SpaceX）、电池（特斯拉）、大脑（Neuralink）、金钱、地球、机器人……AI看来是真的懂老马。下面就开始一顿输出了，马斯克数次推迟赛博皮卡的黑历史、自负的性格都没有放过。

2024-08-22 15:59:42 699

原创 Llama 8B搜索100次超越GPT-4o！推理+搜索即可提升性能，新「Scaling Law」诞生？

最近的论文表明，LLM等生成模型可以通过搜索来扩展，并实现非常显著的性能提升。另一个复现实验也发现，让参数量仅8B的Llama 3.1模型搜索100次，即可在Python代码生成任务上达到GPT-4o同等水平。来源丨新智元强化学习先驱、加拿大阿尔伯塔大学CS系教授Rich Sutton曾在2019年写下一篇名为《The Bitter Lesson》的博文，成为AI领域的经典论述之一。甚至，Rich Sutton在字里行间体现出的直觉已经颇有Scaling Law的意味。

2024-08-19 16:13:24 708

原创谷歌版Her抢跑！一键召唤Gemini，全球52亿终端被颠覆

均有14%的性能差异。CPU方面，G4配备了1个运行在3.1GHz的Cortex-X4核心、3个运行在2.6GHz的Cortex-A720核心，以及4个运行在 1.95GHz 的 Cortex-A520核心。比如，假设我们正在为出国旅行做攻略，刚看完一个旅游视频博客，点击「询问此视频」，让它列出视频中出现的所有餐馆、添加到谷歌地图中，Gemini就会一一照做。在一口气发布的Pixel 9系列手机中，谷歌也探索了「AI+手机」的新样态：Gemini、安卓、Pixel的融合，会孵化出怎样的端侧AI产品形态。

2024-08-15 15:26:32 869

2022-07-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

空空如也

请问cmake -B build的时候报这个错，大家有遇到的吗？

想着用自己电脑训模型，理论上可以吗?

stage1这个报错是为什么? sudo了一下，conda，pytorch环境都已经按要求配置好了

WeNetspeech数据集的采集处理脚本代码，有没有开源呢？能否用这个代码自己去采集数据？

用了aishell的数据集报这种问题的原因是什么?

模型测试时，使用的average model，这是什么方法，有没有参考资料。

如果想要在WeNet放出来的checkpoint模型u2pp_conformer_exp上增量训练，需要怎么做？

aishell example运行stage 4，遇到这个报错，请问是什么问题？

单并发，用的WeNetspeech离线大模型以及libtorch1.10，rescore和search都在500ms+，，为什么这么慢呢？一般TLG有多大呀？语言模型大小会很影响速度的吧？

实战1课程AIshell-1模型训练，到stage4 neural network training训练的时候报了这个runtime 的错，是什么原因？

这里用conv2d做降采样的原理是什么？为什么用两个conv2d，第一次conv2d通道是从1->odim，第二次conv2d从odim->odim？第一次通道数为什么要改变？

最后一个模型量化，在x86上也是有必要的吗？速度会提升多少？

sort是让一个batch内的音频按顺序排列吗？

conf中shuffle和sort为什么不冲突，而且注解说sort size必须小于shuffle size

目前如果用WeNet，如果要使用一台服务器支持100个并发，这样需要什么要配置才能满足要求？

一般这种websocket 如何做高并发，有没有好的解决方案呢

我们测试websocket server 在高并发连接情况下出现连接慢的情况，这个是同时100个ws连接下出现的。这个有什么好的解决办法吗？

热词输出带上 context 的标志了，是不是通过参数可以控制？还是要改下代码，去掉？

这个热词文件，有行数限制么？比如：3万行，可以么？

热词标记，但是最后没有实现是因为什么？

web socket server，用的onnx的模型，加上热词后，score从3-10都试了下，没有起作用。onnx模型，是从非流模型导出的，会是这个原因吗？

WeNet进行一些简单的优化rtf大概能到多少？

为什么这里算概率一定要把这些全部加起来，为什么不能像一个一个地算，求出最大概率为声学对齐结果呢?

不把16k降到8k维护一套8k的是因为16k准确率高吗？如果有存储需求16k意味着存的音频占的硬盘翻倍了，rtf也会下降吧

一般外呼场景都是8k采样率的录音， 假设模型都一样 ，8k和16k不同采样率训练出的模型准确率会有差距吗？

web socket server 配置了 热词的文本文件后，如果有追加或更新，需要重启服务么？还是说，自动就生效了？

在流式识别中，如何解决背景噪音带来的干扰？

web socket server支持语言模型吗？

-context_score 这个值是什么范围？一般多少合适？

web socket server 怎么启用热词？

热词的文件是什么结构？

CTC的尖峰效应，是不是可以理解为：目标函数约束前面的神经网络，将一个词的多帧信息，集中到了'尖峰'这一帧？

WeNet 转 onnx 的时候要拆成几个模型导出，可以合并为一个吗？

目前WeNet的时间戳方案不太准确（一是静音的判断不准确，二是字与字的时间戳是连着的，无论中间静音有多大），请问有什么方案可以提高时间戳的准确度吗？

WeNet有什么独特的地方吗？比如流识别方面？

当前最新的比较好的算法好像也就是 conformer了，还有比这更好的吗，如果找不到更好的算法，应该从哪些方面来优化预训练模型呢?

端到端模型对于领域文本优化有什么方案可以在实际应用中使用的？

如果想充分理解一个预训练模型的算法，比如aishell预训练模型，应该从哪入手？

请问现在工业上用传统的技术多还是端到端的技术多啊?

热词增强和热词唤醒在实现上的区别是什么？

一般外呼场景都是8k采样率的录音，假设模型都一样，8k和16k不同采样率训练出的模型准确率会有差距吗？

web socket server 配置了热词的文本文件后，如果有追加或更新，需要重启服务么？还是说，自动就生效了？