自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(363)
  • 问答 (44)
  • 收藏
  • 关注

原创 WeNet语音识别实战

音之家-AI工匠学堂推出《WeNet语音识别实战》, WeNet是目前工业界最流行的开源端到端语音识别系统之一,也是学习端到端语音识别的最佳实践项目。语音识别的学习者和从业者,可以通过学习这门课程高效全面的掌握WeNet的基本原理和实战方法,降低自己摸索的成本,快速构建出高性能的语音识别系统。...

2022-06-21 15:06:58 7481 4

原创 语音降噪风雨六十载(上)——传统信号处理黄金时代

在传统语音降噪方法中,都基于以下四个假设假设一、语音和噪声是统计独立的;假设二、噪声相比于语音更加平稳;假设三、时频点是统计独立的;假设四、人耳对语音相位不敏感;第一个假设是合理的,然而其他三个假设在某些条件下并不真正成立。假设二是传统语音降噪中噪声估计模块的基础,然而实际场景中非稳态噪声也是普遍存在的。对于假设三来说,语音和噪声频点之间必然存在相关性,这就导致基于统计模型的方法比不可能完全成立,这也限制了传统降噪算法的性能。

2026-03-05 11:49:45 430

原创 第四期 | ICASSP 2026 论文预讲会(南洋理工大学 DSP Lab)

在采用在线次级路径建模的 FxLMS 框架下的实验结果表明,与不进行再初始化的基线方案相比,所提方法能够在系统启动与路径切换后显著降低初期残余噪声、缩短达到稳定性能的时间,同时减少引入的辅助噪声能量,并提升路径变化后的系统降噪性能恢复速度。仿真结果表明,所提出的异步通信分布式多通道主动噪声控制(ACDMCANC)系统在显著降低通信负载的情况下,仍能保持有效的噪声抑制性能,从而为异构网络环境下的系统扩展性提供了更优的解决方案。主办,旨在为学者们提供更多的交流机会,更方便、快捷地了解领域前沿。

2026-02-28 11:33:11 472

原创 从 “能说话” 到 “会说话”:Meta+MIT 联手打出 GSRM “声学 + 推理” 组合拳,合成语音自然度赢率飙升 82%

GSRM 的核心创新,在于把语音评估从 “黑盒打分” 变成了 “白盒推理”—— 它不再是简单的数值输出,而是能像人类评委一样,精准指出 “元音音调变化过大导致语调不自然”“节奏不均匀影响类人性” 等具体问题,为模型优化提供明确方向。更重要的是,它打通了 “评估→优化” 的闭环,让语音大模型能自主迭代提升自然度,实测 82% 的人类偏好赢率证明了其有效性。对于语音技术开发者来说,GSRM 不仅是一个评估工具,更是一套可直接落地的语音 RLHF 解决方案;

2026-02-27 18:21:11 451

原创 融声向善语音资源开源计划丨AISHELL-6 系列特殊声学特征语音语料库全面开放,助力人机交互向善发展

未来,希尔贝壳将秉持长期开源、优质开源的原则,持续迭代并开源更多覆盖多元场景、适配特殊需求的高质量语音数据集,为全球语音技术领域的模型创新、算法优化及应用落地提供坚实的数据支撑,助力破解非典型语音研究中的技术瓶颈,推动语音智能技术向更精准、更普惠、更多元的方向发展。希尔贝壳联合昆山杜克大学开源项目,语料库在安静的录音棚环境中采集,包含约29.8小时的耳语语音与平行录制的29.5小时正常语音,和同步采集的唇动视频。通过Zoom或腾讯会议等平台进行的在线访谈,旨在能够捕捉在多样化主题下录音人的自然口语。

2026-02-26 17:40:01 813

原创 清华和盛大东京团队提出Hive数据集:以数据质量取代规模,实现高效通用声音分离

生成式模型(如SAM-Audio)在感知指标上表现较好(FAD≈1.0),但在语义保真度上落后(CLAP-T),表明存在条件合成而非真正提取的倾向。Hive数据量仅为SAM-Audio的约0.2%(2.4k vs. 1M小时),在USS-Bench上AudioSep(Hive)的FAD达0.75(SAM-Audio为0.90),CLAP-Audio达0.69(SAM-Audio为0.57)。Hive数据流水线的标注纯度,团队设计了一项四选一强制选择(4-AFC)音频事件识别实验。

2026-02-26 10:36:33 662

原创 第一期 | ICASSP 2026 论文预讲会(昆山杜克大学语音及多模态智能信息处理实验室)

武汉大学计算机科学与技术专业三年级硕士生,昆山杜克大学语音及多模态智能信息处理实验室研究实习生, 研究方向为声纹识别、说话人日志。

2026-02-03 15:07:55 1017

原创 VoiceSculptor——音色设计、风格可控的语音生成模型,技术报告来啦!

在AI语音合成领域,能精准听懂自然语言指令、实现细粒度控制的开源工具一直是行业痛点。近期,西工大音频语音与语言处理研究组(ASLP@NPU)与语图智能技术公司(Yutu Zhineng)、上海灵光乍现技术团队(Shanghai Lingguang Zhaxian Technology)、Wenet社区(WeNet Open Source Community)正式。该模型是一款专为音色设计、风格可控打造的语音生成模型,支持语速、音量、基频等属性可控,可以通过自然语言指令生成成千上万种不同音色的音频。

2026-02-02 18:19:52 738

原创 FlashLabs开源Chroma 1.0:实时、高保真语音克隆与对话的端到端模型

标题:FlashLabs Chroma 1.0: A Real-Time End-to-End Spoken Dialogue Model with Personalized Voice Cloning链接:https://arxiv.org/pdf/2601.11141作者单位:FlashLabs发表日期:2026年1月16日开源地址:https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma‘

2026-02-02 17:36:19 1037

原创 Sora 2瑟瑟发抖!通义万相2.5放大招:一句话出1080P电影,音画精准同步

Veo 3真正对手,竟不是Sora 2!通义万相2.5全网首发,直接甩出王炸:一句话,直出10秒1080P电影级视频,首次实现音画精准同步。一键生成BGM、人声,全网实测玩疯。四个月前,谷歌DeepMind重磅推出Veo 3,首次实现「音画同步」,让AI视频彻底告别无声时代!一段提示,可以直吐4K高清视频,还自带逼真音效,唇同步准到毫秒级别。在云栖大会上,通义万相2.5(Wan2.5-preview)系列模型正式亮相,全模态生成一网打尽。它包含了四大模型——文生视频、图生视频、文生图、图像编辑。

2025-12-17 13:48:19 658

原创 2025年CCF先进音频技术竞赛

本赛题旨在鼓励参赛者探索和实现面向真实世界复杂链路的下一代语音修复算法,以显著提升语音信号的质量、可懂度和听感自然度。本任务要求参赛队伍针对给定的、经历了多重损伤的语音,设计并实现一个统一的修复模型,输出最大程度接近原始质量的纯净语音。

2025-06-23 16:14:37 796

原创 非线性声学计算与强化学习融合框架:突破复杂环境人机交互的新技术

该技术借助非线性声学理论,有效捕捉高阶声学现象,结合强化学习实现实时参数优化,显著提升了系统在噪声抑制、语音识别、语音克隆等关键任务上的性能。尽管传统声学方法取得了显著成功,但这些线性或准线性方法在实际环境中往往存在关键的不足,尤其在动态、复杂或混响环境中,远场语音处理、弱声信号检测和复杂的噪声抑制仍然是亟待解决的问题。是该系统的理论基础。在强噪声环境下,可准确区分多种声音情感及400+声学环境事件(如开门声、脚步声、警报声等),在不同应用场景中能深入理解用户意图,提供高质量的交互服务。

2025-05-29 17:28:42 912

原创 ICASSP2025丨融合语音停顿信息与语言模型的阿尔兹海默病检测

然后,将这两个嵌入在特征维度上拼接起来,并将其添加到词嵌入中,从而在 BERT 模型的编码阶段将停顿信息与文本信息融合在一起。使用WhisperX语音识别模型转录自发语音后,我们提取转录文本中每个单词的持续时间和停顿时间,将它们结合为一个停顿标记,并在一定区间内进行均匀量化,得到一个停顿标记的码本,之后对其进行可学习的嵌入映射。在本文中,我们提出了一种方法,在语言模型的编码阶段将停顿与文本内容相结合,以捕捉语音中的语义和副语言特征,从而提高 AD 检测的性能。,可以有效提升基于自发语音的AD检测效果。

2025-05-29 17:21:57 922

原创 A Comprehensive Survey of Spoken Language Models

为填补该领域系统性综述的空白,芝加哥大学、卡内基梅隆大学、台湾大学与Meta等单位的研究者联合撰写了首份全面综述论文——《On The Landscape of Spoken Language Models: A Comprehensive Survey》。该论文聚焦SLM的发展现状,系统梳理了当前语音大语言模型的定义、模型架构、训练方式与评估策略。这篇综述也讨论了SLM取得的重要进展与当前面临的挑战,展望SLM作为未来通用语音处理系统的潜力与前景。

2025-04-25 11:34:53 563

原创 最新开源模型DeepCoder,媲美OpenAI-o3,训练方法、数据集大公开

今日,AI界突现开源重磅——Together AI与Agentica全面开源DeepCoder-14B-Preview,不仅开放模型权重,更罕见公开了完整训练数据、方法及优化细节。值得一提的是,Together AI不仅开源了DeepCoder-14B的模型权重,还完整公开了训练数据集、方法、日志及优化方案,使开发者能够全面掌握该模型的开发全流程。通过消除熵损失和KL损失、引入过长过滤和上限裁剪等技术,GRPO+使模型在训练过程中能够保持稳定的熵值,避免训练崩溃,并能更自然地生成较长输出,提高了推理能力。

2025-04-10 15:32:53 1149

原创 老黄携GB300震撼登场!DeepSeek推理暴涨40倍加速全球最快,26年Rubin问世

这次,老黄的金句直接升级为「买得越多,赚得越多」。老黄展示这张图中,x轴代表了生成的token,y轴代表着每秒token吞吐效率,理想情况下,图中黄色曲线应该是一个方形,即在工厂能力极限之内,非常快速生成token。但老黄认为,技术进步太快,工作负载又重,像AI工厂这样的大型项目,最好投资在最新版本的技术上,比如Blackwell,这样才能跟上潮流,避免落后。相比之下,新的Blackwell架构比Hopper强多了,尤其在能耗固定的情况下,性能提升了25倍,甚至在推理模型上直接比Hopper高40倍。

2025-03-28 11:52:22 1392

原创 新算法实现混响环境中多说话人语音分离

通过调整A组麦克风数量(5/7/10个)发现,当A组为7个、B组固定17个时,以第一个说话人为例,其短时客观可懂度(STOI)从处理前的37.35%提升至92.16%,信干比(SIR)从1.40dB跃升至25.37dB,信畸比(SDR)达到9.49dB。在实际办公室环境(2.94×4.4×3.04米,混响时间410ms)的验证中,使用15个麦克风(A组5个,B组10个)对2个说话人与2个噪声源进行分离。个噪声源,Q个麦克风被划分为两组(A组和B组),其接收信号可表示为传递函数矩阵与声源信号的线性组合。

2025-03-28 11:32:20 1438

原创 开源超越GPT-4o!中国团队造出“SQL翻译官”,250万数据炼成真功夫

未来,有望扩展至多语言、多数据库引擎场景,在自然语言交互式数据分析中发挥更大作用,推动大数据和人工智能技术发展应用。从自然语言问题到SQL查询的推理步骤,让用户明白模型如何得出结果,提高模型可解释性与用户信任度,也方便研究人员优化模型。训练时,模型学习问题到SQL的转换,也学习每步推理逻辑,提高推理准确性与可靠性,向用户展示透明推理过程,增强信任。在Spider、BIRD等9个权威文本转SQL基准测试中,OmniSQL成绩优异,,不依赖外部SQL修正模块,减少系统复杂性与维护成本,提升运行效率与稳定性。

2025-03-18 15:13:44 1412

原创 LIFT:将长上下文知识注入模型参数,提升大模型长文本能力

为了在模型原有能力和微调后新的参数内知识之间找到平衡,我们提出了一种专门的参数高效微调模块——门控记忆适配器(Gated Memory Adapter),它能平衡原始模型的 In-Context Learning(ICL)能力和 LIFT 训练后对长输入的记忆理解能力。针对每一篇需要处理的长文本,LIFT 通过分段的 language modeling 以及精心设计的辅助任务来微调模型,实现用模型参数来记忆和理解长文本,从而避免过长的 context 造成的推理复杂度提升和长程依赖丢失。

2025-03-18 15:06:51 780

原创 DeepSeek一口气开源3个项目,训练速度,GPU利用,优化经验

DeepSeek 的开源周已经进行到了第四天。今天这家公司一口气发布了两个工具和一个数据集:DualPipe、EPLB 以及来自训练和推理框架的分析数据。来源丨新智元、机器之心、赛博禅心DeepSe此次本次开源的三个项目:DualPipe:一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法;EPLB:一个针对V3/R1的专家并行负载均衡工具;深入分析V3/R1模型中的计算与通信重叠机制。

2025-02-28 11:13:19 855

原创 【直播预告】Xmart•学生论坛丨袁锐斌:Scaling Foundation Models for Music

音乐是跨越人类文明的通用语言,与创造力、文化和情感深度融合。本次演讲将分享我们在构建开源音乐基础模型过程中的探索历程。我们秉持"AGI不仅应理解与创作音乐,也应从音乐学习中受益"的愿景,系统性地推进音乐智能研究。首先介绍业界广泛应用的MERT——基于音频模态的音乐理解模型。随后展示如何将符号音乐理解与生成能力融入LLaMA框架,实现自然语言与符号表征的统一建模(ChatMusician)。

2025-02-28 11:11:03 801

原创 OpenAI开源SWELancer,大模型冲击100万年薪

具体来讲,SWE-Lancer 包括了独立工程任务(从 50 美元的 bug 修复到 32,000 美元的功能实现)和管理任务,其中模型选择各种技术实施方案。目前,测试模型代码能力的基准主要有SWE-Bench和SWE-BenchVerified,但这两个有一个很大的局限性,主要针对孤立任务,很难反映现实中软件工程师的复杂情况。对于 OpenAI 开源的这个基准测试,有人认为很棒,并表示随着软件工程中 AI 能力的扩展,拥有标准化的评估方法非常重要,但应该是独立的。任务是全栈式的,而且很复杂。

2025-02-21 11:16:55 1630

原创 人工智能语音合成公司ElevenLabs获1.8亿美元C轮融资,估值33亿美元

此轮融资由Andreessen Horowitz和ICONIQ Growth联合领投,其他投资者包括NEA、World Innovation Lab、Valor、Endeavor Catalyst Fund、Lunate、Sequoia Capital、Salesforce Ventures、Smash Capital、SV Angel、NFDG和BroadLight Capital。近日,据海外媒体报道,人工智能语音合成公司ElevenLabs宣布已完成1.8亿美元的C轮融资,其估值也达到了33亿美元。

2025-02-13 13:49:19 947

原创 小红书最新开源语音识别模型FireRedASR,中文效果新SOTA

值得一提的是,在需要歌词识别能力的场景中,FireRedASR-LLM 也表现出极强的适配能力,CER 实现了 50.2%~66.7% 的相对降低,这一成果进一步拓宽了 FireRedASR 的应用范围,使其不仅能胜任传统语音识别需求,还能在创新性的多媒体场景中大放异彩。FireRedASR-AED(右下):基于经典的 Attention-based Encoder-Decoder 架构,FireRedASR-AED 通过扩展参数至 1.1B,成功平衡了 ASR 语音识别的高准确率与推理效率。

2025-02-13 13:30:59 2475

原创 AI教父辛顿力挺马斯克,明确反对 OpenAI 的营利化转型。

让我们回到2015年,当时的OpenAI是以非营利研究机构的身份诞生的。2024年2月,马斯克发起诉讼,要求北加州联邦法院阻止OpenAI改变其结构,他认为非营利组织不能违背其最初的使命,这些使命得到了包括他在内的捐赠者的支持。Encode认为,OpenAI目前所采用的非营利控制结构提供了必要的治理护栏,如果将控制权移交给营利性实体,这些护栏将被剥夺。作为AI领域的传奇人物,杰弗里·辛顿教授不仅是2024年诺贝尔物理学奖得主,更被誉为"人工智能教父",他深知技术快速发展的背后,风险同样在加速。

2025-01-09 16:04:29 415

原创 ICASSP2025丨上交大跨媒体语言智能实验室12篇录用论文分享

自动音频描述(AAC)的目标是为输入的音频信号生成自然的文本描述。近年来,音频预训练模型和大语言模型(LLMs)的发展显著提升了音频理解和文本推理能力,为AAC的改进带来了可能性。在本文中,我们提出了SLAM-AAC,通过引入重述增强和CLAP-Refine策略进一步提升AAC性能。我们使用音频自监督模型EAT提取细粒度音频表征,并通过轻量级的线性层将其与文本嵌入对齐。生成音频描述的LLM通过LoRA适配器实现高效微调。借鉴机器翻译中的回译方法,我们在预训练阶段实施了重述增强策略,以扩展Clotho数据集。

2025-01-09 15:49:55 5116

原创 AI首次自主发现人工生命!人类窥见上帝造物

Sakana AI联合MIT、OpenAI等机构提出了全新算法,自动搜索人工生命再达新的里程碑!不需要繁琐手工设计,只通过描述,AI就能发现全新的人造生命体了。就在刚刚,由Transformer八子创立的Sakana AI,联合来自MIT、OpenAI、瑞士AI实验室IDSIA等机构的研究人员,提出了「自动搜索人工生命」的新算法!言归正传,ALife,即「人工生命」,是一门跨学科研究,旨在通过模拟生命的行为、特性和演化过程来理解生命的本质,通常结合了计算科学、生物学、复杂系统科学以及物理学等领域。

2024-12-26 13:46:06 1092

原创 CultureLLM 与 CulturePark:增强大语言模型对多元文化的理解

本文介绍团队刚刚在加拿大温哥华召开的顶会NeurIPS 2024上发表的两篇系列工作:CultureLLM 和CulturePark。此项研究以生成文化数据并训练文化专有模型为主要手段,旨在提升已有基础模型的多文化理解能力,使得其在认知、偏见、价值观、在线教育等不同场景下的文化理解任务上均得到提升。

2024-12-26 13:28:45 1574

原创 隔墙有耳:非视距声学成像算法介绍

具体而言,从发射阵列发出chrip信号,并通过麦克风阵列测量返回的波形,并通过分析多次反射的声音效应来解决拐角成像的问题。共焦测量是指发射和接收位置相同或非常接近的情况,可以通过直接捕捉从物体表面反射回来的信号,来重建物体的形状。这表明,通过信号的傅里叶变换,我们能够通过分析信号的延迟来推断反射器的位置和物体的几何形状。由于非共焦测量的数据具有额外的传播时间延迟,需要对时间维度进行重采样,以将这些额外的传播时间调整回共焦测量对应的时间。这是通过对时间数据进行适当的调整和插值,消除由偏移带来的额外时间差异。

2024-12-20 10:37:38 1156

原创 市场规模超 60 亿美元,语音如何改变对话式 AI?

本篇报告的作者 Lightspeed 投资了 Character.ai(AI 角色对话)、Cartesia(语音 AI 模型)、Volley(语音 AI 游戏) 、Yellow.ai(语音 AI 客服)等语音 AI 公司。不同于此前分享的侧重企业应用场景分析,Lightspeed 此篇报告更关注语音 AI 底层技术模型的演进趋势。语音技术的演变:语音技术从 1970 年代的「交互式语音应答」(IVR)系统发展到现代智能语音电话树,再到如今的 LLM 系统,用户体验不断提升。

2024-12-20 10:35:56 1225

原创 通义实验室开源 ClearerVoice-Studio语音处理框架

随着语音技术的普及,语音质量已成为人们关注的焦点。环境噪声、混响、设备拾音等问题,常常使语音质量和可懂度大打折扣。无论是录制清晰语音却因周围环境嘈杂充满噪声,还是在地铁、餐厅等喧闹场景中与人通话时不得不提高嗓音,这些场景都体现了语音处理技术的迫切需求。特别是在复杂的多人对话环境中,如何,避免其他干扰,一直是语音处理领域的难点和热点。,一个集成等功能的语音处理框架。通过融合复数域深度学习算法,我们大幅提升了语音降噪和分离的性能,能够最大限度地消除背景噪声并保留语音清晰度,同时保持语音失真最小化。

2024-12-12 14:25:01 1923

原创 空间智能版ImageNet来了!李飞飞吴佳俊团队出品

要求模型对视频中的关键事件、主要交互等进行概括性描述,例如总结出脖子上挂了个相机的人在超市中有什么关键交互行为。

2024-11-12 14:12:58 994

原创 OpenAI华人VP翁荔离职:北大校友,掌管安全,最近B站分享被热议

就在刚刚,那个掌管OpenAI安全的北大校友,OpenAI研究副总裁(安全),离职了。翁荔是OpenAI华人科学家、ChatGPT的贡献者之一。北大毕业后,翁荔在2018年加入OpenAI,后来在GPT-4项目中主要参与预训练、强化学习和对齐、模型安全等方面的工作。。而就在前不久,她还刚刚现身,发表了的主题演讲。

2024-11-11 17:01:58 771

原创 微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑

Transformer自问世后就大放异彩,但有个小毛病一直没解决:总爱把注意力放在不相关的内容上,也就是信噪比低。微软亚研院、清华团队提出全新改进版 Differential Transformer,专治这个老毛病,引起热议。

2024-11-06 11:09:35 799

原创 刚刚,ChatGPT变身AI搜索免费用!OpenAI颠覆谷歌,搜索变天了

ChatGPT搜索重磅登场!在过去几周,他表示,自己玩的爱不释手,让使用量直接翻一番,甚至再也回不到过去了。ChatGPT会为你制定出一份完美的规划,从整条路线起始点,沿途驻足的网红打卡点,到交通工具选择、旺季时间,再到酒店预定等一系列必备问题,都会为你贴心地考虑到。不过,即使启用AI搜索,会话中的每个查询也不一定会用到Grounding,以后这会导致额外的成本和延迟。技术层面,搜索模型是GPT-4o的微调版本,通过创新的合成数据生成技术进行二次训练,包括从OpenAI o1-preview中蒸馏的输出。

2024-11-01 14:03:44 1197

原创 开放下载丨超自然对话语音合成数据集NCSSD

🔎 超236小时自然对话语音数据,包括搜集自互联网的电视剧集片段(搜集子集),以及人工录制的对话内容(录制子集)。🌏 支持两种语言:中文(Zh)和英语(En)📣 丰富的对话场景,涵盖多种对话主题和内容,丰富的说话人(776人以上)。🏆 基于NCSSD训练的GPT-Talker性能优秀,可以为agent合成自然且具有表现力的对话语音。NCSSD 数据集统计GPT-Talker模型结构图NCSSD数据集构建过程。

2024-11-01 11:36:28 1252

原创 语音语言模型最新综述! 关于GPT-4o背后技术的尝试

SpeechLMs作为一种新兴的语音交互技术,展现出了巨大的潜力。它不仅能够克服传统ASR+LLM+TTS方案的局限性,还能实现更自然、更丰富的人机语音交互。随着研究的深入,我们有理由相信SpeechLMs将在未来的AI语音交互中扮演越来越重要的角色。

2024-10-25 15:13:36 1887

原创 中科大&科大讯飞开源OpenMusic:音乐生成更高质量,更有乐感

为了解决这些挑战,今天和大家分享一种全新的高质量音乐生成范式,该范式结合了质量感知训练策略,使生成模型能够在训练过程中辨别输入音乐波形的质量。创新性地将masked扩散Transformer引入到音乐信号中,展示了其在建模音乐潜在空间上的独特效果,以及其在质量控制感知方面的卓越能力,从而进一步提升了生成音乐的质量和音乐性。文本对齐度低,大多数的音频处于少标签,弱标签,错标签。提出了一种质量感知训练范式,使模型在训练过程中能够感知数据集的质量,从而在音乐性(美学角度)和音频质量方面实现卓越的音乐生成效果。

2024-10-16 17:55:04 1079

原创 诺贝尔物理学奖为啥颁给AI?谈谈人工智能的历史变迁及对人类社会的影响

直到2012年,Geoffrey Hinton带着他的学生Alex在李飞飞构建的ImageNet图像大数据上,用提出的Alex网络将识别性能比前一届一次性提高将近10个百分点,这才让大部分的人工智能学者真正转向深度学习,因为以之前每届用统计机器学习方法较上一届提升性能的速度估计,这次的提高需要用20多年时间。尽管从神经生理学角度来看,这个网络的记忆能对应于原型说,每个神经元可以看成是一个具有某个固定记忆的离散吸引子(Discrete Attractor),但它的记忆是有限的,且不具备良好的几何或拓扑结构。

2024-10-10 14:46:45 1166

原创 刚刚,2024年诺贝尔物理学奖揭晓,John J. Hopfield、Geoffrey E. Hinton 获奖 !

分别是1903年的Marie Curie,1963年的Maria Goeppert-Mayer,2018年的Donna Strickland、2020年的Andrea Ghez及2023年的Anne L’Huillier。2019年——美国科学家James Peebles获奖,获奖理由是“在物理宇宙学的理论发现”;2022年——Alain Aspect,John Clauser及Anton Zeilinger获奖,以表彰他们在“用纠缠光子进行实验,建立了贝尔不等式的违反,开创了量子信息科学的先机”的贡献。

2024-10-09 11:36:31 664

空空如也

web socket server,用的onnx的模型,加上热词后,score从3-10都试了下,没有起作用。onnx模型,是从非流模型导出的,会是这个原因吗?

2022-08-01

一般外呼场景都是8k采样率的录音, 假设模型都一样 ,8k和16k不同采样率训练出的模型准确率会有差距吗?

2022-07-22

WeNet进行一些简单的优化rtf大概能到多少?

2022-08-01

-context_score 这个值是什么范围?一般多少合适?

2022-07-22

web socket server支持语言模型吗?

2022-07-22

在流式识别中,如何解决背景噪音带来的干扰?

2022-07-22

web socket server 配置了 热词的文本文件后,如果有追加或更新,需要重启服务么?还是说,自动就生效了?

2022-07-22

不把16k降到8k维护一套8k的是因为16k准确率高吗?如果有存储需求16k意味着存的音频占的硬盘翻倍了,rtf也会下降吧

2022-07-22

为什么这里算概率一定要把这些全部加起来,为什么不能像一个一个地算,求出最大概率为声学对齐结果呢?

2022-07-22

CTC的尖峰效应,是不是可以理解为:目标函数约束前面的神经网络,将一个词的多帧信息,集中到了'尖峰'这一帧?

2022-07-20

热词的文件是什么结构?

2022-07-20

web socket server 怎么启用热词?

2022-07-20

如果想充分理解一个预训练模型的算法,比如aishell预训练模型,应该从哪入手?

2022-07-19

端到端模型对于领域文本优化有什么方案可以在实际应用中使用的?

2022-07-19

当前最新的比较好的算法好像也就是 conformer了,还有比这更好的吗,如果找不到更好的算法,应该从哪些方面来优化预训练模型呢?

2022-07-19

WeNet有什么独特的地方吗?比如流识别方面?

2022-07-19

目前WeNet的时间戳方案不太准确(一是静音的判断不准确,二是字与字的时间戳是连着的,无论中间静音有多大),请问有什么方案可以提高时间戳的准确度吗?

2022-07-19

WeNet 转 onnx 的时候要拆成几个模型导出,可以合并为一个吗?

2022-07-19

热词增强和热词唤醒在实现上的区别是什么?

2022-07-05

请问现在工业上用传统的技术多还是端到端的技术多啊?

2022-07-05

aishell example运行stage 4,遇到这个报错,请问是什么问题?

2022-08-03

如果想要在WeNet放出来的checkpoint模型u2pp_conformer_exp上增量训练,需要怎么做?

2022-08-03

模型测试时,使用的average model,这是什么方法,有没有参考资料。

2022-08-03

用了aishell的数据集报这种问题的原因是什么?

2022-08-03

WeNetspeech数据集的采集处理脚本代码,有没有开源呢?能否用这个代码自己去采集数据?

2022-08-03

stage1这个报错是为什么? sudo了一下,conda,pytorch环境都已经按要求配置好了

2022-08-03

想着用自己电脑训模型,理论上可以吗?

2022-08-03

sort是让一个batch内的音频按顺序排列吗?

2022-08-02

最后一个模型量化,在x86上也是有必要的吗?速度会提升多少?

2022-08-02

这里用conv2d做降采样的原理是什么?为什么用两个conv2d,第一次conv2d通道是从1->odim,第二次conv2d从odim->odim?第一次通道数为什么要改变?

2022-08-02

实战1课程AIshell-1模型训练,到stage4 neural network training训练的时候报了这个runtime 的错,是什么原因?

2022-08-02

单并发,用的WeNetspeech离线大模型以及libtorch1.10,rescore和search都在500ms+,,为什么这么慢呢?一般TLG有多大呀?语言模型大小会很影响速度的吧?

2022-08-02

热词标记,但是最后没有实现是因为什么?

2022-08-01

热词输出带上 context 的标志了,是不是通过参数可以控制?还是要改下代码,去掉?

2022-08-01

我们测试websocket server 在高并发连接情况下出现连接慢的情况,这个是同时100个ws连接下出现的。这个有什么好的解决办法吗?

2022-08-01

一般这种websocket 如何做高并发,有没有好的解决方案呢

2022-08-01

目前如果用WeNet,如果要使用一台服务器支持100个并发,这样需要什么要配置才能满足要求?

2022-08-01

conf中shuffle和sort为什么不冲突,而且注解说sort size必须小于shuffle size

2022-08-01

请问cmake -B build的时候报这个错,大家有遇到的吗?

2022-08-03

这个热词文件,有行数限制么?比如:3万行,可以么?

2022-08-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除