自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(315)
  • 问答 (44)
  • 收藏
  • 关注

原创 WeNet语音识别实战

音之家-AI工匠学堂推出《WeNet语音识别实战》, WeNet是目前工业界最流行的开源端到端语音识别系统之一,也是学习端到端语音识别的最佳实践项目。语音识别的学习者和从业者,可以通过学习这门课程高效全面的掌握WeNet的基本原理和实战方法,降低自己摸索的成本,快速构建出高性能的语音识别系统。...

2022-06-21 15:06:58 6093 3

原创 通过语音预测自杀风险:多模态大语言模型的新进展

本研究通过采集参与者在任务设置下自发产生的语音数据,利用多模态大数据模型融合文本和音频信息,为精准预测自杀风险开辟了新的可能性。

2024-07-23 14:44:31 775

原创 混元单日调用tokens达千亿后,腾讯大模型战略露出全貌

对大模型行业玩家的评判标准也不再只看技术。战略布局、落地进展、未来判断……成为了更被重视的维度。无论“杨植麟们”还是大厂高管,公开探讨大模型的频率越来越高,包括一直低调的腾讯。前脚,腾讯云与智慧产业事业群CEO汤道生万字采访释出,回应“关于腾讯大模型的一切”;后脚,在万众瞩目的WAIC上,腾讯云副总裁、腾讯云智能、腾讯优图实验室负责人吴运声带来大模型产品最新进展。

2024-07-18 17:17:33 892

原创 一口气投出4家具身智能明星创企,联想创投王光熙:中国应是机器人最大用户国/生产国

国内To B方面,用户付费意愿比较低,厂商之间内卷也比较严重。To C方面更是如此,其刚需性来自于机器人的泛化能力、场景渗透和应用服务。对于普通消费者而言,购买一个智能硬件,不仅为了购买硬件本身和软件OS能力,

2024-07-18 16:51:21 1040

原创 爆火AI惨遭阉割,1600万美国年轻人集体「失恋」? Character AI被爆资金断裂,00后炸了

最近,在美国00后中爆火的Character AI,竟然把聊天机器人对话模型给「阉割」了?愤怒的年轻人们冲进社区,抱怨的声浪快要掀翻天了!而这背后,似乎还有谷歌或Meta的授意。美国当今最火爆的社交软件Character AI,竟然开始「阉割」自己的模型了?然而最近,广大美国青少年发现,他们心爱的Character AI模型,再也不是以前的模样了。面对浪漫的角色扮演请求,模型的回答变得很短,很不解风情,根本没有以前那个味儿了。连说一句「kill」,都成了敏感词,立刻被标记出来。

2024-07-03 15:55:31 920

原创 豆包文科成绩超了一本线,为什么理科不行?

没错,最近就有这么一项大模型评测走红了。:562分:542.5分……从结果中来看,GPT-4o的表现依旧是处于领先状态,而在这边,比较亮眼的成绩便属于了。并且在和等科目的成绩甚至还超越了GPT-4o。这也让不少网友纷纷感慨:AI文科成绩这么好,看来在处理语言和逻辑上还是很有优势的。不过有一说一,毕竟国产大模型的竞争是如此之激烈,这份评测的排名真的靠谱吗?发布仅数月的豆包,真具备此等实力吗?以及这数学……又是怎么一回事儿?

2024-07-03 15:34:46 654

原创 240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开

是时候把数据Scale Down了!Llama 3揭示了这个可怕的事实:数据量从2T增加到15T,就能大力出奇迹,所以要想要有GPT-3到GPT-4的提升,下一代模型至少还要150T的数据。好在,最近有团队从CommonCrawl里洗出了240T数据——现在数据已经不缺了,但你有卡吗?是时候把数据Scale Down了!如今,这个问题已经迫在眉睫。

2024-06-27 11:58:54 769

原创 【论文导读】CCF语音对话与听觉专委会论文导读(2024年第1期)-- INTERSPEECH 2024专题(一)

为促进最新研究成果的传播与交流,CCF语音对话与听觉专委在专委会微信公众号启动论文导读栏目,定期分享最新语音、对话与听觉相关研究方向论文。本期是2024年导读栏目的第1期,也是INTERSPEECH 2024专题第一部分,共遴选了7篇论文,覆盖声学场景分类、语音自监督表征、语音编辑、频带拓展、音频生成、伪造语音检测等研究方向。此次INTERSPEECH2024专题导读论文仍在持续征集中,欢迎踊跃投稿,投稿方式请参见文末指南。1-Low-Complexity Acoustic Scene C

2024-06-27 11:48:26 706

原创 吴恩达:从 Agent 到 Agentic,超越基础模型的下一代 AI

Agentic AI:超越基础模型的下一代 AI — 来自吴恩达的洞察“与其争论哪些工作才算是真正的 Agent,不如承认系统可以具有不同程度的 Agentic 特性。” —— 吴恩达。

2024-06-20 11:53:21 1114

原创 字节内测「海绵音乐」,中文能力Max!“AI+音乐”赛道成抖音真正的动机!

除了TikTok Music、Resso和汽水音乐等流媒体应用外,字节跳动还与环球音乐、索尼音乐和华纳音乐等顶级音乐版权商建立了合作关系,积累了丰富的音乐资源。不过体验下来,生词水平表现的平平无奇,可能是因为海绵音乐的训练数据较少,目前其所生成的音乐还缺乏新意,建议最好还是手动输入歌词。腾讯旗下的QQ音乐的热歌榜单被抖音神曲全面占领,这一现象不仅改变了音乐行业的格局,也揭示了短视频平台在音乐传播中的巨大潜力。抖音在进军“AI+音乐”的赛道上,将充分结合AI技术的力量,发挥其在中文音乐领域的优势。

2024-06-20 11:34:20 412

原创 两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

论文的四位作者来自不同的学术机构,但都是德国非营利AI研究机构LAION的成员。共同一作Marianna Nezhurina,是JSC/图宾根大学的博士生,LAION的核心研究员。她对多模态数据集和学习有浓厚兴趣。另一位共同一作Jenia Jitsev,是德国Juelich超算中心的实验室负责人,也同时是LAION和Ontocord.AI的联合创始人,他研究的长期目标是从多模式数据流中实现模型可自我调节且节能的持续学习。

2024-06-14 11:10:56 601

原创 苹果推出2英寸变色龙手持设备,可接收语音命令、触摸输入和手势

设备#10的形状可以是圆形、圆形、椭圆形、矩形、鹅卵石或岩石形状、立方体形状和/或其他合适的形状。手持电子设备可以用作语音控制助手,可以用作运行一个或多个软件应用程序(例如,天气应用程序、音乐应用程序、计算器应用程序、日历应用程序、支付应用程序等)的独立电子设备,可以用作扬声器、灯、厨房用具等家居用品的遥控器,可以用作增强现实或虚拟现实系统中的锚点或视觉标记,可以用作收集输入和/或提供与外部电子设备(例如一对耳机、扬声器、蜂窝电话、平板电脑、笔记本电脑、头戴式设备等)相关的输出的附件设备或其他功能。

2024-06-14 10:33:58 944

原创 浅谈GPT-4o, 语音的 ChatGPT 时刻!

千呼万唤始出来,语音的 ChatGPT 时刻终于来了!当 ChatGPT 引爆世界后,语音的从业者就一直在期待、想象、实验、推进基于 LLM 的语音交互应用和技术,OpenAI 自己也推出了 Whisper 识别、合成的语音模型,但之前更多的是持续性的改进和小的创新,远未有当初 ChatGPT 那样颠覆性的体验和效果。今天,仍然是 OpenAI,AI 行业的风向标,他来了,带着 GPT-4o 来了!GPT-4o 中有很多方面的改进,然而,最大最颠覆性的,还是在语音交互。

2024-06-06 17:03:38 1010

原创 老黄一口气解密三代GPU!粉碎摩尔定律打造AI帝国,量产Blackwell解决ChatGPT全球耗电难题

Hopper和Blackwell系列的推出,标志着英伟达逐渐搭建起完整的AI超算技术栈,包括CPU、GPU芯片,NVLink的GPU通信技术,以及NIC和交换机组成的服务器网络。老黄表示,「数字人类将彻底改变各个行业,ACE提供的多模态LLM和神经图形学的突破,使我们更接近意图驱动计算的未来,与计算机的交互将如同与人类的交互一样自然」。一手硬件,一手CUDA,老黄胸有成竹地穿过「计算通货膨胀」,放出豪言预测道——在不久的将来,每一个处理密集型应用都将被加速,每一个数据中心也肯定会被加速。

2024-06-06 16:52:45 524

原创 ACL2024 | StreamVoice:基于流式上下文感知语言建模的实时零样本语音转换

流式零样本语音转换(streaming zero-shot voice conversion)是指能够实时的将输入语音转换成任意说话人的语音,且仅需要该说话人一句语音作为参考,且无需额外的模型更新。现有的零样本语音转换方法通常是为离线系统设计,难以满足实时语音转换应用对于流式能力的需求。近期基于语言模型(language model, LM)的方法在零样本语音生成(包括转换)上展现出卓越的性能,但是需要整句处理而局限于离线场景。近期,西工大音频语音与语言处理研究组(ASLP@NPU)与抖音合作的论文 “

2024-06-05 17:24:57 863

原创 Pipecat: 创建语音对话agent的开源框架,支持多模态!

pipecat是用于构建语音(和多模态)对话代理的框架。诸如私人教练、会议助理、儿童讲故事玩具、客户支持机器人、摄入流程和尖刻的社交伙伴。看看一些示例应用:语音活动检测 — 对于了解用户何时完成与机器人的通话非常重要。如果您不使用按压通话,并希望 Pipecat 检测用户何时完成通话,VAD 是自然感觉对话的重要组成部分。Pipecast 在使用 WebRTC 传输层时默认使用 WebRTC VAD。或者,您可以使用Silero VAD来提高精度,但代价是CPU使用率更高。

2024-05-30 17:12:01 496

原创 IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名

说话人匿名(Speaker Anonymization)旨在隐藏说话人的身份,同时保留原始语音的自然性和独特性。说话人匿名作为一种有效的隐私保护解决方案,当前的主流匿名方案使用预训练自动说话人验证(ASV)模型中的话语级向量来表示说话人身份,然后对其进行平均或修改以实现说话人匿名。然而,匿名后语音的自然度、说话人独特性方面有所下降,并且在应对强大攻击者时存在严重的隐私泄漏问题。

2024-05-30 16:49:20 621

原创 迈向语音大模型的平权之路

什么样的事情最有价值?。把 1B 级别的大模型优化到和 200M级别模型相同水平的 RTF 同时 WER 维持代差,难道不是一件该令人亢奋的事情吗?在两个月前的年度总结中,WeNet 社区已经开始向着更“大”更“强”迈进,去全面拥抱语音大模型的无限未来。然而,横在语音大模型面前的还有两座必须翻越的山峰:和。经过 2023 年下半年的努力,WeNet 已经翻越了第一座山峰,达成了。

2024-05-22 13:48:28 858

原创 GPT-4o, 语音的 ChatGPT 时刻终于来了!

千呼万唤始出来,语音的 ChatGPT 时刻终于来了!当 ChatGPT 引爆世界后,语音的从业者就一直在期待、想象、实验、推进基于 LLM 的语音交互应用和技术,OpenAI 自己也推出了 Whisper 识别、合成的语音模型,但之前更多的是持续性的改进和小的创新,远未有当初 ChatGPT 那样颠覆性的体验和效果。今天,仍然是 OpenAI,AI 行业的风向标,他来了,带着 GPT-4o 来了!GPT-4o 中有很多方面的改进,然而,最大最颠覆性的,还是在语音交互。

2024-05-20 17:32:17 1225

原创 Codec-SUPERB @ SLT 2024: 编解码器语音处理通用性能基准

神经音频编解码器最初被引入是为了将音频数据压缩成紧凑的代码,以减少传输延迟。最近,研究人员发现编解码器作为将连续音频转换为离散代码的合适分词器的潜力,这些代码可以用来开发音频语言模型(LM)。神经音频编解码器在最小化数据传输延迟和作为分词器的双重角色突显了其关键重要性。近年来,编解码模型取得了重大进展。在过去三年内,开发了许多高性能的神经音频编解码器。理想的神经音频编解码模型应该保存内容、副语言信息、说话者和音频信息。

2024-05-16 11:10:06 1016

原创 浅谈音频鉴黄技术

基于音频的鉴黄技术包括了基于内容的音频分类算法[7]以及基于声音事件检测的算法[8]。基于内容的音频检测常依赖于诸如梅尔倒谱系数(MFCC)等特性来实现音频的初步文本化,再利用文本分类模型来判断音频内容。这种方法的研究重心主要在于两个子任务:音频文本化,即语音识别和文本分类。如麻旭妍[9]提出了一种结合音频分类技术和模式匹配的方法。在此方法中,首先进行滤波、预处理和端点检测,以实现部分音频的分类与处理,从而进一步提纯音频,降低杂质并优化运算时空。

2024-05-14 14:59:04 885 1

原创 IJCAI 2024|第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题

聚焦于语音深度鉴伪识别领域,旨在激发全球算法爱好者和专家的创新潜力,共同应对由人工智能技术发展带来的挑战。

2024-05-13 14:33:52 184

原创 ICME2024 | 基于半监督对比学习的表现力语音合成

在单一语种的中文数据集以及多语种的中英混合的数据集上,大量实验表明我们提出的方法可以实现语音中风格、情感、音色、语种的解耦与重组,为目标说话人合成自然、高表现力的双语多风格多情感语音。如表1所示,提出的方法取得了最优的自然度,最高的情感、音色、风格相似度,反映出其有效地解耦了情感、音色、风格,并实现了重组。尽管之前的方案在中文上为目标说话人合成了极具表现力的语音,但它在英文上的表现不佳,发音错误较多,且两阶段的系统存在级联误差,影响了合成语音的自然度。针对这些问题,在本文中,我们进一步简化了框架,

2024-05-07 13:59:31 822

原创 WhisperCLI-本地部署语音识别系统;Mis开源LLM推理平台;Dokploy-开源版Vercel;Mem-大规模知识图谱

近日,一项旨在为AI设备构建开源生态系统的尝试引起了大众的广泛关注。它的目标是通过提供一个开放的平台,使得全球的开发者和研究人员可以更好地进行AI设备的开发和研究。项目的开源性质将有助于推动技术的创新,通过全球开发者的共同努力,可以推动AI设备的技术进步。Moondream 2模型的这一创新应用,使得AI技术的使用更加便捷和高效,为未来的AI边缘计算开辟了新的可能。最新的研究论文展示,通过新的装包格式FP6-LLM,可以在不引发常见不稳定性或由于尝试不当引发的训练速度下降的情况下,实现全张量核心的利用。

2024-05-06 17:57:31 1427 3

原创 苹果AI终于来了!从2.7到30亿四款大模型代码全开源,AI技术持续“狂飙”|钛媒体AGI

还使用了与Meta的Llama相同的分词器,以确保实验的一致性。苹果在论文中还表示,与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,苹果发布的版本包含了在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。虽然最小的参数只有2.7亿,但苹果使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在内的公共数据集,一共约1.8万亿tokens数据进行了预训练,这也是其能以小参数表现出超强性能的主要原因之一。

2024-04-26 16:20:40 1023

原创 CHiME-8多通道远场语音识别Baseline介绍

语音领域每年都有很多比赛,每个比赛都有自己的侧重点,其中CHiME系列比赛的侧重点就是多通道远场语音识别,与其他的语音识别比赛有所区别的是,CHiME提供分布式麦克风和麦克风阵列数据,这样可以选择合适的前端算法以降低识别的WER,著名的也是在这个比赛中提出的。CHiME比赛今年已经是第8届了,今天我们一起看看下官方提供的基线系统。自从CHiME7之后,麦克风阵列的几何结构信息就不能被用于前端语音增强,因此一些传统的方法无法使用。

2024-04-26 16:15:44 1220 1

原创 融合ChatGPT+DALL·E 3,这模型该有多强?

香港中文大学终身教授贾佳亚团队提出多模态模型更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,堪称王炸。Mini-Gemini还提供了2B小杯到34B的超大杯,最强模型在多个指标上相比谷歌的Gemini Pro甚至GPT-4V都不遑多让。目前,Mini-Gemini,登上了PaperWithCode热榜。,超会玩梗,一起来体验下!

2024-04-17 14:40:52 1104

原创 IEEE TASLP | METTS:基于跨说话人跨语种情感迁移的多语种情感语音合成

CVAE的条件是多语种的文本,建立与文本相关的情感表达,实现语种特定的情感建模。此外,METTS-REF的情感相似度优于METTS-ID,证明直接迁移参考音频的情感会带来与参考音频更高的情感相似度。可以看到,按照情感染色时,中文的情感聚类较好,说明其有效地捕捉了情感信息。在跨语种合成语音时,说话人原始语种的发音方式会影响“第二语言”的表达,导致外语口音问题,尤其在情感表达复杂的情境下更为严重。然而,人类情感表达丰富多样,因此合成多样化的情感语音并灵活控制生成语音的情感是一项巨大的挑战。

2024-04-17 14:17:48 977

原创 全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类

这次的Claude 3,更是整了个大的,一次就发了三个模型——Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高。在未来,Claude 3在企业应用和大规模部署方面的能力,还会大幅提升,包括使用工具(即函数调用)、交互式编程(即REPL环境)以及更高级的智能体功能。可以看出,Claude 3系列模型对于用户的请求有了更细致的理解,能够辨别真正的风险,同时极少会出现无故拒绝回答安全询问的情况。而这一次的Claude 3系列,已经在这方面取得了显著改进。

2024-03-29 17:24:38 710

原创 ​Edge-TTS:微软推出的,免费、开源、支持多种中文语音语色的AI工具

edge-tts --voice zh-CN-YunyangNeural --text "大家好,欢迎关注语音之家,语音之家是一个助理AI语音开发者的社区。查询结果中的Gender为声音的性别,Name为声音的名字,如zh-CN-YunjianNeural,其中zh表示语言,CN表示国家或地区,可以根据需求选择不同的声音。它接受与 edge-tts 选项相同的参数。此外,必须使用 --rate=-50% 而不是 --rate -50%(注意等号的缺失),否则 -50% 将被解释为另一个参数。

2024-03-22 15:30:00 4599

原创 全球首个AI程序员诞生,码农饭碗一夜被砸!10块IOI金牌华人团队震撼打造,996写代码训练模型

从为期8周的训练营毕业,然后找到一份价值 20 万美元的工作,这样的日子已经一去不复返了。它首先使用了Shell Deon CLS存储库,然后阅读了自述文件和编辑器,了解了子代码,然后,它返回Shell,安装了所需要的依赖项。接下来,就是献技的时刻,Devin克隆了GitHub库,了解如何使用readme运行,设置好所需pip的要求,查看所有的脚本语言,并开始运行。众所周知,编程竞赛的核心就是要迅速准确地解决编程难题,强调快速解决复杂问题的能力,而且对于创新的解决问题的思路有着很高的要求。

2024-03-21 11:11:22 810

原创 文本到语音合成系统 ,开源!

TTS(Text To Speech,文本转语音)是一种将文字转换为语音的技术,它可以将计算机程序生成的文字转化为人类可以听懂的声音。TTS技术利用自然语言处理和语音合成技术,将文本转化为语音,并可以通过音频播放设备输出语音。

2024-03-15 14:27:20 451

原创 VideoDubber时长可控的视频配音方法

本次分享由中国人民大学、微软亚洲研究院联合投稿于AAAI 2023的一篇专门为视频配音任务定制的机器翻译的工作《VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing》。这个工作将电影或电视节目中的原始语音翻译成目标语言。

2024-03-11 15:07:19 826

原创 2.8k star! 用开源免费的edge-tts平替科大讯飞的语音合成服务

edge-tts是github上的一个开源项目,可以免费将文本转为语音,别看它只有2.8k star,替代科大讯飞的收费TTS服务完全没问题,因为这个项目实际是调用的微软edge的在线语音合成服务,支持40多种语言,300多种声音,效果毋容置疑。

2024-03-04 15:44:40 2021 2

原创 ICASSP2024 | ICMC-ASR 车载多通道语音识别挑战赛总结

为促进驾驶场景中语音处理和识别研究,在ISCSLP 2022上成功举办智能驾驶座舱语音识别挑战 (ICSRC)的基础上,西工大音频语音与语言处理研究组 (ASLP@NPU)联合理想汽车、希尔贝壳、WeNet社区、字节、微软、天津大学、南洋理工大学以及中国信息通信研究院等多家单位在ICASSP2024上推出了车载多通道语音识别挑战赛(ICMC-ASR)。

2024-03-01 14:24:30 1283

原创 多模态说话人开源项目3D-Speaker

3D-Speaker是通义实验室语音团队贡献的一个结合了声学、语义、视觉三维模态信息来解决说话人任务的开源项目。本项目涵盖说话人日志,说话人识别和语种识别任务,开源了多个任务的工业级模型,训练代码和推理代码。

2024-02-29 11:04:07 1896

原创 论文分享|AAAI2024 基于异构图上下文建模实现对话语音合成的情感渲染

本次分享内蒙古大学S2LAB与字节跳动、港中文(深圳)合作,关于情感对话语音合成的工作《Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling 》。该工作利用异构图实现情感上下文建模机制,生成符合对话语境的情感语音,实现了对话语音合成的情感渲染。该工作被AAAI 2024录用。

2024-02-28 14:55:25 1186

原创 优化回声消除过程:AEC Challenge冠军方案线性部分解析

我们知道在WebRTC的AEC中包含两个部分,参考WebRTC AEC 流程解析,分别是线性部分,用于消除线性回声;非线性部分,用于消除硬件等引入的非线性部分。这里的线性部分采用了分块频域自适应滤波器(Partitioned Block Frequency Domain Adaptive Filter, PBFDAF),这个滤波器在Speex中称为分块频域波器(Multidelayblock frequency Filter,MDF), 其实它们原理是一样的,都是基于NLMS的自适应滤波器。

2024-02-27 14:59:08 930

原创 ICASSP2024 | MLCA-AVSR: 基于多层交叉注意力机制的视听语音识别

视听语音识别(Audio-visual speech recognition, AVSR)是指结合音频和视频信息对语音进行识别的技术。当前,语音识别(ASR)系统在准确性在某些场景下已经达到与人类相媲美的水平。然而在复杂声学环境或远场拾音场景,如多人会议中,ASR系统的性能可能会受到背景噪音、混响和多人说话的重叠的干扰而严重下降。基于视频的视觉语音识别(VSR)系统通常不会受到声学环境的干扰。

2024-02-26 17:32:18 1479

原创 CHiME丨​MMCSG(智能眼镜多模态对话)

CHiME 挑战赛已经正式开启,今天分享下 CHiME 的子任务MMCSG(智能眼镜多模态对话),欢迎大家投稿报名!

2024-02-23 14:00:23 684

空空如也

请问cmake -B build的时候报这个错,大家有遇到的吗?

2022-08-03

想着用自己电脑训模型,理论上可以吗?

2022-08-03

stage1这个报错是为什么? sudo了一下,conda,pytorch环境都已经按要求配置好了

2022-08-03

WeNetspeech数据集的采集处理脚本代码,有没有开源呢?能否用这个代码自己去采集数据?

2022-08-03

用了aishell的数据集报这种问题的原因是什么?

2022-08-03

模型测试时,使用的average model,这是什么方法,有没有参考资料。

2022-08-03

如果想要在WeNet放出来的checkpoint模型u2pp_conformer_exp上增量训练,需要怎么做?

2022-08-03

aishell example运行stage 4,遇到这个报错,请问是什么问题?

2022-08-03

单并发,用的WeNetspeech离线大模型以及libtorch1.10,rescore和search都在500ms+,,为什么这么慢呢?一般TLG有多大呀?语言模型大小会很影响速度的吧?

2022-08-02

实战1课程AIshell-1模型训练,到stage4 neural network training训练的时候报了这个runtime 的错,是什么原因?

2022-08-02

这里用conv2d做降采样的原理是什么?为什么用两个conv2d,第一次conv2d通道是从1->odim,第二次conv2d从odim->odim?第一次通道数为什么要改变?

2022-08-02

最后一个模型量化,在x86上也是有必要的吗?速度会提升多少?

2022-08-02

sort是让一个batch内的音频按顺序排列吗?

2022-08-02

conf中shuffle和sort为什么不冲突,而且注解说sort size必须小于shuffle size

2022-08-01

目前如果用WeNet,如果要使用一台服务器支持100个并发,这样需要什么要配置才能满足要求?

2022-08-01

一般这种websocket 如何做高并发,有没有好的解决方案呢

2022-08-01

我们测试websocket server 在高并发连接情况下出现连接慢的情况,这个是同时100个ws连接下出现的。这个有什么好的解决办法吗?

2022-08-01

热词输出带上 context 的标志了,是不是通过参数可以控制?还是要改下代码,去掉?

2022-08-01

这个热词文件,有行数限制么?比如:3万行,可以么?

2022-08-01

热词标记,但是最后没有实现是因为什么?

2022-08-01

web socket server,用的onnx的模型,加上热词后,score从3-10都试了下,没有起作用。onnx模型,是从非流模型导出的,会是这个原因吗?

2022-08-01

WeNet进行一些简单的优化rtf大概能到多少?

2022-08-01

为什么这里算概率一定要把这些全部加起来,为什么不能像一个一个地算,求出最大概率为声学对齐结果呢?

2022-07-22

不把16k降到8k维护一套8k的是因为16k准确率高吗?如果有存储需求16k意味着存的音频占的硬盘翻倍了,rtf也会下降吧

2022-07-22

一般外呼场景都是8k采样率的录音, 假设模型都一样 ,8k和16k不同采样率训练出的模型准确率会有差距吗?

2022-07-22

web socket server 配置了 热词的文本文件后,如果有追加或更新,需要重启服务么?还是说,自动就生效了?

2022-07-22

在流式识别中,如何解决背景噪音带来的干扰?

2022-07-22

web socket server支持语言模型吗?

2022-07-22

-context_score 这个值是什么范围?一般多少合适?

2022-07-22

web socket server 怎么启用热词?

2022-07-20

热词的文件是什么结构?

2022-07-20

CTC的尖峰效应,是不是可以理解为:目标函数约束前面的神经网络,将一个词的多帧信息,集中到了'尖峰'这一帧?

2022-07-20

WeNet 转 onnx 的时候要拆成几个模型导出,可以合并为一个吗?

2022-07-19

目前WeNet的时间戳方案不太准确(一是静音的判断不准确,二是字与字的时间戳是连着的,无论中间静音有多大),请问有什么方案可以提高时间戳的准确度吗?

2022-07-19

WeNet有什么独特的地方吗?比如流识别方面?

2022-07-19

当前最新的比较好的算法好像也就是 conformer了,还有比这更好的吗,如果找不到更好的算法,应该从哪些方面来优化预训练模型呢?

2022-07-19

端到端模型对于领域文本优化有什么方案可以在实际应用中使用的?

2022-07-19

如果想充分理解一个预训练模型的算法,比如aishell预训练模型,应该从哪入手?

2022-07-19

请问现在工业上用传统的技术多还是端到端的技术多啊?

2022-07-05

热词增强和热词唤醒在实现上的区别是什么?

2022-07-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除