- 博客(325)
- 问答 (44)
- 收藏
- 关注
原创 WeNet语音识别实战
音之家-AI工匠学堂推出《WeNet语音识别实战》, WeNet是目前工业界最流行的开源端到端语音识别系统之一,也是学习端到端语音识别的最佳实践项目。语音识别的学习者和从业者,可以通过学习这门课程高效全面的掌握WeNet的基本原理和实战方法,降低自己摸索的成本,快速构建出高性能的语音识别系统。...
2022-06-21 15:06:58 6338 3
原创 保守派中间派原生派,谁将主导搜索引擎未来三十年?
传统搜索引擎倾向于 CTR 导向( Click Through Rate ,点击率),这直接关系到广告收入,所以,返回内容往往倾向点击率高的网页(很多时候是一些 UGC 网站,比如论坛、知识问答网站,或者「内容农场站」和「 AI 内容站」),而不是最准确的答案。AI 搜索会让搜索引擎从信息检索工具,进化成帮助用户完成知识探索的「知识引擎」,并最终,凭借不可逆的历史趋势,取代传统搜索引擎,成为用户检索信息、获取知识的首选。最重要的,几乎每句话都会注明出处,就像学术论文务必注明引文来源,引注数量也颇为可观。
2024-09-19 17:21:09 599
原创 刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限
大模型领域的技术发展,今天起再次「从 1 开始」了。大语言模型还能向上突破,OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜,OpenAI 正式公开一系列全新 AI 大模型,旨在专门解决难题。这是一个重大突破,新模型可以实现复杂推理,一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。OpenAI 称,今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型,而且还只是预览版 ——o1-preview。
2024-09-19 17:09:35 671
原创 OpenAI「草莓」两周内发布?网传不是多模态,反应慢了10多秒
很多LLM的弱点就在推理能力上,而有些初创公司为了提高它们的推理能力,就采用了一种廉价的技巧,将问题分解为更小的步骤,尽管这些方法速度慢且成本高昂。另外,在FLOPs一致的评估中,对于那些较小的基础模型已取得一定程度非平凡成功率的问题,测试时计算可以使其超越规模大14倍的模型。草莓可能会有低价位和高价位的两档,前者会有速率限制,并且限制用户每小时的最大消息数量;另外,在去年Q*的前期准备中,OpenAI研究人员开发了一种被称为「测试时计算」的概念变体,目的是提升LLM的问题解决能力。
2024-09-13 11:04:47 413
原创 执教10年46枚美国IMO金牌!对话前总教练罗博深:不看好AI教育,不建议AI辅助学数学
相较于常规的数学课,LIVE 的教学风格更像是一种即兴表演,注重交流讨论、实时反馈,再加上游戏直播间般专业的灯光布置,以及线上的各种视觉特效,使得数学教育更像是充满趣味的社交媒体直播,而非枯燥无趣的传统线上课堂。解答竞赛数学题目,需要孩子切实学会调动自身的积极性,不断去尝试,运用不同的知识,从不同的角度和思路与问题进行碰撞,而竞赛成绩,或许是最微不足道的附加值。因为在他眼中,数学竞赛绝不是升学途中的点缀,除了能让孩子接触到更复杂、更有趣的数学题目,更为重要的是在解题过程中培养孩子思考和解决问题的胆量。
2024-09-02 17:02:48 993
原创 爆火毒舌AI每小时赚2.8万!每分钟36个新用户,火遍全球只因改了一句提示词
(约2.8万元)说的就是病毒式传播的“毒舌AI”,只需输入一个推特用户名,就能得到AI根据历史发言做的犀利点评。而且只要是公开账号就行,并不需要获取任何权限,。比如马斯克是肯定逃不过这一劫的。首先AI会总结出几个能代表这个人的表情符号:火箭(SpaceX)、电池(特斯拉)、大脑(Neuralink)、金钱、地球、机器人……AI看来是真的懂老马。下面就开始一顿输出了,马斯克数次推迟赛博皮卡的黑历史、自负的性格都没有放过。
2024-08-22 15:59:42 588
原创 Llama 8B搜索100次超越GPT-4o!推理+搜索即可提升性能,新「Scaling Law」诞生?
最近的论文表明,LLM等生成模型可以通过搜索来扩展,并实现非常显著的性能提升。另一个复现实验也发现,让参数量仅8B的Llama 3.1模型搜索100次,即可在Python代码生成任务上达到GPT-4o同等水平。来源丨新智元强化学习先驱、加拿大阿尔伯塔大学CS系教授Rich Sutton曾在2019年写下一篇名为《The Bitter Lesson》的博文,成为AI领域的经典论述之一。甚至,Rich Sutton在字里行间体现出的直觉已经颇有Scaling Law的意味。
2024-08-19 16:13:24 637
原创 谷歌版Her抢跑!一键召唤Gemini,全球52亿终端被颠覆
均有14%的性能差异。CPU方面,G4配备了1个运行在3.1GHz的Cortex-X4核心、3个运行在2.6GHz的Cortex-A720核心,以及4个运行在 1.95GHz 的 Cortex-A520核心。比如,假设我们正在为出国旅行做攻略,刚看完一个旅游视频博客,点击「询问此视频」,让它列出视频中出现的所有餐馆、添加到谷歌地图中,Gemini就会一一照做。在一口气发布的Pixel 9系列手机中,谷歌也探索了「AI+手机」的新样态:Gemini、安卓、Pixel的融合,会孵化出怎样的端侧AI产品形态。
2024-08-15 15:26:32 729
原创 非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1
例如,在 Arc、TruthfulQA 和 GSM8K 基准测试中,Falcon Mamba 7B 的得分分别为 62.03%,53.42% 和 52.54%,超过了 Llama 3 8 B, Llama 3.1 8B, Gemma 7B 和 Mistral 7B。具体而言,Falcon Mamba 7B 经过了 AdamW 优化器、WSD(预热 - 稳定 - 衰减)学习率计划的训练, 并且在前 50 GT 的训练过程中,batch 大小从 b_min=128 增加到了 b_max=2048。
2024-08-15 13:38:52 531
原创 比OpenAI的Whisper快50%,最新开源语音模型
这意味着在生成新序列时,模型每次只能预测下一个token,然后将这个预测的token加入到序列中,再基于更新后的序列预测下一个token。这种并行的数据处理方式不仅加快了模型的推理效率,还增加了模型的表达能力,因为每个注意力头都可以专注于序列的不同子集,捕捉到更丰富的上下文信息。此外,由于每次只能处理一个 token ,模型难以捕捉到数据中的长程依赖关系,可能会忽略一些重要的全局信息,从而影响模型的整体性能和准确性。,然后将各自的输出通过拼接的方式组合起来,形成一个多维度的向量。
2024-08-09 14:57:11 513
原创 秘密打造「AI陶哲轩」 震惊数学圈!谷歌IMO梦之队首曝光,菲尔兹奖得主深度点评
谷歌DeepMind正在做的,是要打造出世界上最强的AI数学家。Perplexity AI的CEO对此做出了大胆预测——DeepMind继续研究下去的话,应该可以搞出一个「AI陶哲轩」了!这个预测可谓相当大胆。要知道,陶哲轩在IMO竞赛圈,乃至整个数学界,都是传奇般的存在。「天才出少年」、「数学界莫扎特」,各种溢美之词放到他身上都不为过,毕竟人家首次参加IMO竞赛时只有10岁,是迄今为止最年轻的参赛者。10岁铜牌、11岁银牌、12岁金牌,一路高歌猛进,他又成为了IMO史
2024-08-02 15:58:44 862
原创 通过语音预测自杀风险:多模态大语言模型的新进展
本研究通过采集参与者在任务设置下自发产生的语音数据,利用多模态大数据模型融合文本和音频信息,为精准预测自杀风险开辟了新的可能性。
2024-07-23 14:44:31 882
原创 混元单日调用tokens达千亿后,腾讯大模型战略露出全貌
对大模型行业玩家的评判标准也不再只看技术。战略布局、落地进展、未来判断……成为了更被重视的维度。无论“杨植麟们”还是大厂高管,公开探讨大模型的频率越来越高,包括一直低调的腾讯。前脚,腾讯云与智慧产业事业群CEO汤道生万字采访释出,回应“关于腾讯大模型的一切”;后脚,在万众瞩目的WAIC上,腾讯云副总裁、腾讯云智能、腾讯优图实验室负责人吴运声带来大模型产品最新进展。
2024-07-18 17:17:33 990
原创 一口气投出4家具身智能明星创企,联想创投王光熙:中国应是机器人最大用户国/生产国
国内To B方面,用户付费意愿比较低,厂商之间内卷也比较严重。To C方面更是如此,其刚需性来自于机器人的泛化能力、场景渗透和应用服务。对于普通消费者而言,购买一个智能硬件,不仅为了购买硬件本身和软件OS能力,
2024-07-18 16:51:21 1140
原创 爆火AI惨遭阉割,1600万美国年轻人集体「失恋」? Character AI被爆资金断裂,00后炸了
最近,在美国00后中爆火的Character AI,竟然把聊天机器人对话模型给「阉割」了?愤怒的年轻人们冲进社区,抱怨的声浪快要掀翻天了!而这背后,似乎还有谷歌或Meta的授意。美国当今最火爆的社交软件Character AI,竟然开始「阉割」自己的模型了?然而最近,广大美国青少年发现,他们心爱的Character AI模型,再也不是以前的模样了。面对浪漫的角色扮演请求,模型的回答变得很短,很不解风情,根本没有以前那个味儿了。连说一句「kill」,都成了敏感词,立刻被标记出来。
2024-07-03 15:55:31 996
原创 豆包文科成绩超了一本线,为什么理科不行?
没错,最近就有这么一项大模型评测走红了。:562分:542.5分……从结果中来看,GPT-4o的表现依旧是处于领先状态,而在这边,比较亮眼的成绩便属于了。并且在和等科目的成绩甚至还超越了GPT-4o。这也让不少网友纷纷感慨:AI文科成绩这么好,看来在处理语言和逻辑上还是很有优势的。不过有一说一,毕竟国产大模型的竞争是如此之激烈,这份评测的排名真的靠谱吗?发布仅数月的豆包,真具备此等实力吗?以及这数学……又是怎么一回事儿?
2024-07-03 15:34:46 725
原创 240万亿巨量数据被洗出,足够训出18个GPT-4!全球23所机构联手,清洗秘籍公开
是时候把数据Scale Down了!Llama 3揭示了这个可怕的事实:数据量从2T增加到15T,就能大力出奇迹,所以要想要有GPT-3到GPT-4的提升,下一代模型至少还要150T的数据。好在,最近有团队从CommonCrawl里洗出了240T数据——现在数据已经不缺了,但你有卡吗?是时候把数据Scale Down了!如今,这个问题已经迫在眉睫。
2024-06-27 11:58:54 846
原创 【论文导读】CCF语音对话与听觉专委会论文导读(2024年第1期)-- INTERSPEECH 2024专题(一)
为促进最新研究成果的传播与交流,CCF语音对话与听觉专委在专委会微信公众号启动论文导读栏目,定期分享最新语音、对话与听觉相关研究方向论文。本期是2024年导读栏目的第1期,也是INTERSPEECH 2024专题第一部分,共遴选了7篇论文,覆盖声学场景分类、语音自监督表征、语音编辑、频带拓展、音频生成、伪造语音检测等研究方向。此次INTERSPEECH2024专题导读论文仍在持续征集中,欢迎踊跃投稿,投稿方式请参见文末指南。1-Low-Complexity Acoustic Scene C
2024-06-27 11:48:26 897
原创 吴恩达:从 Agent 到 Agentic,超越基础模型的下一代 AI
Agentic AI:超越基础模型的下一代 AI — 来自吴恩达的洞察“与其争论哪些工作才算是真正的 Agent,不如承认系统可以具有不同程度的 Agentic 特性。” —— 吴恩达。
2024-06-20 11:53:21 1414
原创 字节内测「海绵音乐」,中文能力Max!“AI+音乐”赛道成抖音真正的动机!
除了TikTok Music、Resso和汽水音乐等流媒体应用外,字节跳动还与环球音乐、索尼音乐和华纳音乐等顶级音乐版权商建立了合作关系,积累了丰富的音乐资源。不过体验下来,生词水平表现的平平无奇,可能是因为海绵音乐的训练数据较少,目前其所生成的音乐还缺乏新意,建议最好还是手动输入歌词。腾讯旗下的QQ音乐的热歌榜单被抖音神曲全面占领,这一现象不仅改变了音乐行业的格局,也揭示了短视频平台在音乐传播中的巨大潜力。抖音在进军“AI+音乐”的赛道上,将充分结合AI技术的力量,发挥其在中文音乐领域的优势。
2024-06-20 11:34:20 653
原创 两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
论文的四位作者来自不同的学术机构,但都是德国非营利AI研究机构LAION的成员。共同一作Marianna Nezhurina,是JSC/图宾根大学的博士生,LAION的核心研究员。她对多模态数据集和学习有浓厚兴趣。另一位共同一作Jenia Jitsev,是德国Juelich超算中心的实验室负责人,也同时是LAION和Ontocord.AI的联合创始人,他研究的长期目标是从多模式数据流中实现模型可自我调节且节能的持续学习。
2024-06-14 11:10:56 649
原创 苹果推出2英寸变色龙手持设备,可接收语音命令、触摸输入和手势
设备#10的形状可以是圆形、圆形、椭圆形、矩形、鹅卵石或岩石形状、立方体形状和/或其他合适的形状。手持电子设备可以用作语音控制助手,可以用作运行一个或多个软件应用程序(例如,天气应用程序、音乐应用程序、计算器应用程序、日历应用程序、支付应用程序等)的独立电子设备,可以用作扬声器、灯、厨房用具等家居用品的遥控器,可以用作增强现实或虚拟现实系统中的锚点或视觉标记,可以用作收集输入和/或提供与外部电子设备(例如一对耳机、扬声器、蜂窝电话、平板电脑、笔记本电脑、头戴式设备等)相关的输出的附件设备或其他功能。
2024-06-14 10:33:58 983
原创 浅谈GPT-4o, 语音的 ChatGPT 时刻!
千呼万唤始出来,语音的 ChatGPT 时刻终于来了!当 ChatGPT 引爆世界后,语音的从业者就一直在期待、想象、实验、推进基于 LLM 的语音交互应用和技术,OpenAI 自己也推出了 Whisper 识别、合成的语音模型,但之前更多的是持续性的改进和小的创新,远未有当初 ChatGPT 那样颠覆性的体验和效果。今天,仍然是 OpenAI,AI 行业的风向标,他来了,带着 GPT-4o 来了!GPT-4o 中有很多方面的改进,然而,最大最颠覆性的,还是在语音交互。
2024-06-06 17:03:38 1128
原创 老黄一口气解密三代GPU!粉碎摩尔定律打造AI帝国,量产Blackwell解决ChatGPT全球耗电难题
Hopper和Blackwell系列的推出,标志着英伟达逐渐搭建起完整的AI超算技术栈,包括CPU、GPU芯片,NVLink的GPU通信技术,以及NIC和交换机组成的服务器网络。老黄表示,「数字人类将彻底改变各个行业,ACE提供的多模态LLM和神经图形学的突破,使我们更接近意图驱动计算的未来,与计算机的交互将如同与人类的交互一样自然」。一手硬件,一手CUDA,老黄胸有成竹地穿过「计算通货膨胀」,放出豪言预测道——在不久的将来,每一个处理密集型应用都将被加速,每一个数据中心也肯定会被加速。
2024-06-06 16:52:45 583
原创 ACL2024 | StreamVoice:基于流式上下文感知语言建模的实时零样本语音转换
流式零样本语音转换(streaming zero-shot voice conversion)是指能够实时的将输入语音转换成任意说话人的语音,且仅需要该说话人一句语音作为参考,且无需额外的模型更新。现有的零样本语音转换方法通常是为离线系统设计,难以满足实时语音转换应用对于流式能力的需求。近期基于语言模型(language model, LM)的方法在零样本语音生成(包括转换)上展现出卓越的性能,但是需要整句处理而局限于离线场景。近期,西工大音频语音与语言处理研究组(ASLP@NPU)与抖音合作的论文 “
2024-06-05 17:24:57 974
原创 Pipecat: 创建语音对话agent的开源框架,支持多模态!
pipecat是用于构建语音(和多模态)对话代理的框架。诸如私人教练、会议助理、儿童讲故事玩具、客户支持机器人、摄入流程和尖刻的社交伙伴。看看一些示例应用:语音活动检测 — 对于了解用户何时完成与机器人的通话非常重要。如果您不使用按压通话,并希望 Pipecat 检测用户何时完成通话,VAD 是自然感觉对话的重要组成部分。Pipecast 在使用 WebRTC 传输层时默认使用 WebRTC VAD。或者,您可以使用Silero VAD来提高精度,但代价是CPU使用率更高。
2024-05-30 17:12:01 690
原创 IEEE TASLP | 基于奇异值分解辅助矩阵的说话人匿名
说话人匿名(Speaker Anonymization)旨在隐藏说话人的身份,同时保留原始语音的自然性和独特性。说话人匿名作为一种有效的隐私保护解决方案,当前的主流匿名方案使用预训练自动说话人验证(ASV)模型中的话语级向量来表示说话人身份,然后对其进行平均或修改以实现说话人匿名。然而,匿名后语音的自然度、说话人独特性方面有所下降,并且在应对强大攻击者时存在严重的隐私泄漏问题。
2024-05-30 16:49:20 690
原创 迈向语音大模型的平权之路
什么样的事情最有价值?。把 1B 级别的大模型优化到和 200M级别模型相同水平的 RTF 同时 WER 维持代差,难道不是一件该令人亢奋的事情吗?在两个月前的年度总结中,WeNet 社区已经开始向着更“大”更“强”迈进,去全面拥抱语音大模型的无限未来。然而,横在语音大模型面前的还有两座必须翻越的山峰:和。经过 2023 年下半年的努力,WeNet 已经翻越了第一座山峰,达成了。
2024-05-22 13:48:28 909
原创 GPT-4o, 语音的 ChatGPT 时刻终于来了!
千呼万唤始出来,语音的 ChatGPT 时刻终于来了!当 ChatGPT 引爆世界后,语音的从业者就一直在期待、想象、实验、推进基于 LLM 的语音交互应用和技术,OpenAI 自己也推出了 Whisper 识别、合成的语音模型,但之前更多的是持续性的改进和小的创新,远未有当初 ChatGPT 那样颠覆性的体验和效果。今天,仍然是 OpenAI,AI 行业的风向标,他来了,带着 GPT-4o 来了!GPT-4o 中有很多方面的改进,然而,最大最颠覆性的,还是在语音交互。
2024-05-20 17:32:17 1362
原创 Codec-SUPERB @ SLT 2024: 编解码器语音处理通用性能基准
神经音频编解码器最初被引入是为了将音频数据压缩成紧凑的代码,以减少传输延迟。最近,研究人员发现编解码器作为将连续音频转换为离散代码的合适分词器的潜力,这些代码可以用来开发音频语言模型(LM)。神经音频编解码器在最小化数据传输延迟和作为分词器的双重角色突显了其关键重要性。近年来,编解码模型取得了重大进展。在过去三年内,开发了许多高性能的神经音频编解码器。理想的神经音频编解码模型应该保存内容、副语言信息、说话者和音频信息。
2024-05-16 11:10:06 1077
原创 浅谈音频鉴黄技术
基于音频的鉴黄技术包括了基于内容的音频分类算法[7]以及基于声音事件检测的算法[8]。基于内容的音频检测常依赖于诸如梅尔倒谱系数(MFCC)等特性来实现音频的初步文本化,再利用文本分类模型来判断音频内容。这种方法的研究重心主要在于两个子任务:音频文本化,即语音识别和文本分类。如麻旭妍[9]提出了一种结合音频分类技术和模式匹配的方法。在此方法中,首先进行滤波、预处理和端点检测,以实现部分音频的分类与处理,从而进一步提纯音频,降低杂质并优化运算时空。
2024-05-14 14:59:04 944 1
原创 IJCAI 2024|第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题
聚焦于语音深度鉴伪识别领域,旨在激发全球算法爱好者和专家的创新潜力,共同应对由人工智能技术发展带来的挑战。
2024-05-13 14:33:52 214
原创 ICME2024 | 基于半监督对比学习的表现力语音合成
在单一语种的中文数据集以及多语种的中英混合的数据集上,大量实验表明我们提出的方法可以实现语音中风格、情感、音色、语种的解耦与重组,为目标说话人合成自然、高表现力的双语多风格多情感语音。如表1所示,提出的方法取得了最优的自然度,最高的情感、音色、风格相似度,反映出其有效地解耦了情感、音色、风格,并实现了重组。尽管之前的方案在中文上为目标说话人合成了极具表现力的语音,但它在英文上的表现不佳,发音错误较多,且两阶段的系统存在级联误差,影响了合成语音的自然度。针对这些问题,在本文中,我们进一步简化了框架,
2024-05-07 13:59:31 891
原创 WhisperCLI-本地部署语音识别系统;Mis开源LLM推理平台;Dokploy-开源版Vercel;Mem-大规模知识图谱
近日,一项旨在为AI设备构建开源生态系统的尝试引起了大众的广泛关注。它的目标是通过提供一个开放的平台,使得全球的开发者和研究人员可以更好地进行AI设备的开发和研究。项目的开源性质将有助于推动技术的创新,通过全球开发者的共同努力,可以推动AI设备的技术进步。Moondream 2模型的这一创新应用,使得AI技术的使用更加便捷和高效,为未来的AI边缘计算开辟了新的可能。最新的研究论文展示,通过新的装包格式FP6-LLM,可以在不引发常见不稳定性或由于尝试不当引发的训练速度下降的情况下,实现全张量核心的利用。
2024-05-06 17:57:31 1515 3
原创 苹果AI终于来了!从2.7到30亿四款大模型代码全开源,AI技术持续“狂飙”|钛媒体AGI
还使用了与Meta的Llama相同的分词器,以确保实验的一致性。苹果在论文中还表示,与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,苹果发布的版本包含了在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。虽然最小的参数只有2.7亿,但苹果使用了包括RefinedWeb、去重的PILE、RedPajama的子集和Dolma v1.6的子集在内的公共数据集,一共约1.8万亿tokens数据进行了预训练,这也是其能以小参数表现出超强性能的主要原因之一。
2024-04-26 16:20:40 1081
原创 CHiME-8多通道远场语音识别Baseline介绍
语音领域每年都有很多比赛,每个比赛都有自己的侧重点,其中CHiME系列比赛的侧重点就是多通道远场语音识别,与其他的语音识别比赛有所区别的是,CHiME提供分布式麦克风和麦克风阵列数据,这样可以选择合适的前端算法以降低识别的WER,著名的也是在这个比赛中提出的。CHiME比赛今年已经是第8届了,今天我们一起看看下官方提供的基线系统。自从CHiME7之后,麦克风阵列的几何结构信息就不能被用于前端语音增强,因此一些传统的方法无法使用。
2024-04-26 16:15:44 1368 1
原创 融合ChatGPT+DALL·E 3,这模型该有多强?
香港中文大学终身教授贾佳亚团队提出多模态模型更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,堪称王炸。Mini-Gemini还提供了2B小杯到34B的超大杯,最强模型在多个指标上相比谷歌的Gemini Pro甚至GPT-4V都不遑多让。目前,Mini-Gemini,登上了PaperWithCode热榜。,超会玩梗,一起来体验下!
2024-04-17 14:40:52 1136
原创 IEEE TASLP | METTS:基于跨说话人跨语种情感迁移的多语种情感语音合成
CVAE的条件是多语种的文本,建立与文本相关的情感表达,实现语种特定的情感建模。此外,METTS-REF的情感相似度优于METTS-ID,证明直接迁移参考音频的情感会带来与参考音频更高的情感相似度。可以看到,按照情感染色时,中文的情感聚类较好,说明其有效地捕捉了情感信息。在跨语种合成语音时,说话人原始语种的发音方式会影响“第二语言”的表达,导致外语口音问题,尤其在情感表达复杂的情境下更为严重。然而,人类情感表达丰富多样,因此合成多样化的情感语音并灵活控制生成语音的情感是一项巨大的挑战。
2024-04-17 14:17:48 1064
原创 全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类
这次的Claude 3,更是整了个大的,一次就发了三个模型——Claude 3 Haiku、Claude 3 Sonnet与Claude 3 Opus,能力依次从低到高。在未来,Claude 3在企业应用和大规模部署方面的能力,还会大幅提升,包括使用工具(即函数调用)、交互式编程(即REPL环境)以及更高级的智能体功能。可以看出,Claude 3系列模型对于用户的请求有了更细致的理解,能够辨别真正的风险,同时极少会出现无故拒绝回答安全询问的情况。而这一次的Claude 3系列,已经在这方面取得了显著改进。
2024-03-29 17:24:38 734
原创 Edge-TTS:微软推出的,免费、开源、支持多种中文语音语色的AI工具
edge-tts --voice zh-CN-YunyangNeural --text "大家好,欢迎关注语音之家,语音之家是一个助理AI语音开发者的社区。查询结果中的Gender为声音的性别,Name为声音的名字,如zh-CN-YunjianNeural,其中zh表示语言,CN表示国家或地区,可以根据需求选择不同的声音。它接受与 edge-tts 选项相同的参数。此外,必须使用 --rate=-50% 而不是 --rate -50%(注意等号的缺失),否则 -50% 将被解释为另一个参数。
2024-03-22 15:30:00 5580
空空如也
请问cmake -B build的时候报这个错,大家有遇到的吗?
2022-08-03
想着用自己电脑训模型,理论上可以吗?
2022-08-03
用了aishell的数据集报这种问题的原因是什么?
2022-08-03
模型测试时,使用的average model,这是什么方法,有没有参考资料。
2022-08-03
aishell example运行stage 4,遇到这个报错,请问是什么问题?
2022-08-03
单并发,用的WeNetspeech离线大模型以及libtorch1.10,rescore和search都在500ms+,,为什么这么慢呢?一般TLG有多大呀?语言模型大小会很影响速度的吧?
2022-08-02
最后一个模型量化,在x86上也是有必要的吗?速度会提升多少?
2022-08-02
sort是让一个batch内的音频按顺序排列吗?
2022-08-02
一般这种websocket 如何做高并发,有没有好的解决方案呢
2022-08-01
热词输出带上 context 的标志了,是不是通过参数可以控制?还是要改下代码,去掉?
2022-08-01
这个热词文件,有行数限制么?比如:3万行,可以么?
2022-08-01
热词标记,但是最后没有实现是因为什么?
2022-08-01
WeNet进行一些简单的优化rtf大概能到多少?
2022-08-01
在流式识别中,如何解决背景噪音带来的干扰?
2022-07-22
web socket server支持语言模型吗?
2022-07-22
-context_score 这个值是什么范围?一般多少合适?
2022-07-22
web socket server 怎么启用热词?
2022-07-20
热词的文件是什么结构?
2022-07-20
WeNet 转 onnx 的时候要拆成几个模型导出,可以合并为一个吗?
2022-07-19
WeNet有什么独特的地方吗?比如流识别方面?
2022-07-19
端到端模型对于领域文本优化有什么方案可以在实际应用中使用的?
2022-07-19
如果想充分理解一个预训练模型的算法,比如aishell预训练模型,应该从哪入手?
2022-07-19
请问现在工业上用传统的技术多还是端到端的技术多啊?
2022-07-05
热词增强和热词唤醒在实现上的区别是什么?
2022-07-05
TA创建的收藏夹 TA关注的收藏夹
TA关注的人