基于深层声学特征的端到端语音分离

最新推荐文章于 2024-06-19 18:19:11 发布

楚cheriy

最新推荐文章于 2024-06-19 18:19:11 发布

阅读量547

点赞数

文章标签：算法深度学习人工智能

本文链接：https://blog.csdn.net/weixin_45658098/article/details/106413696

版权

这是发表在计算机系统应用的2019的期刊

概述

传统的声学提取特征方法需要经过傅里叶变换等操作，这会造成语音能量损失和时间上的延时，为了改善问题，提出了端到端。

文章结构

这篇文章的写作思路很值得借鉴，尤其用了大量对比，有助于论文的构想。

首先给出了语音分离的概念：指多个说话人的混合语音中分离得到想要的语音数据，源于著名的鸡尾酒会问题。本文主要研究两个说话人混合的情况。

 鸡尾酒会问题：指人的一种听力选择能力，注意力集中在某个人的谈话之中而忽略背景中其他的对话或噪音，揭示了人类听觉系统中令人惊奇的能力，即我们可以在噪声中谈话。

特征提取是至关重要的步骤，但传统的声学特征的提取需要经过一系列复杂的操作，这回造成能量损失和长时间延迟。所以本文通过网络来学习语音信号的更深层声学特征，实现端到端的语音分离。

1.基于传统声学特征的语音分离

这部分列出了传统声学特征的语音分离算法，同时也提出了传统声学特征的语音分离算法的缺点，引出深层声学特征（deep acoustic feature，DAF），实现端到端语音分离。

2.基于深层声学特征的端到端语音分离

在这里插入图片描述

3.实验结果和分析

对评价指标进行介绍，不同损失函数对比，不同算法对比，网络结构，时间延迟对比。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

楚cheriy

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

自动语音识别（ASR）：研究综述【传统语音识别：基于贝叶斯公式，对联合概率P(X|W)·P(W)进行建模（语音识别结果=声学模型×语言模型）】【端到端语音识别：直接对条件概率 P(W|X)进行建模】

u013250861的博客

03-09

7385

一、传统语音识别基本原理（基于贝叶斯公式）设一段语音信号经过特征提取得到特征向量序列为 X=[x1, x2, …, xN], 其中 xi 是一帧的特征向量, i=1, 2, …,N, N 为特征向量的数目. 该段语音对应的文本序列设为 W=[w1, w2, …, wM], 其中 wi 为基本组成单元, 如音素、单词、字符, i=1, 2, …, M, M 为文本序列的维度. 从贝叶斯角度, 语音识别的目标就是从所有可能产生特征向量X的文本序列中找到概率最大的W*, 可以用公式表示为式 (1) 优化问题:

语音助手之Kaldi实践

AI天才研究院

08-11

590

随着互联网的普及和传播，越来越多的人通过手机、平板电脑等设备使用语音交互。语音助手可以帮助用户更便捷地沟通、控制智能设备，从而实现信息处理效率的提升。近年来，基于深度学习和神经网络的语音识别技术在各个领域都取得了很大的成功，特别是在安卓系统上，谷歌推出的可穿戴助手ASR技术已经取得了不俗的成果。随着语音助手的普及，如何将这些语音技术应用到实际生产环境中并取得良好的效果，成为需要解决的重要课题。本文将介绍基于开源工具Kaldi的语音助手项目开发过程。

参与评论您还未登录，请先登录后发表或查看评论

Python-WaveUNet用于端到端音频源分离的多尺度神经网络

08-11

Wave-U-Net：用于端到端音频源分离的多尺度神经网络

wave-u-net：端到端（end-to-end）音源分离 1806

JamesShuker的博客

08-07

2605

https://arxiv.org/pdf/1806.03185.pdf ABSTRACT 忽略了相位信息，性能依赖于频谱前端的超参数（hyper-parameters for the spectral front-end）。 Wave-u-net将u-net适应于一维时域的方法，通过重复对特征图重采样来计算和组合不同时间尺度的特征。由（enforces source additivity）输出层、上采样、上下文感知的框架，减少输出。 INTRODUCTION 现有的方法：将信号（复值谱图）进行傅里叶.

语音分离--学习笔记（2）

oneself的博客

09-25

2463

语音分离--学习笔记（2）

端到端声源分离研究：现状、进展和未来

soaring_casia的专栏

08-14

2728

本文是由罗艺老师主讲的『端到端声源分离研究进展』f分享整理而来。内容主要覆盖了单通道和多通道上端到端音源分离的现状和进展以及未来的研究方向。文末有彩蛋，评论可获取课程学习资料~ 端到端音源分离定义与进展什么是端到端音源分离呢？罗艺老师首先介绍了端到端音源分离的定义。从名称来看，端到端的含义是模型输入源波形后直接输出目标波形，不需要进行傅里叶变换将时域信号转换至频域；音源分离的含义是将混合语音中的两个或多个声源分离出来。（图1）目前，端到端音源分离已经有了一些在时域和频域上的研究，罗艺老师以

音频特征提取

咕噜咕噜

10-13

568

常用的取样频率：16k或24k 8bit[-128,127] 和16bit编码[-32768,32767]， .wav文件被提取后得出的结果eg:(32,80,789) 首先80就是每个窗口长度是80 ，共789个窗口。比如：帧移动可以是12.5毫秒提取完特征之后通过stft变换变成一个谱特征 ...

深度学习驱动的端到端语音分离技术

"基于深层声学特征的端到端语音分离" 在语音处理领域，语音分离是一项关键的技术，它旨在从混杂的音频信号中分离出单个说话人的声音。传统的语音分离方法通常依赖于预先计算的声学特征，如梅尔频率倒谱系数（MFCCs...

视觉声音分离：基于身体运动线索的新模型的有效性

摘要最近的深度学习方法在视觉声音分离任务上取得了然而，这些方法大多建立在像运动特征表示的外观和光流上，这限制了发现音频信号和视觉点之间的相关性的能力，特别是当分离相同类型的多个乐器时，例如场景中的多个...

基于深度神经网络的语音分离算法

10-19

实现功能：对深度神经网络进行训练，实现将语音从噪声中分离出来。（语音文件中提供了高斯白噪声和人群噪声）

音频分离应用

12-26

完美分离各种混合音频，并且有输出功能，并且算法在分离性能上比传统算法高效，

Wave-U-Net:Wave-U-Net的实现，用于音频源分离

05-02

波网实现，用于音频源分离。对于（改进的）Pytorch版本，请单击。对于Tensorflow 2 / Keras中的第三方实施（不是我本人），请单击。听的例子听人声的分离结果和多仪器分离结果什么是Wave-U-Net？ Wave-U-Net是一种适用于音频源分离任务的卷积神经网络，直接在原始音频波形上工作，中。 Wave-U-Net是U-Net架构对一维时域的一种改编，可以执行端到端音频源分离。通过一系列涉及一维卷积的下采样和上采样块以及下采样/上采样过程，可以在抽象和时间分辨率的多个尺度/级别上计算特征，并进行组合以进行预测。有关网络体系结构的摘要，请参见下图。参加SiSec分离竞赛 Wave-U-Net还以提交和的参加了，并取得了良好的性能，特别是考虑到我们使用的数据集与许多其他提交相比所使用的有限数据集，尽管端到端数据处理更为耗时（我们还必须从数据中学习频

基于注意力的端到端大词汇量语音识别

02-17

基于注意力的端到端大词汇量语音识别，是最新的语音识别的算法，本文为中文翻译版。

语音分离音乐内容与背景音乐的分离

02-12

介绍了PLCA模型，对音乐的分离处理效果很好。语音分离音乐内容与背景音乐的分离

无需进行滤波后处理，利用循环推断算法实现歌唱语音分离

机器之心

11-14

1446

近日，来自 Fraunhofer IDMT、Tampere University of Technology 与蒙特利尔大学的 Yoshua Bengio 等人在 arXiv 上提交了一篇论文，提出跳过使用泛化维纳滤波器进行后处理的步骤，转而使用循环推断算法和稀疏变换步骤进行歌唱语音分离，效果优于之前基于深度学习的方法。这篇论文已经提交至 ICASSP 2018。论文：Monaural

【语音分离】基于EASI算法实现语音信号盲源分离附Matlab代码