自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 多模态机器学习(语音情感识别)面临的挑战

大多数多模态数据通常是未对齐的,我们更愿意探索如何使用神经网络来对齐不同的模态数据,以及如何使用预先训练的模型来从未对齐的多模态数据学习更好的表示。对于基于模型的融合,除了基于核的融合,其他的都能用于时序建模,如基于图融合的隐马尔可夫模型(HMM)和条件随机场(CRF),以及基于神经网络融合的RNN 和LSTM 网络。由于晚期融合抑制了模态之间的交互, 目前大部分基于深度学习的模型均使用早期(特征融合)或者中期融合(决策融合)每个模态在不同的时间点可能表现出不同类型和不同程度的噪声。(2)基于模型的融合。

2022-08-19 13:07:15 3290 1

原创 从零开始的语音分类

SpeechBrain训练话语级分类器SpeechBrain:作为一个基于 PyTorch 的开源一体化语音工具包,SpeechBrain 可用于开发最新的语音技术,包括语音识别、说话者识别、语音增强、多麦克风信号处理和语音识别系统等,且拥有相当出色的性能。Models:TDNN分类器,ECAPA-TDNN的最新模型Data:mini-librispeech小型开源数据集Code:参考speech_siqin/templates/speaker_id一.准备数据数据准备的目标...

2022-03-15 15:40:53 7009 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除