题目
Leveraging Unpaired Text Data for Training End-to-End Speech-to-Intent Systems
链接
https://arxiv.org/pdf/2010.04284.pdf
标签
Speech-to-intent, spoken language understanding, end-to-end systems, pre-trained text embedding, synthetic speech
augmentation
Contributions
- 运用迁移学习的知识,联合训练speech-to-intent 模型和text-to-intent模型,利用较多的text-intent数据作为基于speech-intent的端到端S2I(speech-to-intent)模型的补充
- 为了解决speech-intent数据集的稀缺,通过TTS系统把text-intent数据转换为speech-intent数据,以达到数据增强的目的。
亮点与启发
由于深度神经网络极度依赖于大量的数据来驱动得到较好的效果,而对于端到端的S2I系统, intent-labeled speech data太过稀缺了,为了比肩传统的模型(speech-text-intent),需要设法弥补数据稀缺的问题。
为解决此问题的答案就是——迁移学习。
基于Text-int