ATTENTION BACK-END FOR AUTOMATIC SPEAKER VERIFICATION WITH MULTIPLE ENROLLMENT UTTERANCES
摘要
PLDA和cosine相似度被广泛地应用于传统SV任务中,用来衡量一对音频之间的相似度;
为了更好地利用多个注册音频,本文提出了利用自注意力机制的后端来学习注册音频之间的内在关系;
为了验证提出的方法,在多个特征提取模型后测试此后端方法,验证超过PLDA和cosine相似;
Index Terms:自注意力机制,后端打分