音频处理
YZhang0108
这个作者很懒,什么都没留下…
展开
-
基于深度学习方法的声纹识别(Speaker Recognition)论文综述
声纹识别(Speaker Recognition),是一项提取说话人声音特征和说话内容信息,自动核验说话人身份的技术。声纹识别通常分为两类:Speaker Verification (说话人验证)和Speaker identification (说话人识别)。Speaker Verification (说话人验证):使用自己的语音进行验证。如果说话人宣称是某个身份,使用语音对此进行验证。S...原创 2020-04-30 16:15:13 · 6164 阅读 · 10 评论 -
基于端到端深度学习方法的语音唤醒(Keyword Spotting)模型和论文
语音唤醒,即关键词检索(keyword spotting, KWS)。用语音唤醒设备,让设备由休眠状态切换至工作状态。下面主要对基于端到端的深度学习方法的语音唤醒模型总结。模型输入为语音,输出为各唤醒词的概率,一个模型解决,不需要再进行解码。通常包括三个部分:第一步是特征的提取,第二步是一个神经网络,它的输入是语音特征,输出是各个关键词和非关键词即Filler这样一个后验概率。由于第二步的网...原创 2020-04-26 16:20:41 · 8557 阅读 · 0 评论 -
Linux(Ubuntu)中对音频批量转换格式MP3转WAV/PCM转WAV
1、批量将MP3格式音频转换成WAV格式利用ffmpeg工具,统一处理成16bit ,小端编码,单通道,16KHZ采样率的wav音频格式。首先新建Mp3ToWav.sh 文件以路径/home/XXX下音频处理为例,编辑如下代码段:#!/bin/bashfolder=/home/XXXfor file in $(find "$folder" -type f -iname "*.mp3...原创 2020-04-20 17:11:46 · 2257 阅读 · 1 评论