零基础入门语音学习之CNN-baseline

最新推荐文章于 2022-05-03 19:12:58 发布

weixin_44286290

最新推荐文章于 2022-05-03 19:12:58 发布

阅读量411

点赞数 1

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_44286290/article/details/115612813

版权

零基础入门语音学习之CNN-baseline

环境介绍
特征提取方法的理解

baseline由开源学习组织Datawhale提供
https://github.com/datawhalechina/team-learning

环境介绍

环境要求：librosa tensorflow 2.x
librosa是一个功能强大的语音处理库，后面会用这个库对语音数据特征进行提取。tensorflow 2.x是本次实现语音识别的深度学习库。语音数据为kaggle开源可商用的语音数据集。
https://pan.baidu.com/s/1K2vgn_Wf8Foy3oYHPH22LA 提取码：4vdz
将数据集下载到clips_rd_sox文件夹中解压，即可运行代码。
本次打卡主要说一下对于特征提取的理解。

特征提取方法的理解

def extract_features(parent_dir, sub_dirs, max_file=10, file_ext="*.wav"):
    c = 0
    label, feature = [], []
    for sub_dir in sub_dirs:
        for fn in tqdm(glob.glob(os.path.join(parent_dir, sub_dir, file_ext))[:max_file]): # 遍历数据集的所有文件
            
           # segment_log_specgrams, segment_labels = [], []
            #sound_clip,sr = librosa.load(fn)
            #print(fn)
            label_name = fn.split('/')[-2]
            label.extend([label_dict[label_name]])
            X, sample_rate = librosa.load(fn,res_type='kaiser_fast')
            mels = np.mean(librosa.feature.melspectrogram(y=X,sr=sample_rate).T,axis=0) # 计算梅尔频谱(mel spectrogram),并把它作为特征
            feature.extend([mels])
            
    return [feature, label]

以上代码块中是baseline用于提取声音特征的函数。个人认为最重要的是mels = np.mean(librosa.feature.melspectrogram(y=X,sr=sample_rate).T,axis=0)这一段。这一段的意思是对librosa提取的声音信号X提取梅尔频谱特征。提取后特征是[128, frames]。其中frames代表提取的特征的帧数。意义在于对每一帧提取128维度的向量表示。每个声音特征的时长不等，故提取的帧数frames肯定是不相等的。因此baseline中将其转职后对frames所在维度取均值表示。
baseline中选择CNN作为语音识别的模型，因此又将输入数据reshape。

X_train = X_train.reshape(-1, 16, 8, 1)
X_test = X_test.reshape(-1, 16, 8, 1)

weixin_44286290

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础入门语音学习之CNN-baseline

零基础入门语音学习之CNN-baseline环境介绍特征提取方法的理解baseline由开源学习组织Datawhale提供https://github.com/datawhalechina/team-learning环境介绍环境要求：librosa tensorflow 2.xlibrosa是一个功能强大的语音处理库，后面会用这个库对语音数据特征进行提取。tensorflow 2.x是本次实现语音识别的深度学习库。语音数据为kaggle开源可商用的语音数据集。https://pan.baid
复制链接

扫一扫