由开源学习组织Datawhale提供
https://github.com/datawhalechina/team-learning
特征提取
前面的流程中已经说过,在特诊提取上,选择了梅尔频谱对音频信号进行特征提取。但是这样的提取方式虽然在第0个维度上的特征是一样的,但是在第1个特征(滑动窗口数量)会随着音频时长的改变而增加。因此,对特征提取需要进一步处理。如代码中:
# 计算梅尔频谱(mel spectrogram),并把它作为特征
mels = np.mean(librosa.feature.melspectrogram(y=X,sr=sample_rate).T,axis=0)
mels.shape
>>> (128,)
这种方法利用均值的方式将第1个维度通过求均值的方式进行了压缩。由于后文中选取的模型为
卷积神经网络,所以还需对特征reshape
。代码中将mels
向量进行了重组
X_train = X_train.reshape(-1, 16, 8, 1)
重组后的数据第0维表示样本数量,第1维和第2维表示:16 * 8 = 128
。也就是说将128维的向量重塑成168的矩阵。这里也是可以进行更改的点我们可以改为256维向量,然后重塑成1616等诸如此类。
模型搭建与训练
模型的搭建上,采用的是tensroflow 2.x
的keras
模块。结构上是面向过程,利用model.Sequential()
的语法顺序搭建。具体如下:
model.add(Conv2D(64, (3, 3), padding = "same", activation = "tanh", input_shape = input_dim))# 卷积层
model.add(MaxPool2D(pool_size=(2, 2)))# 最大池化
model.add(Conv2D(128, (3, 3), padding = "same", activation = "tanh")) #卷积层
model.add(MaxPool2D(pool_size=(2, 2))) # 最大池化层
model.add(Dropout(0.1))
model.add(Flatten()) # 展开
model.add(Dense(1024, activation = "tanh"))
model.add(Dense(20, activation = "softmax")) # 输出层:20个units输出20个类的概率
如上所示,模型选用两层卷积池化操作,再将模型打平后放入Dense
层进行解析和输出。
训练过程也是非常传统的keras
训练方式,直接调用接口进行训练:
# 训练模型
model.fit(X_train, Y_train, epochs = 90, batch_size = 50, validation_data = (X_test, Y_test))