那些细碎的所得（1）：有关音频特征处理

最新推荐文章于 2024-12-03 11:32:45 发布

小熊@RoyalzoneTCM

最新推荐文章于 2024-12-03 11:32:45 发布

阅读量724

点赞数 3

分类专栏： AI学习

本文链接：https://blog.csdn.net/weixin_49508283/article/details/117049101

版权

这篇博客记录了作者在学习AI过程中处理音频特征的心得，主要介绍了使用wave、numpy、scipy.signal和matplotlib等库进行音频读取、数据处理和特征可视化，特别是scipy.signal.stft函数的应用，并提供了相关参数解释。文章还提到了thinkdsp库的获取方式以及如何使用pcolormesh函数绘制时频特征图。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

缘起

在学AI，当做各种特征工程的过程中，需要一个笔记来记录所得，不然以后遇到相同情况的时候，要参考各种文档还需要左查右查太繁琐了，不如记录下来，分享在博客，大家也能一起受益。

故，这个系列产生了。对于没有需要的人来说可能碎碎念，自用为主，各取所需啦。

处理音频特征需要库

import wave 
import numpy as np 
import scipy.signal as signal
import matplotlib.pyplot as plt

这里wave库是python自带，不用另外pip安装
numpy处理数组
signal是scipy库里面专门用于信号处理的
matplotlib用于特征可视化
还有一个库叫做thinkdsp，是做数字信号处理的库，去github可以下载：GIThub里面的thinkdsp链接，还有电子书
也可以通过下面的方法安装在自己库中，pip或者conda请随意

pip install thinkx
conda install thinkx

- 里面有thinkdsp处理音频信号的，也有thinkbayes贝叶斯相关的模块；
- 调用thinkdsp的方法： import thinkdsp
- 使用这个库处理音频也非常简便，具体参考Allen B. Downey的书；
- pypi有具体介绍：https://pypi.org/project/thinkx/

音频读取及查看参数

wavfile = wave.open("./data.wav", "rb")
# 后面记得 wavfile.close() 完成打开和关闭的过程

params = wavfile.getparams()
nchannels, sampwidth, framerate, nframes = params[:4