飞呀飞呀飞呀-CSDN博客

原创歌曲版本识别或者歌曲检索（总结）

歌曲版本识别或者歌曲检索（总结），shazam算法，landmark算法，bytecover

2022-07-24 16:43:37 1299 1

原创 pytorch保存模型的几种文件格式（pth, pt, pkl, rar）

pytorch保存模型的几种文件格式（pth, pt, pkl, rar）

2022-07-24 16:20:17 4554

原创 python中的并行处理（多线程）几种方式（Pool, Parallel, threading）

python中的并行处理（多线程）几种方式（Pool, Parallel, threading）

2022-07-24 12:28:57 4012

原创 python保存数据方式（npy, pkl, h5, pt, npz）

python保存数据方式（npy文件, pkl文件, h5文件, pt文件, npz文件）

2022-05-04 22:01:08 8430 2

原创 pytorch处理不同长度语音

深度学习处理不同长度语音信号解决方案

2022-05-04 17:37:11 2194

原创语音信号处理——视频转换音频（FFmpeg）mp4转wav

利用FFmpeg将mp3,mp4换为wav格式。1, 利用终端命令方式import osfrom librosa.util import find_files# mp3转wavinput_dir = r"/mp4files"output_wav_dir = r"/output_wav"mp4s = find_files(input_dir,ext="mp4")for mp4 in mp4s: temp_wav_dir = os.path.basename(mp4).replace("mp4

2022-04-26 22:36:51 4945

原创加载pickle文件, 找不到带名称的路径

两个原因1，文件名错误2，可能原因，在排除文件名错误后，可能由于文件名字太长，从而导致招不到路径import pickledef load_pickle(file_name): f = open(file_name, "rb") data = pickle.load(f) f.close() return data...

2022-03-28 17:12:42 442

原创分布评价指标分析（切比雪夫距离，KL距离，余弦相似度，平方差和，巴氏系数）python代码

切比雪夫距离def chebyshev_istance(a_list,b_list): return np.max(np.abs(a_list-b_list))KL距离def KLdiv(a_list, b_list): ''' 衡量一个分布相对于另一个分布的差异性；这个指标不能用作距离衡量，因为该指标不具有对称性概率分布越相近，KL散度越小 ''' return scipy.stats.entropy(a_list,b_list)余弦相似度d

2021-12-02 10:23:29 1479

原创 pytorch加载不同size的文件（.npy, .wav, .jpg）进行padding

pytorch加载不同size的文件，然后进行padding以加载不同size的"XXX.numpy"文件为例；第一步：重写dataset,代码如下from torch.utils.data import DataLoader, Datasetclass train_dataset(Dataset): def __init__(self, train_path): super(train_dataset, self) self.all_list = find

2021-12-02 10:07:21 1205 1

原创 # pickle的用法和读写txt文件（python代码）

python中pickle用法import pickledef save_file(file_name,data): f = open(file_name,"wb") # 写 pickle.dump(data, f) f.close() def load_file(file_name): #读 f = open(file_name,'rb+') data = pickle.load(f) f.close() return datadata = load_file(file_name

2021-11-18 11:25:44 1246

转载自注意力（self-attention）机制实现

转载文章https://blog.csdn.net/beilizhang/article/details/115282604

2021-11-15 11:35:26 285

原创使用Opensmile提取语音MFCC特征

使用Opensmile提取语音MFCC特征1，官网下载OpenSmile包，进入到"opensmile-2.3.0\bin\Win32"路径2，打开cmd终端，然后输入SMILExtract_Release -C E:\software\opensmile-2.3.0\config\MFCC12_E_D_A.conf -I E:\data\012.wav -O E:\data\MFCC_2.htk3, 其数据结果是以htk格式保存，可以使用matlab相关函数进行打开查看。...

2021-11-15 11:31:12 2329 2

转载 #使用python批量提取OpenSmile关于情感特征集

转载文章https://blog.csdn.net/cg896406166/article/details/81066791

2021-11-14 12:20:03 424

原创语音特征提取（语谱图Spectrogram，Fbank, MFCC, 及其delta-一阶差分）——python代码

导入相关包import osimport wavioimport numpy as npimport mathfrom matplotlib import pyplot as pltfrom scipy.fftpack import dct读取语音数据及主函数for wav in wavs: wav_dir = os.path.join(data_dir, wav) wav_data = wavio.read(wav_dir) data = wav_data.data sampl

2021-11-14 11:04:51 5093 3

转载回声消除介绍大全

回声消除介绍大全转载文章：点击此处跳转

2021-08-12 19:48:09 104

原创回声消除评价指标——ERLE, PESQ

回声消除评价指标——ERLE, PESQERLE(echo return loss enhancement):对于回声消除，单讲，只有回声信号，没有近端信号，判断输出结果是否能把回声信号消除掉。其值越大，证明效果越好。其中y(n)是输入信号，s(n)是输出信号。PESQ(perceptual evalution of speech quality):其值是越大越好。针对双讲（回声信号，和近端信号同时存在）。判断双讲下，计算PESQ方法：在python安装pypesq,安装方式如下：pip

2021-08-12 19:40:51 4703 3

原创基于python(Tkinter)的语音情感识别模型界面

基于python(Tkinter)的语音情感识别模型界面界面左边是按键，右边是展示的选择文件或者录制文件，以及波形图、语谱图和显示结果。

2021-07-16 11:05:46 325

转载 Pytorch 分布式简介，并行程序

Pytorch 分布式简介，并行程序转自：链接: https://blog.csdn.net/zwqjoy/article/details/89415933.

2020-07-27 17:15:28 117

转载 python求语音信号语谱图、短时能量、短时过零率

python求语音信号语谱图、短时能量、短时过零率转自：链接: https://blog.csdn.net/YAOHAIPI/article/details/102986096?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159551481619195239827172%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fall.%2522%257D&request_

2020-07-23 22:44:21 892

原创 Tri-Training: Exploiting Unlabeled Data Using Three Classifiers

Tri-Training: Exploiting Unlabeled Data Using Three Classifiers原文下载：链接: https://ieeexplore.ieee.org/abstract/document/1512038.主要内容介绍Tri-training是一种新的co-training风格的[1]半监督学习算法。Co-training分别在两个不同的视图上训练两个分类器，即两个独立的属性集，并利用每个分类器对未标记示例的预测来扩充另一个分类器的训练集。Tri-trai

2020-07-21 19:38:55 1530

原创 pytorch加载语音数据文件，并进行批量处理

pytorch加载语音数据文件，并进行批量处理pytorch加载本地语音数据Datasetclass Mydata(Dataset): def __init__(self, root, train=True, transform=None, target_transform=None): self.root = root self.train = train self.transform = transform self.target_transform = target_trans

2020-07-15 14:50:04 1873

转载 ASR中常用的语音特征之FBank和MFCC

ASR中常用的语音特征之FBank和MFCC转自：链接: https://blog.csdn.net/Magical_Bubble/article/details/90295814.

2020-07-11 16:08:59 925

转载傅里叶原理完整版

傅里叶分析之掐死教程谨以此文献给大连海事大学的吴楠老师，柳晓鸣老师，王新年老师以及张晶泊老师。转载的同学请保留上面这句话，谢谢。如果还能保留文章来源就更感激不尽了。转自：链接: https://zhuanlan.zhihu.com/p/19763358....

2020-07-09 21:19:57 334

转载语音信号的采样和量化

语音信号的采样和量化转自：链接: https://blog.csdn.net/godloveyuxu/article/details/77477806.

2020-07-09 15:18:28 772

转载 MFCC

MFCC转自：链接: https://www.cnblogs.com/BaroC/p/4283380.html.

2020-07-09 11:06:22 149

转载 openSMILE 简介

转自原文.

2020-07-07 16:09:28 135

原创 'range' object doesn't support item deletion——机器学习实践

运行结果如下显示错误：‘range’ object doesn’t support item deletiondel(trainingSet[randIndex]) 对应将trainingSet = range(50)，修改为：trainingSet = list(range(50))因为range不能进行del()操作，列表可以进行del()操作。...

2020-04-15 15:56:43 868

原创 matplotlib中clf()

clf()作用：fig = plt.figure(1, facecolor='white')fig.clf()作用，清楚figure坐标轴结果显示：

2020-04-13 17:40:58 2276

原创 'dict_keys' object is not subscriptable（python）

如下代码会报错：myTree.keys()[0]将上述代码替换为:list(myTree.keys())[0]就是加个list（）就行了。

2020-04-13 16:45:02 711

原创机器学习——贝叶斯分类器（西瓜书）

贝叶斯分类器一、贝叶斯决策论极大似然估计朴素贝叶斯分类器半朴素贝叶斯分类器贝叶斯网EM算法一、贝叶斯决策论贝叶斯决策论（bayesian decision theory）是在概率框架下实施决策的基本方法。贝叶斯考虑如何基于这些概率和误判损失来选择最优的类别标记。基于后验概率可以获得其期望损失，即样本x上的条件风险：R(ci∣x)=∑j=1NλijP(cj∣x)R\left(c_{i} | ...

2020-04-11 22:12:01 567

原创机器学习（西瓜书）——聚类

聚类聚类任务性能度量距离计算原型聚类k均值算法学习向量量化高斯混合聚类密度聚类层次聚类聚类任务聚类属于无监督学习，即训练样本的标记信息是未知的。性能度量聚类性能度量也称为聚类有效性指标。簇内相似度和簇间相似度内部指标和外部指标。内部指标指的聚类参考内部模型。外部指标指的是参考外部指标。Jaccard系数；FM指数；Rand指数DB指数；Dunn指数；距离计算距离也是一种度量标准...

2020-04-11 19:59:25 445

原创机器学习西瓜书——（第十一章）特征选择与稀疏表示

机器学习西瓜书——特征选择与稀疏表示子集搜索与评价过滤式包裹式嵌入式选择和L1正则化稀疏表示与字典学习压缩感知子集搜索与评价相关特征和无关特征，冗余特征。进行特征选择是一种数据预处理（data preprocessing）如何进行特征选择，三种思考方式，从全部特征逐个去除，直到无法得更好的特征为止，这种方式称为后向搜索；选取一个特征子集，然后逐个增加特征，直到无法获得更好的特征子集，这...

2020-04-10 19:37:24 548

原创降维与度量学习

降维与度量学习k 近邻学习低维嵌入多维缩放主成分分析核化线性降维流行学习等度量映射局部线性嵌入度量学习近邻成分分析k 近邻学习k近邻（k-Nearest Neighbor, 简称 kNN), 是一种监督学习，给定测试样本，基于某种距离度量找出训练集中与其最近的k个训练样本，然后基于这个k个近邻的信息来进行预测。通常使用投票法和平均法。如上图所示，通过根据k值的选取，选择被测样本在附近k个已...

2020-04-09 23:32:14 246

原创集成学习

集成学习个体与集成一、BoostingAdaBoost:二、Bagging三、随机森林四、结合策略五、多样性个体与集成集成学习（ensemble learning ）是通过构建结合多个学习器来完成任务，或者被称为多分类器系统。其作用是比起单个学习器从而获得更好的泛化性能。同质集成：包含同种类型的个体集成器，同质集成中包含的个体学习器被称为“基学习器”，相应的学习算法被称为“基学习算法”。异...

2020-04-08 22:09:56 161

原创 ROC曲线

ROC曲线ROC全称“受试者工作特征”(Receiver Operation Characteristic)曲线，其与P-R曲线相似（P-R曲线是查准率和查全率曲线）。P=TPTP+FPR=TPTP+FN\begin{aligned}&P=\frac{T P}{T P+F P}\\&R=\frac{T P}{T P+F N}\end{aligned}P=TP+FPTPR=...

2020-04-08 18:24:01 228

原创 Speech Emotion Recognition Using Capsule Networks(基于胶囊网络的语音情感识别)

Speech Emotion Recognition Using Capsule NetworksabstractIntrodution论文主要内容框架解读Experiment数据集评价指标实验过程参数设置实验结果abstract语音情感识（SER）别是人机交互当中比较关键和重要的研究领域。然而在SER领域中，提取用来作为分类的语音中话语水平特征是一个挑战性问题。近年来通过语谱图的作为语音特征...

2020-04-07 17:29:51 2187

yin_fei_0825的博客