💥💥💞💞欢迎来到本博客❤️❤️💥💥
🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。
⛳️座右铭:行百里者,半于九十。
📋📋📋本文目录如下:🎁🎁🎁
目录
💥1 概述
WAV 文件是一种常见的音频文件格式,它包含了数字化的音频信号。在处理语音之前,首先要了解音频的采样率(每秒采样数)、位深度(采样精度)和编码格式(如PCM编码)等信息。在进行语音识别或语音处理任务之前,通常需要进行预处理和特征提取。预处理包括去除噪声、归一化音量等操作,而特征提取则旨在从原始音频中提取有用的特征,如Mel频率倒谱系数(MFCC)、梅尔频率特征等。语音识别是将语音信号转换为文本或命令的过程。这涉及使用语音识别引擎或算法来分析音频,并识别出其中的语音内容。常见的语音识别技术包括基于统计模型的方法(如隐马尔可夫模型-HMM)和深度学习方法(如循环神经网络-RNN)等。处理语音的 WAV 文件涉及从音频采样到特征提取、语音识别和语音合成等多个步骤,需要结合各种技术和工具来实现对语音数据的有效处理和分析。
📚2 运行结果
主函数部分代码:
%KDE Kernel Density Esitimation to figure out how much gaussians are in a
%datset
%Expectation Maximization
%E-Step update variable
%M-Step update hypothesis
%Start
close all
clear
%Initialize Values
%y = [-0.39 0.12 0.94 1.67 1.76 2.44 3.72 4.28 4.92 5.53 0.06 0.48 1.01 1.68 1.80 3.25 4.12 4.60 5.28 6.22];
y_1 = normrnd(22,2,[1,20]);
y_2 = normrnd(12,2,[1,20]);
y = [y_1,y_2];
x = -1:30;
Mu = [5 15];
sigma = [5 5];
pi = 0.1;
wp1 = zeros(1, length(y)) ;
wp2 = zeros(1, length(y)) ;
for iteration=1:5000
%Expectation Step
%for each of the point, wich Gaussian generated it
%wp1 = gaussmf(y,[sigma(1) Mu(1)])*pi;
%wp2 = gaussmf(y,[sigma(2) Mu(2)])*(1-pi);
wp1 = pdf('Normal',y,Mu(1),sigma(1))*pi;
wp2 = pdf('Normal',y,Mu(2),sigma(2))*(1-pi);
dem = wp1+wp2;
wp1 = wp1./dem;
wp2 = wp2./dem;
%Maximization Step
%Modify the hidden value such that is maximizes the probability
%calc new Mu(1)
Mu(1)=sum(wp1.*y)/sum(wp1);
%calc new Mu(2)
Mu(2)=sum(wp2.*y)/sum(wp2);
%calc new sigma(1)
sigma(1)=sqrt(sum(wp1.*(y-Mu(1)).^2)/sum(wp1));
%calc new sigma(2)
sigma(2)=sqrt(sum(wp2.*(y-Mu(2)).^2)/sum(wp2));
%calc new pi:
pi=sum(wp2)/length(y);
%Is Converged
end
%no -> back to expecation step
s =10;
figure(1)
hist(y,0:1:30);
hold on
🎉3 参考文献
文章中一些内容引自网络,会注明出处或引用为参考文献,难免有未尽之处,如有不妥,请随时联系删除。
[1]Giampiccolo R . Multiphysics modeling of audio systems in the wave digital domain[J]. Science Talks,2024,10.
[2]Redford A M . Speech perception as information processing.[J]. The Journal of the Acoustical Society of America,2024,155(4).