自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 检查tnesorcore的使用

的输出文件以确定您的程序是否正在使用Tensor Cores。在输出文件中,您可以查看CUDA核心统计信息,并查找与Tensor Cores有关的统计信息。统计信息,则表示您的程序正在使用Tensor Cores。如果您没有看到这个统计信息,则表示您的程序没有使用Tensor Cores。统计信息,则表示您的程序正在使用Tensor Cores。如果您没有看到这个统计信息,则表示您的程序没有使用Tensor Cores。这将生成一个包含有关您的程序使用的GPU资源的详细统计信息的输出文件。

2023-04-04 14:11:01 627

原创 torch.nn的常用的类及其含义

Transformer 模型和 Transformer 编码器,用于处理序列数据的模型。: 交叉熵损失和带 sigmoid 的二元交叉熵损失,常用于二分类问题。: 用于在输入数据周围进行填充的函数,可用于图像处理中的零填充。: 用于对图像进行上采样和下采样的函数,支持不同的插值方式。: 交叉熵损失和二元交叉熵损失,常用于分类问题的损失函数。: 二维 softmax 层,用于对多通道的图像进行分类。: 用于进行上采样的函数,支持不同的插值方式。: 包含常用的函数,如激活函数、损失函数等。

2023-04-03 19:53:39 215 1

原创 声音信号的处理(勘误)

对于每个分帧后的音频信号,可以从中提取出声学特征,比如Mel频率倒谱系数(Mel Frequency Cepstral Coefficients,简称MFCC)、Mel Spectrogram等,这些声学特征通常都是矩阵形式的,其中矩阵的每一列对应于分帧后的一个音频帧,每一行代表该帧的某种声学特征,例如MFCC矩阵中的每一行代表一个Mel频率倒谱系数。(3)对上面的多段声音信号进行加工后,得到conformer需要的声学特征,一般是一个矩阵,其中横轴对应切割的各个小段的声音,纵轴是这一小段声音的声学特征。

2023-03-31 13:29:12 154

原创 conformer勘误(自用)

这是因为傅里叶变换得到的频域信号是由实部和虚部组成的复数信号,而在语音信号处理中,我们通常更关注的是信号的能量,因此需要对复数频域信号取模长平方得到实数功率谱。预加重处理:通过对音频信号进行预加重处理,可以减小语音信号中低频成分对高频成分的影响,有助于提高语音信号的质量。Mel滤波器组:将功率谱通过一组 Mel 滤波器进行滤波,得到 Mel 频谱,可以使用 Python 中的 librosa 库中的。需要注意的是,不同的语音识别模型可能需要不同的预处理步骤,上述步骤也不一定都必须要使用。

2023-03-29 13:53:57 210

原创 蝶形算法的实现

傅里叶变换的实现

2023-03-20 00:05:17 434 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除