自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 LDA, Linear Discriminant Analysis(线性判别分析)

上一篇博客简要介绍了基于特征值分解和SVD分解矩阵的PCA方法,本篇博客介绍LDA,并将二者进行比较总结。一、LDA和PCALDA的全称是Linear Discriminant Analysis(线性判别分析)PCA是将数据投影到方差最大的几个相互正交的方向上,以期待保留最多的样本信息。样本的方差越大表示样本的多样性越好。x轴和y轴都不是最理想的投影,故上图中PCA会将数据投影在红色的轴上。若根据PCA进行降维,将会把数据映射到红色直线上,这样做投影确实方差最大,但是这样做投影之后两类数据样本将

2022-05-08 14:56:36 1005 1

原创 PCA主成分分析

1、降维多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量,因此需要找到一种合理的方法,在减少需要分析的指标同时,尽量减少原指标包含信息的损失。由于各变量之间存在一定的相关关系,因此可以考虑将关系紧密的变量变成尽可能少的新变量,使这些新变量是两两不相关的。通常使用针对高纬度数据特征进行数据降维,将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。数据降维的优点:使得数据集更易使用;降低算法的计算开销;去除噪声;使

2022-05-04 17:42:06 333

原创 Speaker Diarization

Speaker Diarization(声纹分割聚类、说话人日志),1、语音检测利用语音检测模型(如VAD),将音频帧逐帧分为语音(speech,即有人说话)和非语音(non-speech,即无人说话)两个类别。其中非语音可能包括静音、噪音、音乐等。2、语音分割/说话人转换检测对于一段语音音频,分割的目标是分割后的每段音频只有一个说话人。有两种方法可以把整段语音切分为多个小段

2022-03-27 21:00:11 5600

原创 Conformer阅读笔记

论文:《Conformer: Convolution-augmented Transformer for Speech Recognition》

2022-01-21 21:28:16 5600

原创 leetcode编辑距离

leetcode题目链接博客讲解链接b站视频讲解得很清晰leetcode C++通过代码:class Solution {public: int minDistance(string word1, string word2) { int m = word1.length(); int n = word2.length(); int dp[505][505] = {0}; for(int j = 0; j <= n; j+

2022-01-12 17:17:38 166

原创 CTC、RNN-T穷举输出

(李宏毅深度学习HLP课程笔记)对于CTC和RNN-T,计算的目标概率函数都是Pθ(Y∣X)=∑h∈align(Y)P(h∣X)P_\theta(Y|X)=\sum_{h\in align(Y)}P(h|X)Pθ​(Y∣X)=h∈align(Y)∑​P(h∣X) 其中,X代表输入的语音,h是为了解决alignment问题在token中增加∅\varnothing∅后输出的token,align(Y)代表添加∅\varnothing∅后所有可能的token。如上图中的例子所示,所有的align(Y)有

2022-01-11 16:13:48 610

原创 端到端的语音识别模型

端到端的语音识别模型CTC(李宏毅深度学习HLP课程笔记)一、CTC1、模型介绍CTC可以用于在线流式语音识别,因此encoder部分需要选择uni-directional RNN,模型结构图如下,输入的语音信号经过encoder逐一转换成语音表征,再经过一个线性分类器得到每个时刻输出类别的概率,假设所有的类别个数为V:一般来说,假设输入的语音长度a,对应的输出label长度为b,则由于语音帧比较长,识别出来的文字序列相对来说较短,所以b << a。在CTC模型中,为了解决alignm

2022-01-11 13:51:26 4065

原创 Advancing Transformer Transducer for Speech Recognition on Large-Scale Dataset》

本文是观看上海交通大学陈谐老师在《人机语音通信》课程的讲座的笔记,原视频链接,本文参考[3] [4]。1 Model Overview: Transformer Transducer语音识别发展背景:首先是GMM-HMM:混合高斯模型作声学模型,n-gram作为语言模型,hmm做时序建模模型;12年深度学习发展,声学模型和语言学模型分别都逐渐被深度神经网络替换;最近流行的是end2end模型(用存粹的神经网络模型进行语音识别,也不用hmm),模型更简单,此时可以将声学模型和语言模型联合起来进行优化

2022-01-10 18:20:02 2147

原创 《ACE: Ally Complementary Experts for Solving Long-Tailed Recognition in One-Shot》阅读笔记

ICCV-2021 paper 《ACE: Ally Complementary Experts forSolving Long-Tailed Recognition in One-Shot》阅读笔记。文章地址:ACE-ICCV2021摘要单阶段长尾识别方法提高整体性能的方式是“前后交替”的:要么是牺牲头部精确度以获得更好的尾部分类准确度,要么就是忽略尾部数据以使得头部精确度更高。现有的多阶段训练算法也可以解决这个问题,训练过程如下:对不平衡的数据集进行预训练,然后对平衡集进行微调。虽然性能很好,但

2021-10-24 21:52:31 1017 2

原创 自监督学习BYOL《Bootstrap Your Own Latent:A New Approach to Self-Supervised Learning》

BYOL算法简要介绍。论文地址:byol论文链接。1、self-supervised learning当模型越来越大时,模型训练也会越来越难,会存在梯度消失或者梯度爆炸的问题,需要大量并且是标注的数据来进行训练,因此将目标逐渐转向使用小样本来训练一个泛化性更强的模型。因此而逐渐开始使用self-supervised方法。但是自监督训练存在崩塌问题:我们知道现在大部分的自监督训练都是通过约束同一张图的不同形态之间的特征差异性来实现特征提取,不同形态一般通过指定的数据增强实现,那么如果只是这么做的话(只

2021-09-12 21:28:23 1228

原创 自监督学习方法Barlow Twins

记录文章《Barlow Twins: Self-Supervised Learning via Redundancy Reduction》阅读笔记,论文地址。1 Abstract & Introduction自监督学习正在迅速发展,它主要是通过学习输入样本的不同distortions版本的不变性embedding特征。其中distortions意思就是同一输入样本经过不同的图像增强变换方式(比如随机裁剪、resize等)得到的不同版本。但这种方法会比较容易出现平凡解,现有方法都是通过实现上的细节

2021-08-24 15:40:31 1635

原创 DataParallel下的Batch Normalization

DP简介在训练模型的时候,nn.DataParallel函数可以用多个GPU实现加速训练,它基于单进程多卡,所有的卡都参与并行运算,其中主卡device[0]负责整合梯度、更新参数。DataParallel简称DP,它不支持SyncBN(即同步BN),同步BN只在DataDistributedParallel(DDP)中才支持。具体有没有必要使用SyncBN,要看单卡batch size的数量大小:如果单卡batch size太小,使用SyncBN可以提高性能;如果batch size较大的时候不需要使

2021-08-21 14:56:00 1033 2

原创 VoxCeleb2: Deep Speaker Recognition

1

2021-08-17 20:51:02 2444

原创 VoxCeleb: a large-scale speaker identification dataset

Abstract本文目标是生成一个大规模文本无关的说话人识别数据集。1 Introduction噪声和无约束条件下的说话人识别是一个极具挑战性的课题。卷积神经网络(CNN)在语音识别、计算机视觉和相关领域取得了巨大的进步,因为它能够处理真实世界的噪声数据集,而无需手工产生特征。然而,这类方法成功的最重要因素之一是需要大量的真实数据。大多数说话人识别数据集是在受限制的条件下采集并手工标注的,这些因素大大限制了数据集的规模。本文有两个目标:首先基于计算机视觉技术的全自动程序从开源视频网站上提取出一个大规

2021-08-17 20:50:04 1258

原创 精确率、召回率、准确率

1、精确率、召回率、准确率TP:正类预测为正类FN:正------>负FP:负------>正TN:负------>负精确率:P=TPTP+FPP=\frac{TP}{TP+FP}P=TP+FPTP​,表示预测为正的样本中有多少是真正的正样本;召回率:R=TPTP+FNR=\frac{TP}{TP+FN}R=TP+FNTP​,表示样本中的正类有多少被预测正确了;准确率:R=TP+TNTP+FN+FP+TNR=\frac{TP+TN}{TP+FN+FP+TN}R=TP+FN+F

2021-08-16 16:47:49 384

原创 《Deep Speaker Feature Learning for Text-independent Speaker Verification》阅读笔记

对文章《Deep Speaker Feature Learning for Text-independent Speaker Verification》作一下阅读翻译,文章比较久远,主要也是为了学习一下作者的行文逻辑。摘要深度神经网络(DNN)最近经常被用来学习说话人特征。但是学习到的特征质量还不够好,因此在应用于说话人验证时,必须使用复杂的后端模型(神经模型或概率模型)来解决剩余的不确定性,就像原始特征一样。本文针对说话人特征学习提出了一种convolutional timedelay deep ne

2021-08-12 20:57:57 367

原创 标准差、欧氏距离与峰度

1、标准差(standard deviation)标准差是离均差平方的算术平均数(即:方差)的算术平方根,用σ表示,是方差的算术平方根,它反映一个数据集的离散程度。平均数相同的两组数据,标准差不一定相同。公式如下:计算标准差2、欧式距离(Euclidean Metric)欧式距离用于衡量空间中两点间的真实距离,或者说向量的长度(理解为两点之间的向量的模)。在二维空间中,点(x1,y1x_1,y_1x1​,y1​)与点(x2,y2x_2,y_2x2​,y2​)之间的欧氏距离为:(x2−x1)2+(

2021-08-05 11:48:48 1518

原创 《EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES》阅读笔记

1、对抗样本如下图所示,在原始图片(57.7%的概率识别为panda)上加一个非常微小的噪声,加完之后人体视觉上看不出区别,但是再次输入同一个神经网络,它就会以99.3%的概率将其识别为gibbon。作者认为,高维空间的线性足够产生对抗样本,由此作者也设计了一种新的快速产生对抗样本的方法FGSM。对抗样本的线性解释:如果向样本x中的每个元素值添加的扰动值η\etaη小于样本输入特征精度时,直观理解上模型分类器可能会无法将样本x和对抗样本xˉ\bar xxˉ = x + η\etaη区分开来,但事实并

2021-08-03 21:46:17 399

原创 python基础语法

仅简单记录一下学习过程中浏览过的资料,方便回顾查看。1、多维数组切片(1)首先要明白list类型的数据切片,list数据的正下标是从最左侧0开始的,从左向右依次递增,负下标是从最右侧-1开始的,从右向左依次递减。假设object为一个list对象,则切片的基本表达形式如下:object[start_index:end_index:step],其中start_index为索引的起始位置,end_index为索引的终止位置,step为前进的步长。需要特别注意的是,这里的索引区间是左闭右开的,即实际取出来

2021-07-28 20:44:33 85

原创 熵、KL散度与交叉熵学习笔记

记录一下遇到交叉熵时的学习笔记,此处为本文主要参考链接。1、熵(Entropy)对于一个特定事件,它的概率p越小,那它所蕴含的信息量就越大,反之,p越大,表明信息量越小。此外,对于相互独立的事件,信息量可以叠加。熵就是依据对应的期望值对一系列信息量求期望值。信息熵可以理解为对事件不确定性的测量,熵越大,不确定性也就越大,熵的公式定义为S(x)=−∑iP(xi)logbP(xi)S(x) = -\sum_{i}P(x_i) log_bP(x_i) S(x)=−i∑​P(xi​)logb​P(xi​)其中

2021-07-26 18:09:45 399

原创 resnet.py源码简要分析

上篇博客主要是阅读论文《Deep Residual Learning for Image Recognition》时,按照自己简单理解做的笔记,本文主要根据自己的理解,对论文中的部分代码从总体结构上进行简单分析,代码链接如下:https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py1、model_urlsmodel_urls = { #这里保存的地址里是不同网络对应的预训练权重 'resnet18':

2021-07-20 15:03:08 392 1

原创 《Deep Residual Learning for Image Recognition》学习笔记

本文简要记录一下自己阅读论文《Deep Residual Learning for Image Recognition》时所做的个人笔记。摘要通常情况下,神经网络的深度越深,越难以训练,本文提出了一种残差神经网络来解决这个问题,它的优化更简单,并且可以在深层的神经网络中也相应获得更高的准确度。这种深度残差神经网络在ImageNet等数据集的测试效果均为第一名。1、介绍研究结果表明,神经网络模型的深度对训练任务起着至关重要的作用,但是当模型深度太大时,会存在梯度消失/梯度爆炸的问题,尽管normali

2021-07-17 21:48:13 589

原创 Pytorch的mnist源代码理解分析

源代码链接来自官方示例:https://github.com/pytorch/examples/blob/master/mnist/main.py,本文主要依据个人理解对该代码进行注释分析。

2021-07-13 19:45:49 640

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除