xiao_yuzaijia-CSDN博客

原创 [文献阅读] Emo-VITS - An Emotion Speech Synthesis Method Based on VITS

VITS是一种基于变分自编码器（VAE）和对抗神经网络（GAN）的高质量语音生成模型。但合成语音的控制特征（仅文字）单调;加上包括情感在内的特征表达不足，导致情感语音合成成为一项具有挑战性的任务。本文提出了一种基于高表现力语音合成模块VITS的emo -VITS系统来实现文本到语音合成的情感控制。设计了情感网络，提取参考音频的全局和局部特征，然后通过基于注意机制的情感特征融合模块将全局和局部特征融合，从而实现更准确、更全面的情感语音合成。

2025-06-07 21:14:53 1085

原创 [文献阅读] Dawn of the transformer era in speech emotion recognition: closing the valence gap

在音频领域，transformer结构已经成功地应用于语音情感识别(SER)领域。然而，现有的作品并没有评估模型大小和预训练数据对下游性能的影响。为了更好的研究transformer结构对语音情感识别SER的贡献，该文作对wav2vec 2.0和HuBERT的几个预训练变体进行了多方面的全面分析，对MSP-Podcast数据集进行维度情感识别（唤醒arousal, 主导dominance，效价valence）进行了微调。在不使用显式语言信息的情况下获得了效价预测的最佳性能。并开源了表现最好的模型。

2025-05-25 13:17:06 661

原创 [文献阅读] wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations

wav2vec 的纯卷积卷积结构局限性太大了。wav2vec 2.0结合了vq-wav2vec的量化模块和Transformer。其中，encoder network编码器基于CNN，用于隐变量特征提取，而context network编码器基于Transformer，用于还原被mask掉的量化帧。量化模块将连续隐变量特征的离散化，以便用于自监督训练。与wav2vec相比，wav2vec 2.0几乎只保留了CNN的特征提取器。

2025-05-18 18:07:33 816

原创 [文献阅读] wav2vec: Unsupervised Pre-training for Speech Recognition

当前用于语音识别的最新模型需要大量标记好的音频数据才能获得良好的性能。最近，在标注数据缺少的情况下，神经网络的预训练已经成为一种有效的技术。关键思想是先在有大量标记或未标记数据中进行general的训练，再在数据量受限的目标数据上fine-tune来提高下游任务的性能。对于需要大量工作来获取标记数据的任务（例如语音识别），这种预训练的方法尤其有效。在本文中，作者提出了wav2vec模型，通过多层的卷积神经网络来提取音频的无监督语音特征。

2025-05-10 14:57:26 679

原创 [文献阅读] HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units

自监督的语音特征学习有三个难点：（1）每个句子中有多个声音单元（2）在预训练阶段没有输入声音单元的词典（3）声音单元具有可变长度，难以显式分割。为了解决这些问题，作者提出了Hidden-unit BERT（HuBERT）。HuBERT使用聚类的方式为BERT中使用的loss提供标签，然后再通过类似BERT的mask式loss让模型在连续的语音数据中学习到数据中的声学和语言模型。实验证明HuBERT取得了和目前最好的Wav2vec 2.0类似或是更好的效果。

2025-04-28 21:41:48 895

原创 [文献阅读] Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dat

*情感语音转换（Emotional voice conversion）**的目的是在保留语言内容和说话人音色的同时，对言语中的情感韵律进行转换。本文基于变分自编码器和生成对抗网络(VAW-GAN)的框架上提出了一个新模型框架DeepEST，该框架利用预训练的**语音情感识别(SER)**模型在训练和运行时推理过程中转移情感风格。通过这种方式，网络能够将可见的和不可见的情感风格转移到新的话语中。所提出的框架通过持续优于基线框架而取得了显著的性能。

2025-04-27 17:57:59 721

原创 [文献阅读] EnCodec - High Fidelity Neural Audio Compression

随着互联网流量的增长，音频压缩是一个越来越重要的问题。传统上，这是通过用信号处理变换分解输入并权衡不太可能影响感知的分量的质量来实现的。该文介绍了一个最先进的实时，高保真，音频编解码器，Encodec。它包括一个流编码器-解码器(streaming encoder-decoder)架构，具有以端到端方式训练的量化潜在空间。在结构上，Encodec在编码器和解码器之间加入了残差量化层RVQ，使得中间离散特征进一步量化，并且不损失大部分信息。

2025-04-19 17:19:36 881

原创 [文献阅读] chinese-roberta Pre-Training With Whole Word Masking for Chinese BERT

原本的BERT使用随机掩蔽的方式进行MLM(masked language model)训练，但这并不一定能很好的训练中文语言场景下的模型。本文提出了适用于中文BERT的全词掩蔽（wwm）策略，并训练了一系列中文预训练模型。除此之外，还提出了一种新的掩蔽策略，称为 MLM as correction Masking (Mac Masking)，引入了MLM as correction任务，这类似于实际的语法或拼写错误修正任务，这种新的预训练任务缓解了预训练和微调阶段的差异。

2025-04-13 16:12:46 1264

原创 [文献阅读] VALL-E Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

由于语音和文本在信息密度和长度上的巨大差异，传统的语音合成任务很难采用端到端的方法，使用梅尔谱这样的连续性声学特征来作为中间表征，问题也只能建模为相对较难的回归问题。那么，能否使用离散的声学特征来作为中间表征呢，这样建模成离散信号的分类问题学习的难度或许会更低？更进一步地，建模成离散信号的分类问题之后，其实就可以采用NLP中语言模型的建模思路了，可以收集大量的语音数据对语音合成模型做大做强，期望语音合成大模型也能够拥有像GPT那样涌现出惊艳的零样本、少样本学习能力。

2025-04-06 19:31:34 998

原创 [文献阅读] Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

需要sequential fine-tuning，即第二阶段的模型需要用第一阶段生成的samples来训练。预训练的中间特征限制了模型取得更好的表现。VITS则采用VAE架构实现端到端的语音合成。为了进一步提高模型的表现力，VITS将标准化流（NormalizingFlow）运用到条件先验分布（conditional prior distribution）上，另外引入对抗训练GAN。

2025-03-28 19:18:26 771

原创 [文献阅读] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 情感分析

本文的核心贡献在于引介了一种新颖的语言表征模型，即BERT（基于Transformer的双向编码器表征）。BERT的主要创新点和贡献概括如下：深度双向预训练表征的构建：BERT 引入掩码语言模型（Masked Language Model，MLM），随机遮掩输入序列中的部分词，迫使模型基于上下文来预测它（类似于完形填空），实现了深度的双向表征学习。任务特定架构的微调简化：BERT 是第一个使用预训练与微调范式在一系列 NLP 任务（句子层面和词元层面）都达到 SOTA的模型，全面验证了该方法的有效性。

2025-03-22 22:42:59 880

原创 [文献阅读] 可变形卷积DCN - Deformable Convolutional Networks

卷积神经网络（CNN）由于其构建模块固定的几何结构天然地局限于建模几何变换。为了提高CNN的转换建模能力，作者提出了可变形卷积和可变形RoI池化。两者都基于这样的想法：增加模块中的空间采样位置以及额外的偏移量，并且从目标任务中学习偏移量。并且新的模块可以很方便的替换普通的CNN模块，并且可以通过标准反向传播便易地进行端对端训练。实验证明了在深度CNN中学习密集空间变换对于复杂的视觉任务（如目标检测和语义分割）是有效的。

2025-03-15 21:14:52 757

原创 [文献阅读] IDEC - Improved Deep Embedded Clustering with Local Structure Preservation

DEC 忽略了至关重要的因素，即定义的聚类损失可能会破坏特征空间（聚类损失不能保证局部结构的保存），从而导致无代表性的无意义特征，进而损害聚类性能。文章提出的IDEC考虑到了保留数据结构，利用聚类损失作为指导，操纵特征空间来分散数据点。为了约束数据生成分布的局部结构，采用了一种欠完备的自动编码器。通过融合聚类损失和自动编码器的损失，IDEC联合聚类标签分配和学习适合聚类并保留数据结构的特征。IDEC通过优化基于KL散度的聚类损失来操纵特征空间以分散数据，并通过结合自动编码器来保持局部结构。

2025-03-09 17:34:37 641

原创 [文献阅读] DCEC - Deep Clustering with Convolutional Autoencoders

针对于DEC不能很好地保留学习到的特征空间中数据生成分布的局部结构的问题。为了解决这个问题，该论文基于DEC，使用卷积自编码器结构CAE代替了SAE。并且保留了解码器，同时最小化重构损失和聚类损失，以端到端方式学习嵌入式特征。值得一提的是，聚类损失乘上了一个系数(0<γ<1)，更好的阻止了DEC严重的特征空间被聚类损失扭曲从而使正确率下降的问题。在基准数据集上的实验经验验证了卷积自编码器在特征学习方面的能力和局部结构保存的有效性，图像数据上正确率比DEC更高。

2025-02-28 18:57:54 730

原创 [文献阅读] (VaDE)Variational Deep Embedding: An Unsupervised and Generative Approach to Clustering

得益于VAE（变分自编码器）的研究，这一成果很快被用于聚类任务的研究上，人们希望在聚类上这会比传统的自编码器效果更好。在该论文中，提出了一个聚类框架，VaDE(Variational Deep Embedding)，它结合了VAE和用于聚类任务的高斯混合模型GMM。与传统的VAE不同，关键的区别在于，VaDE使用混合的高斯先验来代替VAE的单一高斯先验，这种先验本质上适用于聚类任务。实验结果表明，VaDE在不同模式的5个基准上显著优于最先进的聚类方法。

2025-02-22 17:13:06 1040

原创 [文献阅读] 变分自编码器 Tutorial on Variational Autoencoders

传统的AE作为生成模型的局限性很大，虽然AE能够重建原数据。然而，这样的模型不一定有用：知道一个图像不太真实并不能帮助我们合成一个真实的图像。相反，人们通常关心生成更多与数据集中已有的样例类似但又不完全相同的数据。变分自编码器（Variational Autoencoder, VAE）是一种生成式深度学习模型，通过结合自编码器架构与变分推断方法，能够在不依赖复杂采样过程的情况下，学习高维数据的潜在表示。

2025-02-16 17:58:40 1142

原创 [文献阅读] Deep Clustering via Joint Convolutional Autoencoder Embedding and Relative Entropy Minimizati

论文提出了一个新的聚类模型—Deep Embedded RegularIzed ClusTering (DEPICT)，最大的亮点是DEPICT将卷积自编码器应用于聚类任务，它可以有效的学习具有辨别性的嵌入子空间并且进行精准的聚类分配。1）为了解决图像聚类遇到的特征提取质量差的问题，DEPICT最先在无监督聚类任务上使用了卷积和反卷积构造卷积自编码器。2）为了提升训练效率，DEPICT不像DEC那样进行预训练，而是引入了一个联合学习框架来最小化统一的聚类和重建损失函数，并同时训练所有的网络层。

2025-02-08 22:35:43 785

原创 [文献阅读] Unsupervised Deep Embedding for Clustering Analysis （DEC）（pytorch复现）

无监督的深度嵌入式聚类 Unsupervised Deep Embedding for Clustering Analysis http://arxiv.org/abs/1511.06335为了解决使用Kmeans传统聚类的在高维空间失效的问题，该论文首先提出将KL散度用于聚类损失，并使用这一损失调整一个预训练的编码器（堆叠自编码器DAE）。称为深度嵌入聚类（DEC），这是一种使用深度神经网络同时学习特征表示和聚类分配的方法。为了使KL散度更好应用于聚类任务，文章创设性的设置了KL散度中两个分布，

2025-01-26 16:36:27 1506

原创 [文献阅读]Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local

传统的自编码器AE存在两个问题，如果是较深的自编码器，由于训练时所有层的权重一起调整，中间的瓶颈层难以学习到有用的特征；另外一个问题，自编码器以重构原始数据为目标来训练，但这一目标做的好并不意味着编码器能学习的好的特征（原因文章中有详细讨论）。该文章提出了SDAE（stackeddenoisedautoencoder，堆叠去噪自编码器），SDAE通过逐层训练的方式来训练编码器，思想就是将多个AE堆叠在一起形成一个深度的架构，但训练时是单独训练，且下一层的输入来自训练好的上一层的输出。

2025-01-17 20:55:51 867

原创 [文献阅读] Attention-based hierarchical denoised deep clustering network

本文的作者提出了基于注意力的分层去噪深度聚类(AHDDC)模型，在总结了前人的研究之后，作者认为传统的GCN并没有完全学习到邻居的结构信息，在卷积过程中节点不应该平均的吸收来自领居节点的信息，因此作者提出了基于注意力的GCN卷积过程。此外，在编码器层面，作者使用去噪自编码器(DAE)来减少数据噪声对聚类的影响，增强编码器的特征表达能力，并且DAE的损失不使用一般的均方根误差，而是使用R-square计算误差。最后同样在双向自监督目标对整体聚类。最后取得了比SDCN等过去的算法更好的效果。

2025-01-12 16:36:24 654

原创 [文献阅读] Reducing the Dimensionality of Data with Neural Networks

使用神经网络降低数据的维度由Hinton在2006年于Science上发表。当时的深度学习由于BP算法被指出存在梯度消失问题（当时还没有优化器的情况下），同时这也导致网络的初始化值对网络的训练结果影响很大。为了解决这两个问题，本文提出一个新的降维算法：由一个非线性的、自适应的多层的编码器（encoder）来将高维的数据转化为低维的编码，和一个相似的解码器（decoder）来将低维编码恢复成原始高维数据，整个系统构成一个自编码器。一开始自编码器基于RBM的预训练。

2025-01-03 20:06:19 1262

原创 [文献阅读]ReAct: Synergizing Reasoning and Acting in Language Models

文章提出了ReAct——一种简单而有效的方法来协同推理和行动大型语言模型，解决掉思维链中幻觉传播的问题。通过一组不同的实验，对多跳问答，事实检查和交互式决策任务，表明ReAct带来了卓越的性能具有可解释的决策痕迹。尽管ReAct的方法简单，但复杂的任务用大动作空间需要更多的演示来学习，不幸的是，这很容易超出语境学习的输入长度限制。同时，简单的WIKI交互仅仅是模仿了人类的查询行为，未来的研究可以进一步使用更先进的检索方式来替代这个简单的WIK交互。

2024-12-28 20:01:14 1597 4

原创 [文献阅读] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks (用于知识密集型NLP任务的RAG)

在本文中，提出了可以访问参数和非参数内存的混合生成模型。我们展示了我们的RAG模型在开放领域QA上获得了最先进的结果。我们发现人们更喜欢RAG的生成而不是纯粹参数化的BART，发现RAG更真实和具体。参考文献。

2024-12-13 21:06:20 1071

原创第十四周：支持向量机（SVM）

支持向量机 ( Csupport vector machines. SVM)是一种二分类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机。支持向量”即距离超平面最近的几个训练样本点。支持向量可以使约束条件等式成立。支持向量机学习的基本思想：求解能够正确划分训练数据集井且几何间隔最大的分离超平面。wTxb0wTxb0，其中w{w}w为超平面法向量fxsign⁡w∗⋅xb∗fxsignw∗⋅xb∗。

2024-12-07 16:49:45 1605

原创第十三周：密集嵌入算法（skip-gram）(word2vec)和嵌入语义特性

这周学习了skip-gram（word2vec）的嵌入算法原理，其学习的参数和样本形式和一般的逻辑回归有很大的不同，但总体上有相似之处。最后介绍了密集嵌入的一些性质。word2vec是一种经典的密集嵌入算法，为之后的BM25和BERT奠定了很多基础。

2024-11-27 21:57:58 1016

原创第十二周：深入理解嵌入，嵌入是如何得到的（向量语义学）

本周深入学习嵌入的发展历程，从向量语义的理论，到基础的术语-术语矩阵，术语文档矩阵，再到tf-idf加权，PMI点互信息，使得向量表达更精确。通过这一学习，理解了之前在tranformer中没有理解的东西。

2024-11-24 13:17:47 1073

原创第十一周：RAG（检索增强生成）+ Langchain和Llamaindex

本周对RAG结构进行了研究，从经典RAG介绍到了更现代的模块RAG。同时对LangChain和LlamaIndex两个LLM+RAG的开发框架进行了对比，个人更喜欢Llamaindex。

2024-11-17 18:05:38 1027

原创第十周：Transfomer（多头注意力）+ 机器学习（决策树）

决策树是一种基本的分类与回归方法。特征选择、决策树的生成、剪枝。用决策树分类，从根结点开始，对实例的某特征进行测试（决策中每个判定问题都是对某个特征的“测试”），根据测试结果，将实例分配到其子结点；这时，每个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配，直至达到叶结点。最后将实例分到叶结点的类中。由决策树的个别结点到叶结点的每一条路径构建一条规则；路径上的内部结点对应着规则的条件，而叶结点的类对应着规则的结论，即每个测试的结果或是导出最终结论，或是导出进一步的判定问题。

2024-11-10 16:34:19 947

原创第九周：transformer（嵌入和自注意力）

在陆陆续续学习了ransformer一段时间后，本周回归原文，着重再学习了transformer的嵌入和自注意力机制，一步步剖析公式，虽然字数不多，但力求简洁，希望能够带来一些不一样的角度理解transformer。下周展示多头注意力和残差连接。

2024-11-02 17:20:58 901

原创第八周：RNN和LSTM+Linux基础+Docker

本周大致了解了RNN和LSTM的原理，这是为了之后理解tansfomer做准备。学习了Linux的基本操作，并实践了SSH远程登录，学会Linux并非一朝一夕，还得多用才能熟练掌握。了解了Docker，使用docker创建简单的镜像，运行容器。

2024-10-25 21:13:10 556

原创第七周:机器学习+绘制学习曲线

本周学习了对模型的评估方法，多个模型的选择方法，偏差和方差，学习曲线的作用。对于上周的CNN训练结果绘制了学习曲线，并进行了分析。

2024-10-17 12:09:05 766

原创第六周：卷积神经网络（CNN）+ 搭建CNN识别MNIST实践

继承nn.Module来完成卷积神经网络的搭建，整个神经网络由四个序列（Sequential）的层来构建：卷积层1，卷积层2，全连接层1，全连接层2。卷积层1，卷积层1接受来自原始数据图输入，输入图为28x28大小的单通道图数据。首先使用2d卷积，输入特征图通道1，输出特征图通道32，卷积核5*5，步长1，samepadd在外圈填充2圈0，填充之后再卷积，输出图大小仍然为28x28。（由于使用了padding，图大小没变）激活函数使用ReLU。

2024-10-11 21:33:27 1061

原创第五周：机器学习+pytorch

本周学习了用于多分类的softmax回归，并将其用于神经网络中，与二分类方法（逻辑回归）进行了对比。学习了如何使用Pytorch的transforms进行图像处理，包括规范化和调整大小。如何使用DataLoader加载CIFAR-10数据集，以及使用GPU加速和PyTorch的Autograd提高模型训练效率方面。

2024-10-02 22:11:23 845 1

原创第四周：机器学习+pytorch

MLP本周学习了神经网络的基础结构，这是一种非常重要的算法，对前向传播和反向传播进行了推导，但是对于推导过程的细节任然有不懂的地方，推导过程也进行了简化，还需要进一步理解。pytorch学习了基本的数据形式tensor，以及通过tansforms将图片转换为tensor。

2024-09-28 21:00:37 772

原创第三周：机器学习+人工智能情感背景调研

andemotion本周完成了机器学习正则化的学习，主要学习了正则化的原理和在线性回归逻辑回归中的应用。同时完成了吴恩达机器学习课程（一）监督学习，下周开始学习第二部分，(二）：高级学习算法 Advanced Learning Algorithms。本周对论文（题目：基于需求的人工智能情感生成模型）进行了前期的背景调研和引言起草。但是对于文献的检索和阅读还不熟练，文章的书写也多有不流畅的地方，参考文献也有诸多差错。下一阶段需要修改和重新排编。

2024-09-21 22:13:05 1148

原创第二周：机器学习+pytorch

使用pytorch我们可以自定义数据集。自定义数据集需要继承Dataset类，并重写__len__和两个方法。import osself.root_dir = root_dir # 数据所在的目录self.label_dir = label_dir # 对应标签的目录self.img_path = os.listdir(self.path) # 每一个图片数据的名称都在这个列表中img_name = self.img_path[idx] # 通过下标获取图片数据的名称。

2024-09-14 20:57:36 1204

原创吴恩达机器学习的C1_W3_Lab01_Classification_SoIn.ipny文件运行报错 ‘CheckButtons‘ object has no attribute ‘rectangle

第一部分：监督学习\C1_Week3\Files\home\jovyan\work\plt_one_addpt_onclick.py 将此文件第66行的self.resize_sq(self.bthresh)注释掉就可以了，记得保存注释掉这个函数引用。

2024-09-11 16:00:14 692 4

原创第一周：机器学习+pytorch

本周学习了机器学习课程的第一章线性回归，对一种算法的大致框架有了基本概念，例如预测函数，代价函数，学习率等。下周开始逻辑回归模型的学习。了解pytorch，安装pytorch环境，下周学习torch常用工具的学习。

2024-09-07 17:27:19 958 2

原创 [PAT甲级]1067 Sort with Swap(0, i) python提交非零返回

坑![PAT甲级]1067 Sort with Swap(0, i) python提交非零返回

2022-11-08 20:38:16 338 1

原创 [PTA]11-散列4 Hashing - Hard Version (python)(不用拓扑排序)

数据结构 PTA课后练习 11-散列4 Hashing - Hard Version python 不用拓扑排序

2022-08-25 11:23:26 274

空空如也

空空如也