- 博客(26)
- 收藏
- 关注
原创 Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport论文阅读笔记
假设给定一个目标流pt和生成它的向量场ut .学习与pt相匹配的流的一种方法是通过对目标向量场的回归进行梯度下降。
2024-08-20 20:31:11
975
1
原创 三种生成模型
接下来开始具体考虑G的内部设计,为了让G-1可以计算并且G的Jacobian行列式也易于计算, Flow-based Model 采用了一种称为耦合层(Coupling Layer)的设计来实现。根据x直接建模P(x)比较困难,因此引入一个较为简单的先验分布P(z)先从简单分布中采样z,再利用z生成x。令encoder生成的分布和先验分布尽可能相似从encoder生成的分布的分布中采样z,再用z生成x期望最大。一个简单的分布随机分布,经过一系列复杂的变换(Generator)之后变成复杂分布.
2024-08-16 23:47:24
439
原创 FASTSPEECH 2论文阅读
非自回归模型可以在质量相当的情况下显著快于先前的自回归模型合成模型。但FastSpeech模型训练依赖与自回归教师模型进行时长预测(提供更多的信息作为输入)和知识蒸馏(简化输出中的数据分布),可以缓解一对多的映射问题1、存在问题因为由于语音的变化,如音高、时长、音量和韵律等,多个可能的语音序列可以对应一个文本序列。在非自回归TTS中,仅有的输入信息是文本,不足以完全预测语音的方差。在这种情况下,模型容易对训练集中目标语音的变化产生过拟合,导致泛化能力较差。归根结底还是一对多的映射问题。
2024-08-16 22:03:44
1160
2
原创 ESVC论文笔记
虽然SVC在自然度和相似度方面都取得了很好的效果,但音频中除了歌手身份之外,情感表达也是传递歌手感情和态度的必要条件,现有的模型在情感表达上还有待提升。歌曲的情感元素与歌手的身份是非常纠结的,所以加强一个可能会削弱另一个,导致整体表现力的缺乏。因此,有必要引入身份聚类损失来抵消情感聚类带来的身份偏见。
2024-08-15 23:43:55
1170
1
原创 神经串联式语音转换:对基于串联的单次语音转换方法的再思考 论文笔记
在any-to-any的转换中,由于内容和说话人音色的解耦不足,导致源说话人的音色部分仍保留在转换后的音频中,影响了音频质量和转换效果。
2024-08-15 21:26:30
889
1
原创 ADALORA: ADAPTIVE BUDGET ALLOCATION FOR PARAMETER-EFFICIENT FINE-TUNING 笔记
ADALORA的前世今生
2024-08-14 20:57:02
236
原创 CosyVoice模型论文笔记
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens论文读后记录。②我们提出了一个可扩展的零样本TTS合成系统CosyVoice,它将用于文本到令牌生成的LLM与用于令牌到语音合成的条件流匹配模型相结合,无需额外的音素化器和强制对齐器。①我们首次将有监督的语音令牌集成到TTS模型中,增强了零样本语音克隆中的内容一致性和说话人相似性。
2024-08-08 20:54:08
994
1
原创 Towards Multi-Intent Spoken Language Understanding via Hierarchical Attention and Optimal Transpor笔记
话语中每个意图有其特定的范围,范围之外的语义信息可能会阻碍准确的预测。为了防止范围障碍的负面影响,尽可能准确地划分原话语中不同意图的范围是至关重要的。2019年尝试开发一个多任务框架,共同实现多意图检测和槽填充,旨在通过更准确的捕获话语中存在的意图来提高整体性能。2、单向指导:槽填充和意图检测是紧密联系在一起的,尽心关联和建模是有益的,以往关注的是从意图到槽的单向引导,而忽略了从槽到意图的引导。通过实现双向引导,提高性能。(1)每个意图都有其特定的范围,范围之外的语义信息可能会阻碍准确的预测,即范围障碍;
2024-07-23 12:51:44
406
3
原创 人类对齐的大模型
大语言模型的能力主要源自于对于海量文本数据的学习,因此大模型的行为会受到数据质量、数据来源以及具体创作者等多方面的影响。经过大规模的预训练和有监督指令微调,大语言模型具备了解决各种任务的通用能力和指令遵循能力,但是同时也可能生成有偏见的、冒犯的以及事实错误的文本内容。这些潜在的有害行为,可能在下游应用中产生严重的影响与危害,进一步被恶意使用者进行放大与利用。在大语言模型的学习过程中,如何确保大语言模型的行为与人类价值观、人类真实意图和社会伦理相一致成为了一个关键研究问题,通常称这一研究问题为人类对齐。
2024-07-21 14:33:54
848
原创 对话系统理论知识笔记
1、槽:槽可以理解为实体已明确定义的属性,例如打车中的,出发地点槽,目的地槽,出发时间槽中的属性分别是"出发地点"、"目的地"和“出发时间”2、语义槽是指NLU(自然语言理解)模块从句子中抽取出的特定概念3、填槽指的是为了让用户意图转化为用户明确的指令而补全信息的过程4、槽填充则可以看做是序列标注问题,即对于给定的句子中的每个词分别打上相应的标签5、填槽的专业表述:从大规模的语料库中抽取给定实体(query)的被明确定义的属性(slot types)的值(slot fillers)
2024-07-21 14:33:06
335
原创 CPT: a pre-trained unbalanced transformer for both Chinese language understanding and generation笔记
提出一个与预训练不同的CPT模型。通过部分共享的架构和多任务预训练,CPT可以( 1 )通过两个解码器学习NLU或NLG任务的特定知识,( 2 )灵活地进行微调,充分挖掘模型的潜力。统一的预训练模型(UniLMs)和通用语言模型(GLM)都采用了统一的Transformer编码器进行理解和生成任务。CLM(因果语言模型):因果语言模型采用了对角掩蔽矩阵,使得每个token只能看到在它之前的token信息,而看不到在它之后的token,模型的训练目标是根据在这之前的token来预测下一个位置的token。
2024-07-21 14:30:50
476
原创 PDFormer: Propagation Delay-Aware Dynamic Long-Range Transformer for Traffic Flow Prediction论文阅读笔记
我们设计了一个空间自注意模块,通过不同的图掩蔽方法对局部地理邻域和全局语义邻域进行建模,并进一步设计了一个交通延迟感知特征转换模块,可以显式地对空间信息传播中的时间延迟进行建模。交通预测面临的挑战:最根本的挑战是有效捕获和建模交通数据的复杂和动态的时空依赖关系。3、由于城市的功能划分,两个距离较远的位置,可能反映出相似的交通模式,这意味着位置之间的空间依赖关系是远距离的。2、现有的方法主要以静态的方式(预定义的或自学习的)对空间依赖性进行建模,这限制了学习动态城市交通模式的能力。
2024-07-21 11:50:01
489
1
原创 参数高效的模型微调笔记
通过指令微调,大语言模型能够更好地学习遵循和执行人类指令。然而,由于大语言模型的参数量巨大,进行全参数微调需要较多的算力资源开销。如何针对大语言模型进行参数高效微调(或者说轻量化微调),旨在减少需要训练的模型参数量,同时保证微调后的模型性能能够与全量微调的表现相媲美。
2024-07-12 17:36:50
1020
原创 大模型的指令微调
通过指令微调,大模型能够获得较好的指令遵循与任务求解能力,无需下游任务的训练样本或者示例就可以解决训练中未见过的任务。此外,还可以引入适当数量的实例作为上下文示例一起作为模型的输入,提升模型的实际性能,缓解模型对于指令格式的敏感性。在指令微调数据集中引入思维链数据,通过这种混合指令数据微调后的模型在多种下游任务中都取得了较好的效果,包括需要多跳推理能力的任务以及不需要多跳推理的任务。例如,对于不同的微调阶段,训练中可以逐渐增加指令的难度和复杂性,从而逐渐提高大模型遵循复杂指令的能力。②多阶段指令数据微调。
2024-07-12 13:51:40
1043
原创 长文本数据在大模型中应用的解决办法
依据语言建模的局部性原理,对模型中近距离敏感的位置索引进行保留,同时截断或插值处理远距离的位置索引,确保其不超出预设的最大旋转角度。对于一个原始上下文窗口为𝑇max的模型,目标是将其上下文窗口扩展到𝑇′ max(其中𝑇′ max > 𝑇max).在RoPE的每个子空间𝑖 上,对于相对位置𝑡,旋转角度 𝑓(𝑡,𝑖) = 𝑡 · 𝜃𝑖 的修改可以分解为对距离𝑡 的修改𝑔(𝑡) 和对基𝜃𝑖 的修改ℎ(𝑖)。然而在处理较短的文本时,由于位置索引的缩放,可能会对模型的性能产生一定的负面影响。
2024-07-11 11:47:31
1496
原创 机器学习笔记
(2)集成理论最早起源于Kearns and Valiant (1989)提出的强学习和弱学习的等价原理,其核心思想是将多个分类器模型组合在一起,得到一个具有更好泛化能力的强学习器模型,也可以把集成学习算法看成是将不同专家的决定通过一定的方法融合为一个结果,此时得到的多个专家进行判断的结果更加具有权威性。信息增益使用了信息理论中的熵,熵表示的是信息的混乱程度,熵越小的时候信息越纯,说明分类的效果越好,所以在每个分裂节点选取熵值最小的特征,即选取信息增益最大的特征作为分裂节点。代表模型:随机森林。
2024-05-12 14:09:36
1081
原创 算法设计与分析学习笔记
使得为N>=N,时有f(N)<=g(N),则称函数f(N)当N充分大时上有界,且g(N)是它的一个上界,记为f(N)=O(g(N)),这时还说f(N)的阶不高于 g(N)的阶。在给定某问题的多种算法中,选择复杂性最低的算法是算法选择的重要准则。(3)因为当N>10时有 2N°+11N-10≤3N°,有2N°+11N-10=O(N)。(2)因为当N>1时有N+1024<1025N.有N+1024=O(N).(1)因为对所有的 N>1 时有 3N<4N,有 3N=O(N).(4)因为对所有 N>1 时有。
2024-04-28 22:24:44
607
1
原创 【无标题】
C语言是当今使用最广泛的高级语言,是操作系统、编译系统等大型复杂系统的首选语言。用C语言编写的程序,灵活、方便、简洁、高效、数据结构丰富、功能齐全。C语言以其灵活方便的特点,成为培养学生计算机语言思维,了解计算机编程思想的最佳语言。实际上是一个用计算机语言描述的某一问题的解决步骤自然语言是人与人之间的交流工具,而人与计算机之间的交流就是计算机语言。如:C语言、java、汇编语言、机器语言等。将编写程序的过程称为程序设计。程序设计语言分为低级语言与高级语言。
2024-04-27 20:14:29
850
1
原创 Qwen-audio-chat模型代码学习之模型代码
Qwen-audio-chat模型通过多模态信息融合技术,有效地结合了音频特征和文本提示信息,从而提升了模型的理解和生成能力。在这一过程中,模型首先提取音频信号的特征,并对文本信息进行向量化处理。接着,利用一个特定的替换机制,将音频特征嵌入到文本的向量表示中,确保两种信息在同一个语义空间内进行有效融合。这种融合策略不仅增强了模型对于多模态输入的处理能力,也使其能够在执行诸如自动生成字幕、多模态情感分析等任务时,更加准确和全面地理解上下文信息。
2024-03-16 02:21:29
2332
1
原创 深入理解自然语言处理中的Token机制及其重要性
深入理解自然语言处理中的Token机制及其重要性在自然语言处理的世界里,Token是构建和理解语言模型的基础。它们是文本的构建块,使得机器能够以结构化的方式处理和理解人类语言。在这篇文章中,我们将深入探讨Token的定义、它们在NLP中的关键作用,以及它们如何推动这一领域的创新。Token的定义和作用Token是文本分析中的基本单元,它可以是一个字符、一个单词或一个短语。在NLP中,Token的引入是为了将复杂的语言数据简化为机器可以高效处理的形式。每个Token都映射到一个向量,这个向量承载了丰富的
2024-03-14 23:15:33
1544
1
原创 Qwen-audio-chat模型代码学习之数据处理代码
b_1:其中nl_token是经过tokenizer.encode将“\n”符变成对应的id,im_start_tokens代表的是开始token,im_end_tokens代表的是结束的token,通通过添加这些特殊标记,可以更好地控制模型生成文本的过程,并确保生成的结果符合预期。最后,数据的处理部分到此结束,最终输入到模型的process_audio获取到的音频相关的特征信息,以及通过context_tokens获取的与提示相关的内容信息。以上问题有解答的可以联系我哟,第一个解答成功的有奖品。
2024-03-14 13:40:10
1424
5
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人