- 博客(182)
- 资源 (2)
- 收藏
- 关注
原创 实用篇 | 利用Flask+Postman为深度学习模型进行快速测试(超详细)
利用Flask+Postman为深度学习模型进行快速测试,以及算法中的一些实例,以后会更新一些新的模板~~
2023-12-04 15:48:31
789
原创 LLM | 一文了解大语言模型中的参数高效微调(PEFT)
PEFT(参数高效微调)通过有针对性的系数调整来减少大型语言模型的计算和内存需求。LoRA(低秩采用)选择重要系数,而量化通过将高精度系数转换为较低精度的形式来减少内存使用,这两者在 PEFT 中都至关重要。使用 PEFT 微调 LLM 涉及结构化数据准备、库设置、模型选择、PEFT 配置、量化选择以及对训练和验证损失的监控,以平衡效率和模型性能。
2023-12-04 09:21:19
3190
1
原创 LLM | 一文搞懂Langchain的概念,相关组件,以及大模型微调~
本文主要介绍了Langchain的概念,相关组件,以及大模型微调代码实现等~
2023-12-03 14:27:05
3895
1
原创 实用篇 | Base64详解及代码示例
Base64是一种二进制到文本的编码系统,它使用一组 64 个不同的 ASCII 字符将二进制数据传输为基于文本的格式。它通常用于对二进制数据进行编码,例如图像或音频文件。一般来说,编码是指将数据从一种格式转换为另一种格式的过程。Base64 编码是通过使用一组 64 个不同的 ASCII 字符表示二进制数据来实现的。当需要在本机不支持二进制数据的系统之间交换数据时,此编码特别有用。
2023-12-01 14:07:35
7340
原创 实用篇 | 关于Gradio快速构建人工智能模型实现界面,你想知道的都在这里
本文描述了gradio的各函数使用,以及关于图像,自然语言护理基于音频相关的所有实例模版~
2023-12-01 12:23:33
3901
1
原创 Linux | Ubuntu设置 netstat(网络状态)
netstat命令用于显示与IP、TCP、UDP和ICMP协议相关的统计数据,一般用于检验本机各端口的网络连接情况。netstat是在内核中访问网络及相关信息的程序,它能提供TCP连接,TCP和UDP监听,进程内存管理的相关报告。
2023-11-29 11:11:41
3943
原创 LLM | A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models论文详解
尽管 mBERT、BLOOM、XGLM 等多语言语言模型已经发布,但使用非英语语言的研究人员仍在追求单语模型。这是因为公开的模型的训练数据偏向于英语,在非英语语言任务上表现不佳。使用韩国数据进行预训练的 Polyglot-ko 模型,在通过各种预处理方法处理了 TUNiB 收集的 1.2TB 韩国数据后进行了预训练。只是一份报告,所以并没有什么创新点。训练环境建议:4台RTX3090(4090/A5000)
2023-11-28 08:23:07
916
原创 实用篇 | T-SNE可视化工具详情及代码示例
TSNE,降维方法之一。在简要说明之后,让我们举一个如何在Python中实际使用T-SNE的例子。降维在机器学习中非常重要。这是因为如果使用高维数据创建模型,则很容易欠拟合。换句话说,有太多无用的数据需要学习。您可以通过从各种数据中仅选择最重要的数据在模型中使用它,也可以使用多个数据创建新数据并使其低维。无论如何,有必要将此类高维数据转换为低维数据。这称为降维。(还有其他方法可以创建要素,例如“特征消除”和“特征选择”。
2023-11-22 15:38:28
13255
1
原创 Speech | openSMILE语音特征提取工具
openSMILE是一款以命令行形式运行的工具,通过配置config文件来提取音频特征。主要应用于语音识别、情感计算、音乐信息获取。2.0版本之后的openSMILE包括了openCV库,可以用于视频处理和视频特征提取。官网有linux和windows版本提供下载,windows可以不编译直接用,建议在命令行里指明 openSMILE 绝对路径。openSMILE的输入输出格式文件输入格式WEKA’s ARFF format.(由htk工具产生)
2023-11-22 10:01:07
1114
原创 NLP | SimKGC论文详解及项目实现
本文主要讲解了论文SimKGC:基于预训练语言模型的简单对比KGC的论文总结以及项目实现。论文题目:2022_SimKGC: Simple Contrastive Knowledge Graph Completion with Pre-trained Language Models。
2023-11-20 15:19:45
1119
1
原创 TTS | 一文总览语音合成系列基础知识及简要介绍
Text-to-Speech(通常缩写为TTS)是指一种将文本读成音频的技术。换句话说,它指的是一种模型,在该模型中,当文本或类似于字符的东西作为输入时,会生成波形音频作为输出。但实际上,这个 TTS 的音频质量在最近几年有了很大的提高。现在不那么尴尬了。整体内容结构遵循[Tan21],并添加了迄今为止(2022年8月)发表的最新论文。1.历史第一台“会说话的机器”可能是在 18 世纪后期制造的(据说是一位匈牙利科学家发明的)。计算机辅助创作起源于20世纪中叶,各种技术已经使用了大约50年。
2023-10-25 12:23:05
8188
2
原创 Speech | 语音中的风格迁移论文,总结及核心代码详解[20240103更新版]
1.样式标记:端到端语音合成中的无监督样式建模、控制和传输摘要在这项工作中,我们提出了“全局风格代币”(GST),这是一个在Tacotron(最先进的端到端语音合成系统)中联合训练的嵌入库。嵌入在没有明确标签的情况下进行训练,但学会了对大范围的声学表现力进行建模。商品及服务税会带来一系列丰富的重要结果。它们生成的软可解释“标签”可用于以新颖的方式控制合成,例如改变速度和说话风格 - 独立于文本内容。它们还可用于风格转换,在整个长格式文本语料库中复制单个音频剪辑的说话风格。
2023-10-23 18:20:39
1771
原创 Speech | .flac文件转换为.wav文件,并进行重采样(Python脚本)
把flac结尾的,替换为wav文件,然后对wav文件进行重采样(48000->22050),可以更换采样率,运行后保存为新的地址,所有文件都在同一文件夹下(保证能运行)。
2023-10-18 16:01:04
632
原创 TTS | 语音合成模型实验结果经验总结
本文主要是语音合成模型实验结果经验总结!!首先列出实验过的所有模型Tacotron&Tacotron2Bark(E2E)VITS/VITS2E2EMB-iSTFT-VITSE2E)
2023-10-18 15:08:07
946
1
原创 强化学习 | 强化学习基础知识(图解)
步骤 2:定义和可视化图形goal = 10pl.show()#上面的图表在代码的复制上可能看起来不一样,因为python中的networkx库从给定的边缘生成一个随机图。# 步骤 3:为机器人定义系统的奖励M *= -1else:else:print(M)# 步骤 4:定义一些要在训练中使用的实用程序函数else:else:return (0)# 第 6 步:使用环境线索定义和可视化新图形pl.show()上图可能看起来与上一张图略有不同,但实际上它们是相同的图表。这是由于。
2023-10-18 08:33:45
1386
原创 学术 | IEEE ICASSP学术会议申请及截止时间
一般情况下,每年的⑨月份截止第二年的论文。作者可以选择将论文提交到Open Journal of Signal Processing上发表,该期刊是 100% 开放获取的——所有内容均可免费提供给用户或其机构。这些。请注意,提交给此审查轨道的论文主题必须属于会议的技术范围。会议时间 : 2024年8月14-19号会议地点 : COEX,韩国首尔需要创建SPS 的 ScholarOne 帐户直到可参考准备文档时,请使用以下准则:长度:您总共可以有 5 页 公文。
2023-10-17 16:00:49
8388
原创 TTS | 利用Fastspeech训练LJSpeech语音数据集后英文文本生成语音及代码详解
基于的前馈网络,用于并行生成梅尔谱图。模型与自回归相比,梅尔谱图生成速度加快了270倍,端到端语音合成速度加快了38倍。项目实现把下载的预训练模型改名为解压文件当当前文件夹然后运行处理完数据后,开始进行训练(训练将近一周)训练后如图训练后进行验证,先修改eval.py中的超参数 --step ,改为自己刚训练后的model_new文件夹下的checkpoint后面的数,如图我的情况把默认0,改为768000,如下然后再运行(如果运行后出现错误,请参考Q&A2)结果显示如图。
2023-09-20 12:57:45
883
原创 TTS | 轻量级语音合成论文详解及项目实现
介绍了之前的俩阶段语音合成(声学模型和Vocoders),因为VITS是高质量端到端的模型,所以论文提出的模型是基于VITS轻量级的端到端模型,论文主要几种在模型的解码部分,也就是转换潜在的声学特征到wavaform,用简单的反向短时傅立叶变换 (iSTFT)代替一部分解码器,以高效地完成频域到时域的转换.在推理提升速度时,使用多段处理。在提出的方法时,每一个iSTFTNet,子段信号。推理时,比原本的VITS快了4.1倍,
2023-09-18 15:06:08
2439
1
原创 TTS | 保姆级端到端的语音合成VITS论文详解及项目实现(超详细图文代码)
提出一种TTS模型框架VITS,用到normalizing flow和对抗训练方法,提高合成语音自然度,其中论文结果上显示已经和GT相当。是结合了VAE和FLOW的新架构。在俩各数据集中的实验结果论文的主要贡献:首个自然度超过2-stage架构SOTA的完全E2E模型。MOS4.43, 仅低于GT录音0.03。得益于图像领域中把Flow引入VAE提升生成效果的研究,成功把Flow-VAE应用到了完全E2E的TTS任务中。训练非常简便,完全E2E。
2023-09-18 15:02:06
9711
5
原创 Speech | 语音处理,分割一段音频(python)
本文主要是关于语音数据在处理过程中的一些脚本文件以及实例,所有代码只需要更改所需处理的文件路径,输出路径等,全部可运行。
2023-09-05 11:35:54
7863
3
原创 环境配置 | win10上配置Docker,创建容器并运行【图文详解】
本文利用图文,详解了在win10上如何配置Docker,创建容器并运行,超简单版~电脑环境:windows10家庭版一定要确认好版本:查看自己的电脑版本,以下操作win10家庭版和专业版都可以。
2023-07-20 00:00:11
4498
2
原创 React | 从头打造个人网站(超详细)
哈喽🤗,这篇博客从0开始教大家创建自己的网站,包含个人网站,商用网站等,并且提供模板类型,提供修改模块样本~最终效果那就开始吧👩💻👨💻。
2023-07-02 02:32:31
2591
2
原创 前端 | VScode实现一边写代码一边可以实时查看页面效果[图文详解]
本文主要是基于VSCode实现实现一边写前端代码一边可以实时查看页面效果。
2023-07-01 23:41:04
11011
5
原创 环境配置 | Git的安装及配置[图文详情]
是一个开源的分布式版本控制系统,可以有效、高速地处理从小到大的项目版本管理。下面介绍了基础概念及详细的用图文形式介绍一下过程.
2023-06-23 17:50:55
11852
原创 Speech | 提取语音(数据集)的语音特征合集
提取语音(数据集)的语音特征工具(Extract audio features toolkits)本文主要讲解了提取数据集的一些主要工具,以及如何使用这些工具,包含安装以及运行命令。提取语音(数据集)的语音特征工具(Extract audio features toolkits)•openSMILE•••。
2023-06-13 18:20:36
1714
原创 实用工具 | 语音文本对齐MFA的安装及使用
是一个用于将音频和文本进行对齐的工具。它可以用于语音识别、语音合成和发音研究等领域。MFA支持多种语言和语音,用户可以根据需要自定义训练模型。本博客介绍如何使用MFA对音频和文本进行对齐,其中使用的是MFA的最新版本(版本v2.2.12)。
2023-06-05 14:25:26
4774
2
原创 CV | Emotionally Enhanced Talking Face Generation论文详解及代码实现
本博客主要讲解了Emotionally Enhanced Talking Face Generation(情感增强的谈话人脸生成)论文概括与项目实现,以及代码理解。Code:(克隆项目下载权重后,可直接进行推理)
2023-06-01 15:31:41
2030
9
原创 多模态 | Supervised Prototypical Contrastive Learning for Emotion Recognition in Conversation论文详解及实现
论文在对话中捕捉情绪在现代对话系统中起着至关重要的作用。然而,情感和语义之间的弱相关性给会话中的情感识别(ERC)带来了许多挑战。即使是语义相似的话语,情绪也可能因上下文或说话者而有很大差异。在本文中,为 ERC 任务提出了监督原型对比学习 (SPCL) 损失。利用原型网络,SPCL 旨在通过对比学习解决不平衡分类问题,并且不需要大批量。同时,我们设计了一个基于班级距离的难度度量函数,引入课程学习来减轻极端样本的影响。论文在三个广泛使用的基准测试中取得了最先进的结果。
2023-05-12 16:21:05
870
1
原创 数据集 | 基于语音(Speech)/多模态(Multimodal)的情绪识别数据集,格式及下载
RAVDESS 包含 24 名专业演员(12 名女性,12 名男性),用中性的北美口音说出两个词汇匹配的陈述。文件名由 7 部分数字标识符组成(例如,03-01-06-01-02-01-12.wav)。情绪(01 = 中性,02 = 平静,03 = 快乐,04 = 悲伤,05 = 愤怒,06 = 恐惧,07 = 厌恶,08 = 惊讶)。情绪强度(01 = 正常,02 = 强烈)。模态(01 = 全 AV,02 = 仅视频,03 = 仅音频)。文件名示例:03-01-06-01-02-01-12.wav。
2023-05-12 10:22:17
8244
2
原创 实用篇 | huggingface的一些应用指导
本文主要介绍hugging Face(拥抱脸)的简单介绍以及常见用法,用来模型测试是个好的工具~如下图所示左边框是各项任务,包含多模态(Multimodal),计算机视觉(Computer Vision),自然语言处理(NLP)等,右边是各任务模型。本文测试主要有。
2023-05-11 13:04:31
4795
原创 多模态 | 多模态中单模态中提取特征方法(代码)
在多模态任务中,有一种方法时在单模态中先各自提取各模态的特征,然后进行融合,本文主要实现各模态特征的提取。
2023-05-02 09:59:57
2030
原创 环境配置 | Win10 VSCode连接远程服务器里的docker容器
环境:win10, VS code, 远程服务器Ubuntu16.04(远程服务器上已经安装好了dockers),
2023-04-27 11:11:28
2609
原创 Docker | 解决docker 容器中csv文件乱码的情况
问题描述:在Ubuntu docker容器中,打开.csv文件时显示乱码问题如图。
2023-04-26 08:54:22
856
原创 问题解决 | Failed to initialize NVML: Driver/library version mismatch
Ubuntu20.04服务器上,一个docker容器正在训练模型,打开另外一个docker容器时,出现以下错误。
2023-04-25 14:43:17
5836
语音特征提取详解PPT
2023-04-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅