自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

--

  • 博客(171)
  • 资源 (3)
  • 收藏
  • 关注

原创 sherpa-onnx:构建SherpaOnnxTts APK -- 文本转语音大模型

修改Android APK工程中,对应模型相关内容。在 android/SherpaOnnxTts/app/src/main/java/com/k2fsa/sherpa/onnx/MainActivity.kt 文件中,

2025-12-24 15:51:47 848

原创 sherpa-onnx:构建 SherpaOnnx(ASR) APK -- 语音转文本大模型

目前支持 Android ABI 构建类型 :arm64-v8a、armeabi-v7a、x86_64、x86;使用命令安装APK:adb install <your_path>/app-debug.apk。(1)github访问失败问题:修改为镜像(bgithub.xyz)(1)安装你的Android Studio,请参阅。声明:资源可能存在第三方来源,若有侵权请联系删除!(1)安装你的Android NDK。去以下路径获取APK:(其中之一),了解所有可用的预训练模型。(1)下载模型:方法同上。

2025-12-24 15:50:18 1042

原创 TTS:论文--文本转语音系统及媒体应用概述

典型的现代文本到语音(TTS)系统设计复杂,如图1所示。这些系统通常需要:一个文本前端来提取语言学特征,一个模型来预测声学特征,以及一个基于信号处理的声码器来重构最终的波形。这些模块中的每一个都需要专家设计并且需要独立训练。图1: TTS系统总体结构fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill:#333;height:1em;

2025-12-23 19:29:16 908

原创 Matcha-TTS:论文阅读 -- 文本转语音大模型

扩散概率模型DPMs,Diffusion probabilistic models)是当前生成模型领域的新标准,特别擅长生成图像、动作、语音等连续数据。其核心原理很简单:先通过逐步加噪将真实数据"破坏"成纯噪声,如高斯噪声;然后训练模型学会从噪声"重建"出原始数据。这个重建过程可以用两种数学方式描述:随机性的随机微分方程SDEs,stochastic differential equations),每次生成结果略有不同;确定性的常微分方程ODE。

2025-12-23 19:28:42 871

原创 【动手学深度学习】8.1. 序列模型

.目前为止,我们已学习了处理表格数据和图像数据的模型。其中,卷积神经网络(CNN)通过捕捉局部空间结构,成功建模图像中像素的相对位置关系。然而,许多现实数据具有序列结构,如文本、语音、视频帧或时间序列,其元素顺序至关重要——打乱顺序将破坏语义或时序逻辑。更重要的是,这类数据通常不满足独立同分布(i.i.d.)假设。相反,当前时刻的输出往往依赖于历史信息。例如:文本中的下一个词取决于前面的上下文;股价变化受过去走势影响;用户行为序列中蕴含动态偏好。为有效建模此类序列数据,我们需要能够记忆历史信息并随时间动态处

2025-11-13 21:39:08 1184

原创 【AI大模型技术】8.大模型文本理解与生成

然而,它的缺点在于不产生独立的句子嵌入,这意味着在信息检索场景下,无法预先计算文档嵌入并进行有效的比较或索引,导致在实际应用中的效率较低。: Dual-encoder模型,也称为Sentence Transformer,为每个句子独立产生嵌入,这些嵌入可以被预先计算并用于索引,从而在信息检索任务中实现更快的检索速度。通过训练神经网络模型,可以实现对文本数据的深度理解和分析,从而提高信息检索的准确性和效率。a. 计算被正确检索的文档的排名的倒数的平均值,再对所有查询的平均值取均值。

2025-11-13 21:28:12 687

原创 【AI大模型技术】 7.OpenBMB

它的目标是加速百亿级以上大模型的训练、微调与推理,降低大模型的使用门槛,推动大模型生态的发展,实现大模型的标准化、普及化和实用化,让大模型技术能够更广泛地应用于各种场景。在混合精度训练中,模型的前向传播和反向传播可以使用FP16进行,以加快速度和减少内存占用,而参数更新则使用FP32进行,以保持更新的精度。:大模型训练的“发动机”,能够进行高效的大模型预训练与微调,与DeepSpeed等框架相比,可以节省高达90%的训练成本。:进行参数高效的大模型微调,仅更新极少参数(小于5%)即可达到全参数微调的效果。

2025-11-12 07:36:02 1027

原创 【AI大模型技术】6.高效微调大模型

在预训练的语言模型(PLMs)和下游任务之间引入提示(Prompt)或文本线索,来缩小预训练(Pre-training)和微调(Fine-tuning)之间的差距(Gap)。核心思想是,通过优化模型中一小部分关键参数,可以实现对模型的高效适配,而无需调整整个模型的参数,从而大大降低了计算和存储成本。GAP:通常指的是预训练(Pre-training)和微调(Fine-tuning)之间的差距(Gap)。重参数化方法将原始模型的部分参数重新参数化为低维代理参数,并仅优化这些代理参数,从而降低计算和内存成本。

2025-11-12 07:35:30 1082

原创 【AI大模型技术】4.预训练语言模型(PLMs,Pre-trained Langue Models);5.Transformers Tutorial

BERT(Bidirectional Encoder Representations from Transformers,Transformer的双向编码器表示)是一种基于Transformer架构的深度学习模型。双向编码:BERT使用双向Transformer编码器,即模型会同时考虑输入序列中,每个词的左侧和右侧上下文。这与传统的单向模型不同,后者只能从左到右或从右到左处理文本。预训练:BERT通过在大量文本数据上进行预训练来学习语言表示。

2025-11-11 07:44:32 1462 1

原创 Android设备:无busybox工具解决

BusyBox 将众多标准 Linux 命令(如lscpmvgreptarpingifconfigudhcpcvi等),通过符号链接或参数调用不同功能,极大节省存储空间和内存。

2025-11-11 07:44:04 381

原创 【AI大模型技术】3.Transformer基础

查询(Query)、键(Key)、值(Value): 模型首先将输入序列转换为三个向量集合:查询(Q)、键(K)和值(V)。这些向量代表了序列中每个元素的表示。注意力分数: 对于序列中的每个元素,模型计算它与序列中每个其他元素的注意力分数。这通常是通过计算查询向量和键向量之间的点积来实现的,然后通过一个缩放因子(通常是键向量维度的平方根)来缩放,以防止梯度消失。softmax 归一化: 计算得到的注意力分数通过 softmax 函数进行归一化,使得每个元素的注意力分数之和为1。

2025-11-10 08:00:00 1008

原创 Git:确定当前仓库版本

这是最可靠的方式,因为 commit hash 是 Git 中唯一标识一个版本的方式。,当前提交在其之后 5 次提交。如果正好在 tag 上,会直接输出。声明:资源可能存在第三方来源,若有侵权请联系删除!,说明最近的 tag 是。

2025-11-10 03:38:14 483

原创 【AI大模型技术】2.神经网络

LSTM和GRU是RNN的变种,它们通过引入输入门、遗忘门和输出门(在LSTM中)或更新门和重置门(在GRU中)来控制信息的流动,从而有效缓解梯度消失和梯度爆炸的问题。GRU通过引入更新门(update gate)和重置门(reset gate)来控制信息的流动,有效地捕捉长距离依赖关系。GRU(Gated Recurrent Unit):指在解决传统RNN在处理长序列数据时面临的梯度消失和梯度爆炸问题。:正向和反向RNN在每个时间步的输出被合并(通常是拼接),以得到包含过去和未来信息的完整表示。

2025-11-09 10:48:45 1266

原创 【AI大模型技术】1.NLP

独热编码中,每个类别值都被表示为二进制向量,向量长度等于类别的数量,只有一个位置是1,其余位置都是0。词表示(Word Representation):将符号(symbols)转换成机器能理解的含义(meanings)。通过将单词、短语或句子映射到实数向量空间,使得语义相近的单词在向量空间中的位置相近,从而捕捉单词之间的语义和语法关系。将One-Hot编码表示的矩阵与嵌入矩阵相乘,就可以将高维稀疏的矩阵嵌入到一个低维稠密的矩阵中。需要存储所有可能的n-gram计数,所以模型大小是O(exp(n))。

2025-11-09 10:12:33 732

原创 Qwen3-Omni:论文阅读 -- 全模态模型(文音图视频)

Qwen3-Omni是首个在文本、图像、音频和视频四大模态上均达到无损性能的统一多模态模型。

2025-10-26 12:00:00 2551

原创 Qwen2.5-Omni:论文阅读 -- 全模态模型(文音图视频)

Qwen2.5-Omni是一个端到端多模态模型,支持文本、图像、音频和视频的实时交互处理与生成。

2025-10-26 08:00:00 1788

原创 llama.cpp:Android端测试Qwen2.5-Omni

将你想推理的img.png和audio.wav放到./Data目录。以下是经实验验证可行的环境参考,也可尝试其他版本。声明:资源可能存在第三方来源,若有侵权请联系删除!(2)硬件设备:Android 手机。(3)软件环境:如下表所示。

2025-10-25 12:37:37 643

原创 llama.cpp:Linux_x86端测试Qwen2.5-Omni

将你想推理的img.png和audio.wav放到./Data目录。以下是经实验验证可行的环境参考,也可尝试其他版本。声明:资源可能存在第三方来源,若有侵权请联系删除!(2)软件环境:如下表所示。

2025-10-25 12:35:08 577

原创 HTTP Client/Server:cpp-httplib实现http c/s方式调用模型

声明:资源可能存在第三方来源,若有侵权请联系删除!

2025-10-20 08:45:00 293

原创 HTTP Client/Server 实践:cpp-httplib服务器发送事件(SSE)

服务器发送事件提供了一种方法,使服务器能够通过 HTTP 向客户端推送实时更新,而无需客户端反复轮询服务器。与 WebSockets 不同,SSE 是单向的(仅从服务器到客户端),但为许多实时用例提供了更简单的实现。服务器发送事件(SSE)是一种服务器推送技术,允许 Web 服务器通过单个 HTTP 连接持续向客户端推送数据。类来管理事件分发到连接的客户端,使用互斥锁和条件变量进行线程同步。:SSE 使用 HTTP 分块传输编码来发送数据块,而不关闭连接。实现 SSE,以实现从服务器到客户端的实时更新。

2025-10-20 08:15:00 425

原创 HTTP Client/Server 实践:cpp-httplib使用

cpp-httplib 是一个基于 C++11 的单头文件 HTTP/HTTPS 库,设计简洁,易于使用。只需包含一个头文件,即可快速实现 Web 服务器或 HTTP 客户端,支持现代 C++ 应用的服务器端与客户端通信。主要功能1)HTTP/HTTPS 服务器简单路由 API:使用直观的语法定义端点处理程序支持所有标准 HTTP 方法路径参数和正则匹配:直接从 URL 路径中提取值静态文件服务:轻松从目录中提供文件默认多线程:高效处理并发连接SSL/TLS 支持:使用 HTTPS 保护服务器。

2025-10-19 10:01:42 1233

原创 HTTP Client/Server 理论

HTTP(超文本传输协议,HyperText Transfer Protocol)用于在客户端与服务器之间传输数据(如网页、图片等),是万维网(WWW)的核心应用层协议。它基于 TCP/IP,通过统一资源标识符(Uniform Resource Identifiers,URI)定位资源,最初旨在支持 HTML 页面的发布与获取。其安全版本为 HTTPS。HTTP(超文本传输协议,Hypertext Transfer Protocol)是一种用于从网络传输超文本到本地浏览器的传输协议。

2025-10-19 09:52:57 890

原创 【动手学深度学习】7.7. 稠密连接网络(DenseNet)

稠密块里的卷积层通道数(即增长率)设为32,所以每个稠密块将增加128个通道。使用通道数为3的输入时,则会得到通道数为 3+2*10=23 的输出。它通过1x1卷积层来减小通道数,并使用步幅为2的平均汇聚层减半高和宽,从而进一步降低模型复杂度。让我们先从数学上了解一下。在构建DenseNet时,我们需要通过添加过渡层来控制网络的维数,从而再次减少通道的数量。由多个输出通道数相同的卷积块组成,前向传播时在通道维上连接各卷积块的输入与输出。卷积块的通道数控制了输出通道数相对于输入通道数的增长,因此也被称为。

2025-09-10 09:20:22 973

原创 【动手学深度学习】7.6. 残差网络(ResNet)

残差网络(ResNet)通过引入残差块解决了深度神经网络训练难题。其核心思想是让网络学习残差映射(f(x)-x)而非直接拟合目标函数。当理想映射接近恒等变换时,残差块可快速收敛。ResNet包含多个残差模块,每个模块由两个3×3卷积层和跨层连接组成,必要时通过1×1卷积调整维度。实验表明,这种结构能有效缓解梯度消失问题,使网络深度突破100层。2015年ResNet在ImageNet竞赛中夺冠,验证了其优越性,为后续网络设计提供了新范式。

2025-09-09 09:15:18 1353

原创 【动手学深度学习】7.5. 批量规范化

批量规范化应用于单个可选层(也可以应用到所有层),其原理如下:在每次训练迭代中,我们首先规范化输入,即通过减去其均值并除以其标准差,其中两者均基于当前小批量处理。回想一下,批量规范化和其他层之间的一个关键区别是,由于批量规范化在完整的小批量上运行,因此我们不能像以前在引入其他层时那样忽略批量大小。在模型训练过程中,批量规范化利用小批量的均值和标准差,不断调整神经网络的中间输出,使整个神经网络各层的中间输出值更加稳定。此外,我们的层将保存均值和方差的移动平均值,以便在模型预测期间随后使用。

2025-09-09 09:07:38 933

原创 【动手学深度学习】7.4. 含并行连结的网络(GoogLeNet)

需要注意的是,第五模块后紧跟输出层,该模块采用全局平均汇聚层,将每个通道的高和宽变为1。GoogLeNet之所以有效,是因为它使用多种尺寸的滤波器(如1×1、3×3、5×5)来捕捉不同尺度的图像特征,从而更全面地识别细节。它通过不同窗口形状的卷积层和最大汇聚层来并行抽取信息,并使用卷积层减少每像素级别上的通道维数从而降低模型复杂度。首先是包含3×3卷积层的第二条路径输出最多通道,其次是仅含1×1卷积层的第一条路径,然后是含5×5卷积层的第三条路径和含3×3最大汇聚层的第四条路径。

2025-09-08 11:50:53 720

原创 【动手学深度学习】7.3. 网络中的网络(NiN)

*网络中的网络(NiN)**提供了一个非常简单的解决方案:在每个像素的通道上分别使用多层感知机。NiN去除了容易造成过拟合的全连接层,将它们替换为全局平均汇聚层(即在所有位置上进行求和)。该汇聚层通道数量为所需的输出数量(例如,Fashion-MNIST的输出为10)。回想一下,卷积层的输入和输出由四维张量组成,张量的每个轴分别对应样本、通道、高度和宽度。另外,全连接层的输入和输出通常是分别对应于样本和特征的二维张量。相反,NiN使用一个NiN块,其输出通道数等于标签类别的数量。

2025-09-08 11:50:28 1191

原创 【动手学深度学习】7.2. 使用块的网络(VGG)

在最初的VGG论文中 (Simonyan and Zisserman, 2014),作者使用了带有 3x3 卷积核、填充为1(保持高度和宽度)的卷积层,和带有 2x2。原始VGG网络有5个卷积块,其中前两个块各有一个卷积层,后三个块各包含两个卷积层。类似于芯片设计从晶体管到功能模块的抽象过程,神经网络设计也从单个神经元发展到层,再到“块”——重复的层结构模式。正如从代码中所看到的,我们在每个块的高度和宽度减半,最终高度和宽度都为7。不同的VGG模型可通过每个块中卷积层数量和输出通道数量的差异来定义。

2025-08-25 18:24:24 671

原创 【动手学深度学习】7.1. 深度卷积神经网络(AlexNet)

上一章我们介绍了卷积神经网络的基本原理,本章将介绍现代的卷积神经网络架构,许多现代卷积神经网络的研究都是建立在这一章的基础上的。在实际效果上,更大、更干净的数据集或更优的特征设计,往往比算法改进带来更显著的精度提升。尽管LeNet在小数据集上表现良好,推动了卷积神经网络的发展,但在1990年代初至2012年间,其在更大、更真实数据集上的性能和训练可行性尚不明确,导致卷积神经网络未占据主导地位,常被其他机器学习方法超越,如支持向量机(support vector machines)。

2025-08-25 18:17:32 1774

原创 【动手学深度学习】6.6. 卷积神经网络(LeNet)

LeNet、卷积神经网络、手写数字识别、Fashion-MNIST、PyTorch

2025-08-23 15:10:15 961

原创 【动手学深度学习】6.5. 汇聚层

本文介绍了神经网络中的汇聚层(Pooling Layer),主要包括最大汇聚层和平均汇聚层两种类型。

2025-08-23 15:02:29 689

原创 【动手学深度学习】6.4. 多输入多输出通道

本文介绍了多输入多输出通道在卷积神经网络中的应用。

2025-08-22 10:00:00 996

原创 【动手学深度学习】6.3. 填充和步幅

本文介绍了卷积神经网络中影响输出形状的两个关键因素:填充(padding)和步幅(stride)。

2025-08-22 07:00:00 467

原创 【动手学深度学习】6.2. 图像卷积

6. 卷积神经网络(CNN)6.2. 图像卷积

2025-08-21 19:26:34 971

原创 【动手学深度学习】6.1. 从全连接层到卷积

6. 卷积神经网络(CNN)6.1. 从全连接层到卷积

2025-08-21 09:01:10 1740

原创 【动手学深度学习】5.6. GPU

本文介绍了如何利用GPU进行高性能计算,包括单GPU和多GPU配置。主要内容包括:1)使用nvidia-smi命令查看GPU信息;2)在PyTorch中指定计算设备(CPU/GPU)的方法;3)张量在不同设备间的存储和传输。重点强调了多设备操作时需确保数据在同一设备上,并演示了如何通过设备复制实现跨GPU计算。文中还提供了查询可用GPU数量和异常处理的实用函数,为深度学习任务中的GPU加速提供了基础指导。

2025-08-20 07:32:53 1020

原创 【动手学深度学习】5.5. 读写文件

本文介绍了PyTorch中保存和加载张量及模型参数的方法。主要内容包括:1)使用torch.save和torch.load读写单个张量、张量列表和字典;2)保存模型参数而非整个模型对象,通过state_dict保存网络参数,加载时需要先重建模型架构再加载参数;3)强调保存架构需通过代码实现。这些方法可用于模型持久化、中断恢复等场景,确保训练成果不丢失。

2025-08-20 07:32:22 913

原创 【动手学深度学习】5.4. 自定义层

本文介绍了如何在PyTorch中构建自定义神经网络层,包括不带参数和带参数的两种类型。

2025-08-19 07:53:34 730

原创 【动手学深度学习】5.3. 延后初始化

深度学习框架采用延后初始化机制,即在数据首次通过模型时才动态推断各层的维度。

2025-08-19 07:52:07 213

原创 【动手学深度学习】5.2. 参数管理

本文介绍了深度学习中的参数管理方法,重点涵盖参数访问、初始化和共享机制。

2025-08-18 09:27:41 1166

循迹识别小车(上传版).zip

循迹+识别的小车 使用STM32板、树莓派3B+板、python语言、opencv、openmv4等等,简单易懂。

2021-01-20

MSP430数据手册+用户手册中英文

亲自使用个,很好用。——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————

2020-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除