XiaoJ1234567-CSDN博客

原创 sherpa-onnx：构建SherpaOnnxTts APK -- 文本转语音大模型

修改Android APK工程中，对应模型相关内容。在 android/SherpaOnnxTts/app/src/main/java/com/k2fsa/sherpa/onnx/MainActivity.kt 文件中,

2025-12-24 15:51:47 848

原创 sherpa-onnx：构建 SherpaOnnx(ASR) APK -- 语音转文本大模型

目前支持 Android ABI 构建类型：arm64-v8a、armeabi-v7a、x86_64、x86；使用命令安装APK：adb install <your_path>/app-debug.apk。（1）github访问失败问题：修改为镜像（bgithub.xyz）（1）安装你的Android Studio，请参阅。声明：资源可能存在第三方来源，若有侵权请联系删除！（1）安装你的Android NDK。去以下路径获取APK：（其中之一），了解所有可用的预训练模型。（1）下载模型：方法同上。

2025-12-24 15:50:18 1042

原创 TTS：论文--文本转语音系统及媒体应用概述

典型的现代文本到语音（TTS）系统设计复杂，如图1所示。这些系统通常需要：一个文本前端来提取语言学特征，一个模型来预测声学特征，以及一个基于信号处理的声码器来重构最终的波形。这些模块中的每一个都需要专家设计并且需要独立训练。图1: TTS系统总体结构fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill:#333;height:1em;

2025-12-23 19:29:16 908

原创 Matcha-TTS：论文阅读 -- 文本转语音大模型

扩散概率模型DPMs，Diffusion probabilistic models）是当前生成模型领域的新标准，特别擅长生成图像、动作、语音等连续数据。其核心原理很简单：先通过逐步加噪将真实数据"破坏"成纯噪声，如高斯噪声；然后训练模型学会从噪声"重建"出原始数据。这个重建过程可以用两种数学方式描述：随机性的随机微分方程SDEs，stochastic differential equations），每次生成结果略有不同；确定性的常微分方程ODE。

2025-12-23 19:28:42 871

原创【动手学深度学习】8.1. 序列模型

.目前为止，我们已学习了处理表格数据和图像数据的模型。其中，卷积神经网络（CNN）通过捕捉局部空间结构，成功建模图像中像素的相对位置关系。然而，许多现实数据具有序列结构，如文本、语音、视频帧或时间序列，其元素顺序至关重要——打乱顺序将破坏语义或时序逻辑。更重要的是，这类数据通常不满足独立同分布（i.i.d.）假设。相反，当前时刻的输出往往依赖于历史信息。例如：文本中的下一个词取决于前面的上下文；股价变化受过去走势影响；用户行为序列中蕴含动态偏好。为有效建模此类序列数据，我们需要能够记忆历史信息并随时间动态处

2025-11-13 21:39:08 1184

原创【AI大模型技术】8.大模型文本理解与生成

然而，它的缺点在于不产生独立的句子嵌入，这意味着在信息检索场景下，无法预先计算文档嵌入并进行有效的比较或索引，导致在实际应用中的效率较低。： Dual-encoder模型，也称为Sentence Transformer，为每个句子独立产生嵌入，这些嵌入可以被预先计算并用于索引，从而在信息检索任务中实现更快的检索速度。通过训练神经网络模型，可以实现对文本数据的深度理解和分析，从而提高信息检索的准确性和效率。a. 计算被正确检索的文档的排名的倒数的平均值，再对所有查询的平均值取均值。

2025-11-13 21:28:12 687

原创【AI大模型技术】 7.OpenBMB

它的目标是加速百亿级以上大模型的训练、微调与推理，降低大模型的使用门槛，推动大模型生态的发展，实现大模型的标准化、普及化和实用化，让大模型技术能够更广泛地应用于各种场景。在混合精度训练中，模型的前向传播和反向传播可以使用FP16进行，以加快速度和减少内存占用，而参数更新则使用FP32进行，以保持更新的精度。：大模型训练的“发动机”，能够进行高效的大模型预训练与微调，与DeepSpeed等框架相比，可以节省高达90%的训练成本。：进行参数高效的大模型微调，仅更新极少参数（小于5%）即可达到全参数微调的效果。

2025-11-12 07:36:02 1027

原创【AI大模型技术】6.高效微调大模型

在预训练的语言模型（PLMs）和下游任务之间引入提示（Prompt）或文本线索，来缩小预训练（Pre-training）和微调（Fine-tuning）之间的差距（Gap）。核心思想是，通过优化模型中一小部分关键参数，可以实现对模型的高效适配，而无需调整整个模型的参数，从而大大降低了计算和存储成本。GAP：通常指的是预训练（Pre-training）和微调（Fine-tuning）之间的差距（Gap）。重参数化方法将原始模型的部分参数重新参数化为低维代理参数，并仅优化这些代理参数，从而降低计算和内存成本。

2025-11-12 07:35:30 1082

原创【AI大模型技术】4.预训练语言模型（PLMs，Pre-trained Langue Models）；5.Transformers Tutorial

BERT（Bidirectional Encoder Representations from Transformers，Transformer的双向编码器表示）是一种基于Transformer架构的深度学习模型。双向编码：BERT使用双向Transformer编码器，即模型会同时考虑输入序列中，每个词的左侧和右侧上下文。这与传统的单向模型不同，后者只能从左到右或从右到左处理文本。预训练：BERT通过在大量文本数据上进行预训练来学习语言表示。

2025-11-11 07:44:32 1462 1

原创 Android设备：无busybox工具解决

BusyBox 将众多标准 Linux 命令（如lscpmvgreptarpingifconfigudhcpcvi等），通过符号链接或参数调用不同功能，极大节省存储空间和内存。

2025-11-11 07:44:04 381

原创【AI大模型技术】3.Transformer基础

查询（Query）、键（Key）、值（Value）: 模型首先将输入序列转换为三个向量集合：查询（Q）、键（K）和值（V）。这些向量代表了序列中每个元素的表示。注意力分数: 对于序列中的每个元素，模型计算它与序列中每个其他元素的注意力分数。这通常是通过计算查询向量和键向量之间的点积来实现的，然后通过一个缩放因子（通常是键向量维度的平方根）来缩放，以防止梯度消失。softmax 归一化: 计算得到的注意力分数通过 softmax 函数进行归一化，使得每个元素的注意力分数之和为1。

2025-11-10 08:00:00 1008

原创 Git：确定当前仓库版本

这是最可靠的方式，因为 commit hash 是 Git 中唯一标识一个版本的方式。，当前提交在其之后 5 次提交。如果正好在 tag 上，会直接输出。声明：资源可能存在第三方来源，若有侵权请联系删除！，说明最近的 tag 是。

2025-11-10 03:38:14 483

原创【AI大模型技术】2.神经网络

LSTM和GRU是RNN的变种，它们通过引入输入门、遗忘门和输出门（在LSTM中）或更新门和重置门（在GRU中）来控制信息的流动，从而有效缓解梯度消失和梯度爆炸的问题。GRU通过引入更新门（update gate）和重置门（reset gate）来控制信息的流动，有效地捕捉长距离依赖关系。GRU（Gated Recurrent Unit）：指在解决传统RNN在处理长序列数据时面临的梯度消失和梯度爆炸问题。：正向和反向RNN在每个时间步的输出被合并（通常是拼接），以得到包含过去和未来信息的完整表示。

2025-11-09 10:48:45 1266

原创【AI大模型技术】1.NLP

独热编码中，每个类别值都被表示为二进制向量，向量长度等于类别的数量，只有一个位置是1，其余位置都是0。词表示(Word Representation)：将符号(symbols)转换成机器能理解的含义(meanings)。通过将单词、短语或句子映射到实数向量空间，使得语义相近的单词在向量空间中的位置相近，从而捕捉单词之间的语义和语法关系。将One-Hot编码表示的矩阵与嵌入矩阵相乘，就可以将高维稀疏的矩阵嵌入到一个低维稠密的矩阵中。需要存储所有可能的n-gram计数，所以模型大小是O(exp(n))。

2025-11-09 10:12:33 732

原创 Qwen3-Omni：论文阅读 -- 全模态模型（文音图视频）

Qwen3-Omni是首个在文本、图像、音频和视频四大模态上均达到无损性能的统一多模态模型。

2025-10-26 12:00:00 2551

原创 Qwen2.5-Omni：论文阅读 -- 全模态模型（文音图视频）

Qwen2.5-Omni是一个端到端多模态模型，支持文本、图像、音频和视频的实时交互处理与生成。

2025-10-26 08:00:00 1788

原创 llama.cpp：Android端测试Qwen2.5-Omni

将你想推理的img.png和audio.wav放到./Data目录。以下是经实验验证可行的环境参考，也可尝试其他版本。声明：资源可能存在第三方来源，若有侵权请联系删除！（2）硬件设备：Android 手机。（3）软件环境：如下表所示。

2025-10-25 12:37:37 643

原创 llama.cpp：Linux_x86端测试Qwen2.5-Omni

将你想推理的img.png和audio.wav放到./Data目录。以下是经实验验证可行的环境参考，也可尝试其他版本。声明：资源可能存在第三方来源，若有侵权请联系删除！（2）软件环境：如下表所示。

2025-10-25 12:35:08 577

原创 HTTP Client/Server：cpp-httplib实现http c/s方式调用模型

声明：资源可能存在第三方来源，若有侵权请联系删除！

2025-10-20 08:45:00 293

原创 HTTP Client/Server 实践：cpp-httplib服务器发送事件（SSE）

服务器发送事件提供了一种方法，使服务器能够通过 HTTP 向客户端推送实时更新，而无需客户端反复轮询服务器。与 WebSockets 不同，SSE 是单向的（仅从服务器到客户端），但为许多实时用例提供了更简单的实现。服务器发送事件（SSE）是一种服务器推送技术，允许 Web 服务器通过单个 HTTP 连接持续向客户端推送数据。类来管理事件分发到连接的客户端，使用互斥锁和条件变量进行线程同步。：SSE 使用 HTTP 分块传输编码来发送数据块，而不关闭连接。实现 SSE，以实现从服务器到客户端的实时更新。

2025-10-20 08:15:00 425

原创 HTTP Client/Server 实践：cpp-httplib使用

cpp-httplib 是一个基于 C++11 的单头文件 HTTP/HTTPS 库，设计简洁，易于使用。只需包含一个头文件，即可快速实现 Web 服务器或 HTTP 客户端，支持现代 C++ 应用的服务器端与客户端通信。主要功能1）HTTP/HTTPS 服务器简单路由 API：使用直观的语法定义端点处理程序支持所有标准 HTTP 方法路径参数和正则匹配：直接从 URL 路径中提取值静态文件服务：轻松从目录中提供文件默认多线程：高效处理并发连接SSL/TLS 支持：使用 HTTPS 保护服务器。

2025-10-19 10:01:42 1233

原创 HTTP Client/Server 理论

HTTP（超文本传输协议，HyperText Transfer Protocol）用于在客户端与服务器之间传输数据（如网页、图片等），是万维网（WWW）的核心应用层协议。它基于 TCP/IP，通过统一资源标识符（Uniform Resource Identifiers，URI）定位资源，最初旨在支持 HTML 页面的发布与获取。其安全版本为 HTTPS。HTTP（超文本传输协议，Hypertext Transfer Protocol）是一种用于从网络传输超文本到本地浏览器的传输协议。

2025-10-19 09:52:57 890

原创【动手学深度学习】7.7. 稠密连接网络（DenseNet）

稠密块里的卷积层通道数（即增长率）设为32，所以每个稠密块将增加128个通道。使用通道数为3的输入时，则会得到通道数为 3+2*10=23 的输出。它通过1x1卷积层来减小通道数，并使用步幅为2的平均汇聚层减半高和宽，从而进一步降低模型复杂度。让我们先从数学上了解一下。在构建DenseNet时，我们需要通过添加过渡层来控制网络的维数，从而再次减少通道的数量。由多个输出通道数相同的卷积块组成，前向传播时在通道维上连接各卷积块的输入与输出。卷积块的通道数控制了输出通道数相对于输入通道数的增长，因此也被称为。

2025-09-10 09:20:22 973

原创【动手学深度学习】7.6. 残差网络（ResNet）

残差网络（ResNet）通过引入残差块解决了深度神经网络训练难题。其核心思想是让网络学习残差映射（f(x)-x）而非直接拟合目标函数。当理想映射接近恒等变换时，残差块可快速收敛。ResNet包含多个残差模块，每个模块由两个3×3卷积层和跨层连接组成，必要时通过1×1卷积调整维度。实验表明，这种结构能有效缓解梯度消失问题，使网络深度突破100层。2015年ResNet在ImageNet竞赛中夺冠，验证了其优越性，为后续网络设计提供了新范式。

2025-09-09 09:15:18 1353

原创【动手学深度学习】7.5. 批量规范化

批量规范化应用于单个可选层（也可以应用到所有层），其原理如下：在每次训练迭代中，我们首先规范化输入，即通过减去其均值并除以其标准差，其中两者均基于当前小批量处理。回想一下，批量规范化和其他层之间的一个关键区别是，由于批量规范化在完整的小批量上运行，因此我们不能像以前在引入其他层时那样忽略批量大小。在模型训练过程中，批量规范化利用小批量的均值和标准差，不断调整神经网络的中间输出，使整个神经网络各层的中间输出值更加稳定。此外，我们的层将保存均值和方差的移动平均值，以便在模型预测期间随后使用。

2025-09-09 09:07:38 933

原创【动手学深度学习】7.4. 含并行连结的网络（GoogLeNet）

需要注意的是，第五模块后紧跟输出层，该模块采用全局平均汇聚层，将每个通道的高和宽变为1。GoogLeNet之所以有效，是因为它使用多种尺寸的滤波器（如1×1、3×3、5×5）来捕捉不同尺度的图像特征，从而更全面地识别细节。它通过不同窗口形状的卷积层和最大汇聚层来并行抽取信息，并使用卷积层减少每像素级别上的通道维数从而降低模型复杂度。首先是包含3×3卷积层的第二条路径输出最多通道，其次是仅含1×1卷积层的第一条路径，然后是含5×5卷积层的第三条路径和含3×3最大汇聚层的第四条路径。

2025-09-08 11:50:53 720

原创【动手学深度学习】7.3. 网络中的网络（NiN）

*网络中的网络（NiN）**提供了一个非常简单的解决方案：在每个像素的通道上分别使用多层感知机。NiN去除了容易造成过拟合的全连接层，将它们替换为全局平均汇聚层（即在所有位置上进行求和）。该汇聚层通道数量为所需的输出数量（例如，Fashion-MNIST的输出为10）。回想一下，卷积层的输入和输出由四维张量组成，张量的每个轴分别对应样本、通道、高度和宽度。另外，全连接层的输入和输出通常是分别对应于样本和特征的二维张量。相反，NiN使用一个NiN块，其输出通道数等于标签类别的数量。

2025-09-08 11:50:28 1191

原创【动手学深度学习】7.2. 使用块的网络（VGG）

在最初的VGG论文中 (Simonyan and Zisserman, 2014)，作者使用了带有 3x3 卷积核、填充为1（保持高度和宽度）的卷积层，和带有 2x2。原始VGG网络有5个卷积块，其中前两个块各有一个卷积层，后三个块各包含两个卷积层。类似于芯片设计从晶体管到功能模块的抽象过程，神经网络设计也从单个神经元发展到层，再到“块”——重复的层结构模式。正如从代码中所看到的，我们在每个块的高度和宽度减半，最终高度和宽度都为7。不同的VGG模型可通过每个块中卷积层数量和输出通道数量的差异来定义。

2025-08-25 18:24:24 671

原创【动手学深度学习】7.1. 深度卷积神经网络（AlexNet）

上一章我们介绍了卷积神经网络的基本原理，本章将介绍现代的卷积神经网络架构，许多现代卷积神经网络的研究都是建立在这一章的基础上的。在实际效果上，更大、更干净的数据集或更优的特征设计，往往比算法改进带来更显著的精度提升。尽管LeNet在小数据集上表现良好，推动了卷积神经网络的发展，但在1990年代初至2012年间，其在更大、更真实数据集上的性能和训练可行性尚不明确，导致卷积神经网络未占据主导地位，常被其他机器学习方法超越，如支持向量机（support vector machines）。

2025-08-25 18:17:32 1774

原创【动手学深度学习】6.6. 卷积神经网络（LeNet）

LeNet、卷积神经网络、手写数字识别、Fashion-MNIST、PyTorch

2025-08-23 15:10:15 961

原创【动手学深度学习】6.5. 汇聚层

本文介绍了神经网络中的汇聚层（Pooling Layer），主要包括最大汇聚层和平均汇聚层两种类型。

2025-08-23 15:02:29 689

原创【动手学深度学习】6.4. 多输入多输出通道

本文介绍了多输入多输出通道在卷积神经网络中的应用。

2025-08-22 10:00:00 996

原创【动手学深度学习】6.3. 填充和步幅

本文介绍了卷积神经网络中影响输出形状的两个关键因素：填充（padding）和步幅（stride）。

2025-08-22 07:00:00 467

原创【动手学深度学习】6.2. 图像卷积

6. 卷积神经网络(CNN）6.2. 图像卷积

2025-08-21 19:26:34 971

原创【动手学深度学习】6.1. 从全连接层到卷积

6. 卷积神经网络(CNN）6.1. 从全连接层到卷积

2025-08-21 09:01:10 1740

原创【动手学深度学习】5.6. GPU

本文介绍了如何利用GPU进行高性能计算，包括单GPU和多GPU配置。主要内容包括：1）使用nvidia-smi命令查看GPU信息；2）在PyTorch中指定计算设备（CPU/GPU）的方法；3）张量在不同设备间的存储和传输。重点强调了多设备操作时需确保数据在同一设备上，并演示了如何通过设备复制实现跨GPU计算。文中还提供了查询可用GPU数量和异常处理的实用函数，为深度学习任务中的GPU加速提供了基础指导。

2025-08-20 07:32:53 1020

原创【动手学深度学习】5.5. 读写文件

本文介绍了PyTorch中保存和加载张量及模型参数的方法。主要内容包括：1）使用torch.save和torch.load读写单个张量、张量列表和字典；2）保存模型参数而非整个模型对象，通过state_dict保存网络参数，加载时需要先重建模型架构再加载参数；3）强调保存架构需通过代码实现。这些方法可用于模型持久化、中断恢复等场景，确保训练成果不丢失。

2025-08-20 07:32:22 913

原创【动手学深度学习】5.4. 自定义层

本文介绍了如何在PyTorch中构建自定义神经网络层，包括不带参数和带参数的两种类型。

2025-08-19 07:53:34 730

原创【动手学深度学习】5.3. 延后初始化

深度学习框架采用延后初始化机制，即在数据首次通过模型时才动态推断各层的维度。

2025-08-19 07:52:07 213

原创【动手学深度学习】5.2. 参数管理

本文介绍了深度学习中的参数管理方法，重点涵盖参数访问、初始化和共享机制。

2025-08-18 09:27:41 1166

循迹识别小车（上传版）.zip

循迹+识别的小车使用STM32板、树莓派3B+板、python语言、opencv、openmv4等等，简单易懂。

2021-01-20

MSP430数据手册+用户手册中英文

亲自使用个，很好用。——————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————

2020-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人