奇华智能-CSDN博客

原创 Nginx源码分析(25篇)

Nginx源码分析 - 初探Nginx的架构 Nginx源码分析 - 基础数据结构篇 - 内存池 ngx_palloc.c Nginx源码分析 - 基础数据结构篇 - 数组结构 ngx_array.c Nginx源码分析 - 基础数据结构篇 - 缓冲区结构 ngx_buf.c Nginx源码分析 - 基础数据结构篇 - 双向链表结构 ngx_queue.c Nginx源码分析 ......

2018-09-19 19:36:17 87175 1

转载随机森林算法及其实现（Random Forest）

阅读目录1 什么是随机森林？ 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率（oob error） 6 随机森林工作原理解释的一个简单例子 7 随机森林的Python实现 8 参考内容回到顶部1 什么是随机森林？　　作为新兴起的、高度灵活的一种机器学习算法，随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销...

2018-09-04 16:36:06 377728 38

Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，它能够基于同一个Flink运行时，提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型，因为它们所提供的SLA（Service-Level-Aggreement）是完全不相同的：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理...

2018-09-04 14:12:36 7958 1

原创 YoloV8+tensorrt实现实例分割C++实现

Yolov8实现实例分割，从模型转换到tensorrt推理的实现

2025-05-19 14:48:29 910

原创一文搞懂 GPU 的概念、工作原理，以及与 CPU 的区别

一言以蔽之，GPU不管是处理图形渲染、数值分析，还是处理AI推理。底层逻辑都是将极为繁重的数学进行任务拆解，化繁为简。然后，利用GPU多流处理器的机制，将大量的运算拆解为一个个小的、简单的运算，并行处理。我们也可以认为一个GPU就是一个集群，里面每个流处理器都是一颗CPU，这样就容易理解了。以上是关于GPU概念、工作原理的简要介绍。说是简单，其实在图形处理方面，还有很多深层次的处理逻辑没有展开，比如像素位置变换、三角原理等等。感兴趣的小伙伴可以深入研究下。

2025-05-09 11:23:24 1437

原创一文搞懂Yolov8从数据标注、模型训练到模型部署全过程-C++

将上面两个压缩包下载后放到一个文件夹里面，直接解压001，就可以将两个压缩包里面的依赖项全部解压出来。注：由于x-anylabeling是可以使用自己训练后的模型，然后自动生成标注数据的，但是第一次的话就需要自己标注数据。yaml文件的配置，注意这个类不要用数字，会被认定为int型，然后导致无法生成框，也就是报错。这个类的名称和个数一定要与训练的时候进行配置的一样。就是这里面的class names，这里填的什么，那么上面配置的yaml文件也要一样。这里的两个工程环境部署都跟上面部署的方式一样。

2025-04-28 18:05:25 1148

原创一文搞懂AI人工智能大模型训练、推理、微调

一文搞懂AI人工智能大模型训练、推理、微调

2025-04-28 17:48:40 1357

原创大模型简史：Transformer(2017)-DeepSeek(2025)

语言模型」是一种「人工智能系统」，旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构，使得能够产生连贯且上下文相关的文本，应用于翻译、摘要、聊天机器人和内容生成等领域。图片。

2025-04-03 13:25:19 1156

原创一文带你全面拆解AI Agents全栈技术框架！- 硬核

主管管理Agent之间的通信，并可以为专业化的代理分配特定的任务。这个过程在 ReAct 中缺失，而 Reflexion 正是填补这一空白的地方，利用verbal reinforcement 帮助代理从之前的失败中学习的技术。工具使用是一种强大的技术，可以增强 LLM 的能力并弥补它们的不足。在训练 LLM 时，可以给它足够数量包含类似思维的例子的数据集，或者 LLM 可以发现自己的思考过程。实现短期记忆最直接的方法是使用模型的上下文窗口，这本质上是 LLM 可以处理的 token 数量。

2025-04-03 13:19:45 732

原创 2025正在爆发！“PINN+注意力机制”成高校论文新赛道

霸榜一区顶刊和各大顶会！光是ICLR25就有多篇。其中模型，更是取得了预测误差直降99.2％，收敛速度狂提的拔群效果！其热度可见一斑！主要在于：一方面，这两者结合非常好出创新点。PINN作为好“水”论文的顶流，传统的改进方法，早已卷成麻花，而与注意力机制结合，则是新兴思路，还在起步阶段。另一方面，其为处理复杂数据和多种模态数据的任务，提供了全新的解决方案。注意力机制动态权重分配的特点，能够克服PINN面临梯度消失或计算效率低的缺陷，助力模型的预测准确性和泛化能力的提升。

2025-03-10 22:07:53 743

原创 2025人工智能AI新突破：PINN内嵌物理神经网络火了

最近在淘金的时候发现基于物理信息的神经网络（简称PINN）也是个研究热点，遂研读了几篇经典论文，深觉这也是个好发论文的方向，所以火速整理了一些个人认为很值得一读的PINN论文和同学们分享。为了方面同学们更好地理解，我们先来简单了解下PINN：PINN就是将物理方程作为限制加入到神经网络之中使得拟合得到的结果更加满足物理规律，这是一种科学机器在传统数值领域的应用方法，通常用于解决交叉学科中存在微分方程难以求解问题。

2025-03-10 15:47:39 1795

原创 LLM开源大模型汇总（截止2025.03.09）

技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。开源了六种大小的基础和聊天模型，即0.5B、1.8B、4B、7B、14B、32B、72B 和 110B，以及 MoE 模型（64个expert）开源了0.5B、1.5B、7B、57B-A14B（共57B但激活14B）和72B等五种模型。开源了0.5B、1.5B、3B、7B、14B、32B和72B等七种模型。

2025-03-10 15:21:16 1218

原创大模型Transformer的MOE架构介绍及方案整理

deepseek最近引起了NLP领域的极大关注，也让大家进一步对MOE架构提起了信心，借此机会整理下MOE的简单知识和对应的大模型。本文的思路是MOE的起源介绍、原理解释、再到现有MOE大模型的整理。

2025-03-10 15:15:18 2331

原创大模型部署TensorRT-LLM保姆级教程（三）- 使用Triton推理服务框架部署模型

TensorRT-LLM 是一个用于定义大语言模型并构建 TensorRT 引擎的 Python API，以高效地在 NVIDIA GPU 上执行推理。TensorRT-LLM 包含用于创建 Python 和 C++ 运行时以及执行这些 TensorRT 引擎的组件。它还包括一个用于与NVIDIA Triton 推理服务集成的后端（tensorrtllm_backend）；使用 TensorRT-LLM 构建的模型可以在单个 GPU或在具有多个 GPU 的多个节点上执行（（使用张量并行或流水线并行））。

2025-03-05 20:08:53 962

原创大模型部署TensorRT-LLM保姆级教程（二）- 开发实践

由于服务器无法访问外网，只能预先准备好镜像，安装包、编译源码等，接下来准备安装 TensorRT-LLM，推荐使用 Docker 构建和运行 TensorRT-LLM，整个安装步骤参考 TensorRT-LLM 中构建 Docker 镜像的。通常，build.py 仅需单个 GPU，但如果您有推理所需的所有 GPU，则可以通过添加 --parallel_build 参数来启用并行构建，以使引擎构建过程更快。本文简要介绍了TensorRT-LLM环境搭建，同时，基于Bloom进行模型量化及推理。

2025-03-05 20:02:56 896

原创大模型部署TensorRT-LLM保姆级教程（一）- 快速入门

同时，它的接口和文档相对较少，用户可能需要更深入地了解其底层实现和使用方式，这对于初学者来说可能会增加学习和使用的难度。并且 FastTransformer 的生态较小，可用的资源和支持较少，这也会增加使用者在理解和应用 FastTransformer 上的困难。Protobuf是一种轻量级的、高效的数据交换格式，但它在序列化和反序列化大型数据时有一个默认的大小限制。随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型的推理成本急剧增加。

2025-03-05 19:58:31 1160

原创大模型推理框架Triton使用教程：从青铜到王者的修炼

所谓自定义backend就是自己写推理过程，正常情况下整个推理过程是通过模型直接解决的，但是有一些推理过程还会包含一些业务逻辑，比如：整个推理过程需要2个模型，其中要对第一个模型的输出结果做一些逻辑判断然后修改输出才能作为第二个模型的输入，最简单的做法就是我们调用两次triton服务，先调用第一个模型获取输出然后进行业务逻辑判断和修改，然后再调用第二个模型。不过在triton中我们可以自定义一个backend把整个调用过程写在里面，这样就简化调用过程，同时也避免了一部分http传输时延。

2025-03-05 17:41:09 1412

原创一文帮你吃透transformer（大模型的基石）

Transformer由论文提出，现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取，其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本，并注释该论文。在本文中，我们将试图把模型简化一点，并逐一介绍里面的核心概念，希望让普通读者也能轻易理解。Transformer 与 RNN 不同，可以比较好地并行训练。

2025-02-20 19:31:06 1225

原创 2025清华大学Deepseek学习课程第4、5讲-免费领取

2025清华大学最新Deepseek学习课程第四讲已出。

2025-02-20 13:25:49 477

原创 C++使用Onnxruntime/TensorRT模型推理

onnxruntime和tensorrt是我们常用的两种推理方式，下面整理了两个推理示例，仅供参考。

2025-02-17 19:24:58 684

原创 C++实现yolov8 + tensorrt推理

对于yolov8的模型，要加速的话，首先要进行模型转换，从onnx转换为tensorrt。本文推理主要使用Tensorrt的C++的Api，实现推理加速。

2025-02-17 16:18:52 393

原创 C++实现yolov8+onnx+tensorrt模型转换

使用TensorRT进行加速推理时，需要先将onnx格式转化为tensorrt格式，以下是使用C++来进行转化代码以及对应的CMakeLists.txt文件。本文主要为大家详细介绍了如何使用C++将yolov8 onnx格式转化为tensorrt格式,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下。以yolov8为例，使用cmake编译好后会生成build可执行文件，执行以下命令即可等待生成yolov8x.engine文件。

2025-02-17 15:56:51 542

原创使用onnxruntime-gpu 推理，如何限制GPU显存大小？

使用 onnxruntime-gpu 进行推理，运行时间久了，显存被拉爆。

2025-01-16 15:26:53 626

原创 nvidia推理栈

2025-01-16 15:19:34 134

原创 19种主流大模型Agent开发框架调研 **建议收藏*

代理（Agent）指能自主感知环境并采取行动实现目标的智能体，即AI作为一个人或一个组织的代表，进行某种特定行为和交易，降低一个人或组织的工作复杂程度，减少工作量和沟通成本。背景目前，我们在探索Agent的应用方向，借此机会调研学习了一下现在主流的Agent框架，这篇文章也是我们调研过程的记录。截止至今日，开源的Agent应用可以说是百花齐放，文章也是挑选了热度和讨论度较高的19类Agent，基本能覆盖主流的Agent框架，每个类型都做了一个简单的summary、作为一个参考供大家学习。

2024-12-26 10:44:10 2268

原创 Agent入门，大模型时代产品经理还能玩什么？

最近也在投入几款基于Agent开源产品进行二开的产品工作，后续在prompt调优、聊天体验优化等方面，可以和大家分享一些思路，敬请关注（btw，目前自己也只是一名初入AI领域的AI爱好者哈哈，如文中有所纰漏，欢迎大佬们不吝赐教、帮助我更好的进步～）1、新增一个问题分类器，其中task1中的分类为「通用」，task可以设为「撰写产品需求文档」，之后，AI即可自行对用户提问的意图做区分，从而可以让不同的问题流向不同的大模型和prompt人设去对应处理。其最基础的常用格式是：你是一个xxx，你的任务是xxxx。

2024-12-25 20:18:02 759

原创完全小白的大模型入门科普

多模态大模型，结合了NLP和CV的能力，通过整合并处理来自不同模态的信息（文本、图像、音频和视频等），可以处理跨领域的任务，例如文生图，文生视频、跨媒体搜索（通过上传图，搜索和图有关的文字描述）等。根据训练的数据类型和应用方向，我们通常会将大模型分为语言大模型（以文本数据进行训练）、音频大模型（以音频数据进行训练）、视觉大模型（以图像数据进行训练），以及多模态大模型（文本和图像都有）。大部分的大模型，都是基于开源大模型框架和技术打造的，实际上是为了迎合资本市场的需求，或者为了蹭热度。

2024-12-25 19:54:21 592

原创人工智能大模型常见的推理框架

大模型常见推理框架：Transformers、Llama.cpp、Llamafile、Ollama、vLLM、TGI（Text Generation Inference)、DeepSpeed。是重点。

2024-12-25 16:32:27 2144

转载 ONNX 实时graph优化方法

ONNX实时提供了各种图形优化来提高模型性能。图优化本质上是图级别的转换，从小型图简化和节点消除，到更复杂的节点融合和布局优化。图形优化根据其复杂性和功能分为几个类别（或级别）。可以在线或离线执行。在联机模式下，优化在执行推断之前完成，而在脱机模式下，实时将优化的图形保存到磁盘。ONNX实时提供Python、C++、C++和C API，启用不同的优化级别，并在脱机与在线模式之间进行选择。下面将详细介绍优化级别、在线/离线模式以及控制它们的各种API。

2024-12-20 19:09:16 206

转载目标检测中的FPN+RPN

在聊Feature Pyramid Networks(FPN)和Region Proposal Networks(RPN)之间先熟悉一下Faster R-CNN的背景。与算法如yolo系列相比，Faster RCNN做为典型的算法最大的区别就在于其先通过RPN找到proposal，在对proposa分类，经历了两个网络。

2024-11-18 10:52:15 221

转载一文搞懂Faster RCNN

在介绍RPN前，还要多解释几句基础知识，已经懂的看官老爷跳过就好。对于单通道图像+单卷积核做卷积，第一章中的图3已经展示了；对于多通道图像+多卷积核做卷积，计算方式如下：图5 多通道卷积计算方式如图5，输入有3个通道，同时有2个卷积核。对于每个卷积核，先在输入3个通道分别作卷积，再将3个通道结果加起来得到卷积输出。所以对于某个卷积层，无论输入图像有多少个通道，输出图像通道数总是等于卷积核数量！

2024-11-18 10:47:48 138

转载 TensorRT的源码编译

目录。

2024-10-25 16:51:48 170

转载 AES加密 C++调用Crypto++加密库样例

实现了非常多的加密算法，基本能满足我们的加密需求。这阵子写了一些数据加密的小程序，对照了好几种算法后，选择了AES，高级加密标准（英语：Advanced Encryption Standard，缩写：AES）。AES可使用的加密模式的介绍，http://blog.csdn.net/aaaaatiger/article/details/2525561。（基本加解密过程是stackoverflow的一个小demo，我将它改动一下，实现了一个在两个程序之间，以文件做为介质的加解密的过程）预计会搜索到这文章的。

2024-10-16 10:35:12 160

转载 AES的五种加密模式（CBC/ECB/CTR/OCF/CFB）- 附C++实现

分组密码有五种工作体制：1.电码本模式（Electronic Codebook Book (ECB)）；2.密码分组链接模式（Cipher Block Chaining (CBC)）；4.密码反馈模式（Cipher FeedBack (CFB)）；计算器模式不常见，在CTR模式中，有一个自增的算子，这个算子用密钥加密之后的输出和明文异或的结果得到密文，相当于一次一密。这种加密方式简单快速，安全可靠，而且可以并行加密，但是在计算器不能维持很长的情况下，密钥只能使用一次。

2024-10-14 17:44:11 425

转载 MMDetection官方教程技术细节 | 四

模型参数在开始时仅同步一次。在向前和向后传递之后,所有GPU之间的梯度都将减小,优化器将更新模型参数。通常,数据集定义了如何处理注释,数据管道定义所有准备数据字典的步骤。由于对象检测中的数据大小可能不同(图像大小,gt bbox大小等),因此我们在MMCV中引入了一种新类型。我们将发布更多组件(backbones, necks, heads) 用于研究的目的。如果我们要实现一些新组件,例如,路径聚合网络中用于实例分段的路径聚合FPN结构(在本节中,我们将介绍训练检测器的主要单元：数据管道,模型和迭代管道。

2024-10-14 17:30:59 174

2007年数据挖掘期末考试题

数据挖掘考试试题（有国外的）

空空如也