自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

奇华资料的博客

关注AI,关注AI大模型,也是一个简单纯粹的代码和资料搬运工~

  • 博客(180)
  • 资源 (2)
  • 收藏
  • 关注

原创 Nginx源码分析(25篇)

Nginx源码分析 - 初探Nginx的架构 Nginx源码分析 - 基础数据结构篇 - 内存池 ngx_palloc.c Nginx源码分析 - 基础数据结构篇 - 数组结构 ngx_array.c Nginx源码分析 - 基础数据结构篇 - 缓冲区结构 ngx_buf.c Nginx源码分析 - 基础数据结构篇 - 双向链表结构 ngx_queue.c Nginx源码分析 ......

2018-09-19 19:36:17 86503 1

转载 随机森林算法及其实现(Random Forest)

阅读目录1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机森林工作原理解释的一个简单例子 7 随机森林的Python实现 8 参考内容回到顶部1 什么是随机森林?  作为新兴起的、高度灵活的一种机器学习算法,随机森林(Random Forest,简称RF)拥有广泛的应用前景,从市场营销...

2018-09-04 16:36:06 376916 38

转载 Flink架构、原理与部署测试

Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为它们所提供的SLA(Service-Level-Aggreement)是完全不相同的:流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理...

2018-09-04 14:12:36 7938 1

原创 大模型简史:Transformer(2017)-DeepSeek(2025)

语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。图片。

2025-04-03 13:25:19 710

原创 一文带你全面拆解AI Agents全栈技术框架!- 硬核

主管管理Agent之间的通信,并可以为专业化的代理分配特定的任务。这个过程在 ReAct 中缺失,而 Reflexion 正是填补这一空白的地方, 利用verbal reinforcement 帮助代理从之前的失败中学习的技术。工具使用是一种强大的技术,可以增强 LLM 的能力并弥补它们的不足。在训练 LLM 时,可以给它足够数量包含类似思维的例子的数据集,或者 LLM 可以发现自己的思考过程。实现短期记忆最直接的方法是使用模型的上下文窗口,这本质上是 LLM 可以处理的 token 数量。

2025-04-03 13:19:45 660

原创 LLM开源大模型汇总(截止2025.03.09)

技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。开源了六种大小的基础和聊天模型,即0.5B、1.8B、4B、7B、14B、32B、72B 和 110B,以及 MoE 模型(64个expert)开源了0.5B、1.5B、7B、57B-A14B(共57B但激活14B)和72B等五种模型。开源了0.5B、1.5B、3B、7B、14B、32B和72B等七种模型。

2025-03-10 15:21:16 1005

原创 大模型Transformer的MOE架构介绍及方案整理

deepseek最近引起了NLP领域的极大关注,也让大家进一步对MOE架构提起了信心,借此机会整理下MOE的简单知识和对应的大模型。本文的思路是MOE的起源介绍、原理解释、再到现有MOE大模型的整理。

2025-03-10 15:15:18 1659

原创 大模型部署TensorRT-LLM保姆级教程(三)- 使用Triton推理服务框架部署模型

TensorRT-LLM 是一个用于定义大语言模型并构建 TensorRT 引擎的 Python API,以高效地在 NVIDIA GPU 上执行推理。TensorRT-LLM 包含用于创建 Python 和 C++ 运行时以及执行这些 TensorRT 引擎的组件。它还包括一个用于与NVIDIA Triton 推理服务集成的后端(tensorrtllm_backend);使用 TensorRT-LLM 构建的模型可以在单个 GPU或在具有多个 GPU 的多个节点上执行((使用张量并行或流水线并行))。

2025-03-05 20:08:53 790

原创 大模型部署TensorRT-LLM保姆级教程(二)- 开发实践

由于服务器无法访问外网,只能预先准备好镜像,安装包、编译源码等,接下来准备安装 TensorRT-LLM,推荐使用 Docker 构建和运行 TensorRT-LLM,整个安装步骤参考 TensorRT-LLM 中构建 Docker 镜像的。通常,build.py 仅需单个 GPU,但如果您有推理所需的所有 GPU,则可以通过添加 --parallel_build 参数来启用并行构建,以使引擎构建过程更快。本文简要介绍了TensorRT-LLM环境搭建,同时,基于Bloom进行模型量化及推理。

2025-03-05 20:02:56 818

原创 大模型部署TensorRT-LLM保姆级教程(一)- 快速入门

同时,它的接口和文档相对较少,用户可能需要更深入地了解其底层实现和使用方式,这对于初学者来说可能会增加学习和使用的难度。并且 FastTransformer 的生态较小,可用的资源和支持较少,这也会增加使用者在理解和应用 FastTransformer 上的困难。Protobuf是一种轻量级的、高效的数据交换格式,但它在序列化和反序列化大型数据时有一个默认的大小限制。随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。

2025-03-05 19:58:31 1047

原创 大模型推理框架Triton使用教程:从青铜到王者的修炼

所谓自定义backend就是自己写推理过程,正常情况下整个推理过程是通过模型直接解决的,但是有一些推理过程还会包含一些业务逻辑,比如:整个推理过程需要2个模型,其中要对第一个模型的输出结果做一些逻辑判断然后修改输出才能作为第二个模型的输入,最简单的做法就是我们调用两次triton服务,先调用第一个模型获取输出然后进行业务逻辑判断和修改,然后再调用第二个模型。不过在triton中我们可以自定义一个backend把整个调用过程写在里面,这样就简化调用过程,同时也避免了一部分http传输时延。

2025-03-05 17:41:09 958

原创 一文帮你吃透transformer(大模型的基石)

Transformer由论文提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本,并注释该论文。在本文中,我们将试图把模型简化一点,并逐一介绍里面的核心概念,希望让普通读者也能轻易理解。Transformer 与 RNN 不同,可以比较好地并行训练。

2025-02-20 19:31:06 1006

原创 C++使用Onnxruntime/TensorRT模型推理

onnxruntime和tensorrt是我们常用的两种推理方式,下面整理了两个推理示例,仅供参考。

2025-02-17 19:24:58 547

原创 C++实现yolov8 + tensorrt推理

对于yolov8的模型,要加速的话,首先要进行模型转换,从onnx转换为tensorrt。本文推理主要使用Tensorrt的C++的Api,实现推理加速。

2025-02-17 16:18:52 342

原创 C++实现yolov8+onnx+tensorrt模型转换

使用TensorRT进行加速推理时,需要先将onnx格式转化为tensorrt格式,以下是使用C++来进行转化代码以及对应的CMakeLists.txt文件。本文主要为大家详细介绍了如何使用C++将yolov8 onnx格式转化为tensorrt格式,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下。以yolov8为例,使用cmake编译好后会生成build可执行文件,执行以下命令即可等待生成yolov8x.engine文件。

2025-02-17 15:56:51 485

原创 使用onnxruntime-gpu 推理,如何限制GPU显存大小?

使用 onnxruntime-gpu 进行推理,运行时间久了,显存被拉爆。

2025-01-16 15:26:53 440

原创 nvidia推理栈

2025-01-16 15:19:34 123

原创 19种主流大模型Agent开发框架调研 ******建议收藏*****

代理(Agent)指能自主感知环境并采取行动实现目标的智能体,即AI作为一个人或一个组织的代表,进行某种特定行为和交易,降低一个人或组织的工作复杂程度,减少工作量和沟通成本。背景目前,我们在探索Agent的应用方向,借此机会调研学习了一下现在主流的Agent框架,这篇文章也是我们调研过程的记录。截止至今日,开源的Agent应用可以说是百花齐放,文章也是挑选了热度和讨论度较高的19类Agent,基本能覆盖主流的Agent框架,每个类型都做了一个简单的summary、作为一个参考供大家学习。

2024-12-26 10:44:10 2020

原创 Agent入门,大模型时代产品经理还能玩什么?

最近也在投入几款基于Agent开源产品进行二开的产品工作,后续在prompt调优、聊天体验优化等方面,可以和大家分享一些思路,敬请关注(btw,目前自己也只是一名初入AI领域的AI爱好者哈哈,如文中有所纰漏,欢迎大佬们不吝赐教、帮助我更好的进步~)1、新增一个问题分类器,其中task1中的分类为「通用」,task可以设为「撰写产品需求文档」,之后,AI即可自行对用户提问的意图做区分,从而可以让不同的问题流向不同的大模型和prompt人设去对应处理。其最基础的常用格式是:你是一个xxx,你的任务是xxxx。

2024-12-25 20:18:02 723

原创 完全小白的大模型入门科普

多模态大模型,结合了NLP和CV的能力,通过整合并处理来自不同模态的信息(文本、图像、音频和视频等),可以处理跨领域的任务,例如文生图,文生视频、跨媒体搜索(通过上传图,搜索和图有关的文字描述)等。根据训练的数据类型和应用方向,我们通常会将大模型分为语言大模型(以文本数据进行训练)、音频大模型(以音频数据进行训练)、视觉大模型(以图像数据进行训练),以及多模态大模型(文本和图像都有)。大部分的大模型,都是基于开源大模型框架和技术打造的,实际上是为了迎合资本市场的需求,或者为了蹭热度。

2024-12-25 19:54:21 573

原创 人工智能大模型常见的推理框架

大模型常见推理框架:Transformers、Llama.cpp、Llamafile、Ollama、vLLM、TGI(Text Generation Inference)、DeepSpeed。是重点。

2024-12-25 16:32:27 1804

转载 ONNX 实时graph优化方法

ONNX实时提供了各种图形优化来提高模型性能。图优化本质上是图级别的转换,从小型图简化和节点消除,到更复杂的节点融合和布局优化。图形优化根据其复杂性和功能分为几个类别(或级别)。可以在线或离线执行。在联机模式下,优化在执行推断之前完成,而在脱机模式下,实时将优化的图形保存到磁盘。ONNX实时提供Python、C++、C++和C API,启用不同的优化级别,并在脱机与在线模式之间进行选择。下面将详细介绍优化级别、在线/离线模式以及控制它们的各种API。

2024-12-20 19:09:16 154

转载 目标检测中的FPN+RPN

在聊Feature Pyramid Networks(FPN)和Region Proposal Networks(RPN)之间先熟悉一下Faster R-CNN的背景。与算法如yolo系列相比,Faster RCNN做为典型的算法最大的区别就在于其先通过RPN找到proposal,在对proposa分类,经历了两个网络。

2024-11-18 10:52:15 176

转载 一文搞懂Faster RCNN

在介绍RPN前,还要多解释几句基础知识,已经懂的看官老爷跳过就好。对于单通道图像+单卷积核做卷积,第一章中的图3已经展示了;对于多通道图像+多卷积核做卷积,计算方式如下:图5 多通道卷积计算方式如图5,输入有3个通道,同时有2个卷积核。对于每个卷积核,先在输入3个通道分别作卷积,再将3个通道结果加起来得到卷积输出。所以对于某个卷积层,无论输入图像有多少个通道,输出图像通道数总是等于卷积核数量!

2024-11-18 10:47:48 112

转载 TensorRT的源码编译

目录。

2024-10-25 16:51:48 135

转载 AES加密 C++调用Crypto++加密库 样例

实现了非常多的加密算法,基本能满足我们的加密需求。这阵子写了一些数据加密的小程序,对照了好几种算法后,选择了AES,高级加密标准(英语:Advanced Encryption Standard,缩写:AES)。AES可使用的加密模式的介绍,http://blog.csdn.net/aaaaatiger/article/details/2525561。(基本加解密过程是stackoverflow的一个小demo,我将它改动一下,实现了一个在两个程序之间,以文件做为介质的加解密的过程)预计会搜索到这文章的。

2024-10-16 10:35:12 139

转载 AES的五种加密模式(CBC/ECB/CTR/OCF/CFB)- 附C++实现

分组密码有五种工作体制:1.电码本模式(Electronic Codebook Book (ECB));2.密码分组链接模式(Cipher Block Chaining (CBC));4.密码反馈模式(Cipher FeedBack (CFB));计算器模式不常见,在CTR模式中, 有一个自增的算子,这个算子用密钥加密之后的输出和明文异或的结果得到密文,相当于一次一密。这种加密方式简单快速,安全可靠,而且可以并行加密,但是在计算器不能维持很长的情况下,密钥只能使用一次。

2024-10-14 17:44:11 324

转载 MMDetection官方教程 技术细节 | 四

模型参数在开始时仅同步一次。在向前和向后传递之后,所有GPU之间的梯度都将减小,优化器将更新模型参数。通常,数据集定义了如何处理注释,数据管道定义所有准备数据字典的步骤。由于对象检测中的数据大小可能不同(图像大小,gt bbox大小等),因此我们在MMCV中引入了一种新类型。我们将发布更多组件(backbones, necks, heads) 用于研究的目的。如果我们要实现一些新组件,例如,路径聚合网络中用于实例分段的路径聚合FPN结构(在本节中,我们将介绍训练检测器的主要单元:数据管道,模型和迭代管道。

2024-10-14 17:30:59 136

转载 C++ TensorRT部署实战:YOLOv5模型部署

TensorRT是英伟达官方提供的一个高性能深度学习推理优化库,支持C++和Python两种编程语言API。通常情况下深度学习模型部署都会追求效率,尤其是在嵌入式平台上,所以一般会选择使用C++来做部署。本文将以YOLOv5为例详细介绍如何使用TensorRT的C++版本API来部署ONNX模型,使用的TensorRT版本为8.4.1.5,如果使用其他版本可能会存在某些函数与本文描述的不一致。另外,使用TensorRT 7会导致YOLOv5的输出结果与期望不一致,请注意。本文以YOLOv5。

2024-10-08 19:44:13 505

转载 一文搞懂ONNX-Runtime综述&使用&源码分析(持续更新)

onnx-runtime可以加载onnx或者ort格式的模型--- onnx 模型,即原始的onnx模型,为protobuf格式存储--- ort模型,onnx-runtime将onnx模型经过图优化等保存下来的模型,采用flatbuffer,性能更好,体积更小整体而言,onnx-runtime为了支持多设备多平台,做了很多复杂的事情,整体的推理软件栈的思路还是一致的;flatbuffer也是替代protobuf的一种很好的方式。

2024-09-25 10:35:28 2263

转载 [推理部署] ONNXRuntime C++/Java/Python 资料汇总

有段时间没更了,最近准备整理一下使用TNN、MNN、NCNN、ONNXRuntime的系列笔记,好记性不如烂笔头(记性也不好),方便自己以后踩坑的时候爬的利索点~( 看这 ,目前80多C++推理例子,能编个lib来用,感兴趣的同学可以看看,就不多介绍了)开源项目描述GithubA lite C++ toolkit of awesome AI models.(一个开箱即用的C++ AI模型工具箱,emmm,平时学一些新算法的时候顺手捏的,目前包含80+流行的开源模型。

2024-09-13 19:43:53 502

原创 一文理解深度学习backbone、neck和head

深度学习模型通常由许多层组成,每个层都有自己的功能和任务。的各个部分可以帮助我们更好地理解模型的组成和功能,并且也有助于优化和调试模型。

2024-09-06 20:16:09 2771

原创 YoloV8 single channel train + Onnx trans

yolov8目前不支持单通道图片训练,需要修改后才能支持。

2024-09-03 16:20:35 620 1

转载 一文搞懂CUDA, CUDA Toolkit, CUDA Driver, CUDA Runtime, nvcc之间的关系及其版本兼容性

先介绍CUDA是什么:官方定义:CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台。CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。开发人员可以使用C语言来为CUDA™架构编写程序,所编写出的程序可以在支持CUDA™的处理器上以超高性能运行。CUDA。

2024-08-22 15:00:08 4478 4

转载 AI推理底层框架选型(ONNX/NCNN/OpenVINO/TensorRT)

OpenVINO在模型部署前,首先会对模型进行优化,模型优化器会对模型的拓扑结构进行优化,去掉不需要的层,对相同的运算进行融合、合并以加快运算效率,减少内存拷贝;推理引擎对不同的硬件提供统一的接口,底层实现直接调用硬件指令集的加速库,应用程序开发人员不需要关心底层的硬件实现,即可在不同的硬件平台上加速模型推理。目前,ONNX主要关注在模型预测方面(inferring),将转换后的ONNX模型,转换成我们需要使用不同框架部署的类型,可以很容易的部署在兼容ONNX的运行环境中。这篇文章带你进入模型部署的大门。

2024-08-20 16:54:02 1185

转载 JWT/Token/Cookie/SSO/OAuth2,一文帮你理顺所有前后端鉴权方案

认证(Identification)是指根据声明者所特有的识别信息,确认声明者的身份。你需要用身份证证明你自己是你自己。比如我们常见的认证技术:身份证用户名和密码用户手机:手机短信、手机二维码扫描、手势密码用户的电子邮箱用户的生物学特征:指纹、语音、眼睛虹膜用户的大数据识别等等授权(Authorization):在信息安全领域是指资源所有者委派执行者,赋予执行者指定范围的资源操作权限,以便对资源的相关操作。

2024-07-09 15:32:44 614

原创 快速掌握AI的最佳途径实践

普通人想要快速掌握AI,需要从基础知识做起,通过实战项目增强实际操作能力,利用网络资源和社区进行自我提升,并选择合适的学习路径进行系统性的学习。同时,持续更新自己的知识库,以跟上AI技术的发展步伐,是确保长期进步的关键。AI的普及和应用已经深入到各行各业,从医疗到金融,再到娱乐和教育,AI正在改变我们的生活。AI是一个快速发展的领域,新的技术和理论不断涌现。参加AI领域的研讨会和工作坊,直接从专家那里获得最新的信息和见解。:通过关注AI领域的专栏和话题,获取最新的技术动态和经验分享。

2024-07-08 17:28:39 1104

原创 k8s资源管理中request和limit的区别

的主要区别在于:request是容器启动时的资源保证,而limit是容器运行时的资源使用上限。通过合理设置这两个值,可以实现对容器资源的灵活配置和有效管理,确保集群的稳定性和高效性。是两个重要的概念,用于控制和管理容器的资源使用。在 Kubernetes(K8s)中,

2024-07-08 11:11:38 1143 1

原创 降级/熔断/限流/隔离/重试/超时,一文帮你顺理高可用架构流量治理

那么可以对服务进行熔断降级,后面的请求不再重试,这段时间做降级处理,减少没必要的请求,等服务端恢复了之后再进行请求,这方面的工程实现很多,比如 go-zero 、 sentinel 、hystrix-go。对于人类的身体健康来说,“三高”是个大忌,但在计算机界,系统的“三高”却是健康的终极目标。服务的响应时间并不是恒定的,在某些长尾条件下可能需要更多的计算时间,为了有足够的时间等待这种长尾请求响应,我们需要把超时设置足够长,但超时设置太长又会增加风险,超时的准确设置经常困扰我们。

2024-07-06 22:18:09 811

原创 AI人工智能常见的专业术语

人工智能专业术语

2024-07-04 20:17:34 980

数据挖掘考试试题(有国外的)

Final Exam, Multivariate Analyis & Data Mining 来自国内外的一些考试题 希望对大家有帮助

2009-11-26

2007年数据挖掘期末考试题

希望大家喜欢,广西财经大学的期末考试题,很辛苦才弄下来的

2009-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除