此账户处于禁言状态,如有疑问联系客服
奇华智能
码龄17年
求更新 关注
提问 私信
  • 博客:758,387
    社区:1,350
    759,737
    总访问量
  • 54
    原创
  • 951
    粉丝
  • 235
    关注
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
加入CSDN时间: 2008-05-29

个人简介:关注AI技术和AI设备

博客简介:

奇华资料的博客

博客描述:
关注AI,关注AI大模型,也是一个简单纯粹的代码和资料搬运工~
查看详细资料
个人成就
  • 获得1,490次点赞
  • 内容获得72次评论
  • 获得5,200次收藏
  • 代码片获得2,021次分享
  • 原力等级
    原力等级
    5
    原力分
    1,583
    本月获得
    38
创作历程
  • 14篇
    2025年
  • 59篇
    2024年
  • 9篇
    2023年
  • 11篇
    2022年
  • 18篇
    2021年
  • 17篇
    2020年
  • 1篇
    2019年
  • 51篇
    2018年
成就勋章
TA的专栏
  • 大模型专栏
    6篇
  • PINN合集
  • K8S
    1篇
  • 容器技术
    15篇
  • 后台开发
    3篇
  • GO学习
    1篇
  • 腾讯SPP框架
    8篇
  • 人脸识别
    1篇
  • AI
    23篇
  • 工具箱
    1篇
  • 开发工具
    10篇
  • C/C++
    7篇
  • 广告接入
  • 数据库
    4篇
  • 运维
    9篇
  • Makefile
    1篇
  • JAVA
    8篇
  • 大数据计算
    7篇
  • Machine Learning & Algorithm
    4篇
  • Unix环境编程
    4篇
  • Nginx
    2篇
  • 线上故障排查
    9篇
  • NoSql缓存
    1篇

TA关注的专栏 22

TA关注的收藏夹 0

TA关注的社区 3

TA参与的活动 0

兴趣领域 设置
  • 数据结构与算法
    推荐算法
  • 大数据
    mysqlhadoophiveredisflink
  • 后端
    spring架构
  • 人工智能
    opencv语音识别计算机视觉机器学习caffe深度学习神经网络自然语言处理tensorflowpytorch图像处理nlp数据分析聚类集成学习迁移学习分类回归
  • 搜索
    elasticsearch
  • 服务器
    linux
创作活动更多

开源数据库 KWDB 社区征文大赛,赢取千元创作基金!

提交参赛作品,有机会冲刺至高2000元的创作基金,快来参与吧!

去参加
  • 最近
  • 文章
  • 专栏
  • 代码仓
  • 资源
  • 收藏
  • 关注/订阅/互动
更多
  • 最近

  • 文章

  • 专栏

  • 代码仓

  • 资源

  • 收藏

  • 关注/订阅/互动

  • 社区

  • 帖子

  • 问答

  • 课程

  • 视频

搜索 取消

大模型简史:Transformer(2017)-DeepSeek(2025)

语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。图片。
原创
发布博客 2025.04.03 ·
710 阅读 ·
29 点赞 ·
0 评论 ·
25 收藏

一文带你全面拆解AI Agents全栈技术框架!- 硬核

主管管理Agent之间的通信,并可以为专业化的代理分配特定的任务。这个过程在 ReAct 中缺失,而 Reflexion 正是填补这一空白的地方, 利用verbal reinforcement 帮助代理从之前的失败中学习的技术。工具使用是一种强大的技术,可以增强 LLM 的能力并弥补它们的不足。在训练 LLM 时,可以给它足够数量包含类似思维的例子的数据集,或者 LLM 可以发现自己的思考过程。实现短期记忆最直接的方法是使用模型的上下文窗口,这本质上是 LLM 可以处理的 token 数量。
原创
发布博客 2025.04.03 ·
660 阅读 ·
19 点赞 ·
0 评论 ·
9 收藏

LLM开源大模型汇总(截止2025.03.09)

技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。开源了六种大小的基础和聊天模型,即0.5B、1.8B、4B、7B、14B、32B、72B 和 110B,以及 MoE 模型(64个expert)开源了0.5B、1.5B、7B、57B-A14B(共57B但激活14B)和72B等五种模型。开源了0.5B、1.5B、3B、7B、14B、32B和72B等七种模型。
原创
发布博客 2025.03.10 ·
1005 阅读 ·
22 点赞 ·
0 评论 ·
29 收藏

大模型Transformer的MOE架构介绍及方案整理

deepseek最近引起了NLP领域的极大关注,也让大家进一步对MOE架构提起了信心,借此机会整理下MOE的简单知识和对应的大模型。本文的思路是MOE的起源介绍、原理解释、再到现有MOE大模型的整理。
原创
发布博客 2025.03.10 ·
1656 阅读 ·
34 点赞 ·
0 评论 ·
23 收藏

大模型部署TensorRT-LLM保姆级教程(三)- 使用Triton推理服务框架部署模型

TensorRT-LLM 是一个用于定义大语言模型并构建 TensorRT 引擎的 Python API,以高效地在 NVIDIA GPU 上执行推理。TensorRT-LLM 包含用于创建 Python 和 C++ 运行时以及执行这些 TensorRT 引擎的组件。它还包括一个用于与NVIDIA Triton 推理服务集成的后端(tensorrtllm_backend);使用 TensorRT-LLM 构建的模型可以在单个 GPU或在具有多个 GPU 的多个节点上执行((使用张量并行或流水线并行))。
原创
发布博客 2025.03.05 ·
790 阅读 ·
17 点赞 ·
0 评论 ·
26 收藏

大模型部署TensorRT-LLM保姆级教程(二)- 开发实践

由于服务器无法访问外网,只能预先准备好镜像,安装包、编译源码等,接下来准备安装 TensorRT-LLM,推荐使用 Docker 构建和运行 TensorRT-LLM,整个安装步骤参考 TensorRT-LLM 中构建 Docker 镜像的。通常,build.py 仅需单个 GPU,但如果您有推理所需的所有 GPU,则可以通过添加 --parallel_build 参数来启用并行构建,以使引擎构建过程更快。本文简要介绍了TensorRT-LLM环境搭建,同时,基于Bloom进行模型量化及推理。
原创
发布博客 2025.03.05 ·
818 阅读 ·
23 点赞 ·
0 评论 ·
15 收藏

大模型部署TensorRT-LLM保姆级教程(一)- 快速入门

同时,它的接口和文档相对较少,用户可能需要更深入地了解其底层实现和使用方式,这对于初学者来说可能会增加学习和使用的难度。并且 FastTransformer 的生态较小,可用的资源和支持较少,这也会增加使用者在理解和应用 FastTransformer 上的困难。Protobuf是一种轻量级的、高效的数据交换格式,但它在序列化和反序列化大型数据时有一个默认的大小限制。随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。
原创
发布博客 2025.03.05 ·
1047 阅读 ·
11 点赞 ·
0 评论 ·
10 收藏

大模型推理框架Triton使用教程:从青铜到王者的修炼

所谓自定义backend就是自己写推理过程,正常情况下整个推理过程是通过模型直接解决的,但是有一些推理过程还会包含一些业务逻辑,比如:整个推理过程需要2个模型,其中要对第一个模型的输出结果做一些逻辑判断然后修改输出才能作为第二个模型的输入,最简单的做法就是我们调用两次triton服务,先调用第一个模型获取输出然后进行业务逻辑判断和修改,然后再调用第二个模型。不过在triton中我们可以自定义一个backend把整个调用过程写在里面,这样就简化调用过程,同时也避免了一部分http传输时延。
原创
发布博客 2025.03.05 ·
958 阅读 ·
21 点赞 ·
0 评论 ·
23 收藏

一文帮你吃透transformer(大模型的基石)

Transformer由论文提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本,并注释该论文。在本文中,我们将试图把模型简化一点,并逐一介绍里面的核心概念,希望让普通读者也能轻易理解。Transformer 与 RNN 不同,可以比较好地并行训练。
原创
发布博客 2025.02.20 ·
1006 阅读 ·
24 点赞 ·
0 评论 ·
28 收藏

C++使用Onnxruntime/TensorRT模型推理

onnxruntime和tensorrt是我们常用的两种推理方式,下面整理了两个推理示例,仅供参考。
原创
发布博客 2025.02.17 ·
547 阅读 ·
5 点赞 ·
0 评论 ·
6 收藏

C++实现yolov8 + tensorrt推理

对于yolov8的模型,要加速的话,首先要进行模型转换,从onnx转换为tensorrt。本文推理主要使用Tensorrt的C++的Api,实现推理加速。
原创
发布博客 2025.02.17 ·
342 阅读 ·
6 点赞 ·
0 评论 ·
1 收藏

C++实现yolov8+onnx+tensorrt模型转换

使用TensorRT进行加速推理时,需要先将onnx格式转化为tensorrt格式,以下是使用C++来进行转化代码以及对应的CMakeLists.txt文件。本文主要为大家详细介绍了如何使用C++将yolov8 onnx格式转化为tensorrt格式,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下。以yolov8为例,使用cmake编译好后会生成build可执行文件,执行以下命令即可等待生成yolov8x.engine文件。
原创
发布博客 2025.02.17 ·
485 阅读 ·
7 点赞 ·
0 评论 ·
0 收藏

使用onnxruntime-gpu 推理,如何限制GPU显存大小?

使用 onnxruntime-gpu 进行推理,运行时间久了,显存被拉爆。
原创
发布博客 2025.01.16 ·
440 阅读 ·
8 点赞 ·
0 评论 ·
0 收藏

nvidia推理栈

原创
发布博客 2025.01.16 ·
123 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

19种主流大模型Agent开发框架调研 ******建议收藏*****

代理(Agent)指能自主感知环境并采取行动实现目标的智能体,即AI作为一个人或一个组织的代表,进行某种特定行为和交易,降低一个人或组织的工作复杂程度,减少工作量和沟通成本。背景目前,我们在探索Agent的应用方向,借此机会调研学习了一下现在主流的Agent框架,这篇文章也是我们调研过程的记录。截止至今日,开源的Agent应用可以说是百花齐放,文章也是挑选了热度和讨论度较高的19类Agent,基本能覆盖主流的Agent框架,每个类型都做了一个简单的summary、作为一个参考供大家学习。
原创
发布博客 2024.12.26 ·
2019 阅读 ·
19 点赞 ·
0 评论 ·
16 收藏

Agent入门,大模型时代产品经理还能玩什么?

最近也在投入几款基于Agent开源产品进行二开的产品工作,后续在prompt调优、聊天体验优化等方面,可以和大家分享一些思路,敬请关注(btw,目前自己也只是一名初入AI领域的AI爱好者哈哈,如文中有所纰漏,欢迎大佬们不吝赐教、帮助我更好的进步~)1、新增一个问题分类器,其中task1中的分类为「通用」,task可以设为「撰写产品需求文档」,之后,AI即可自行对用户提问的意图做区分,从而可以让不同的问题流向不同的大模型和prompt人设去对应处理。其最基础的常用格式是:你是一个xxx,你的任务是xxxx。
原创
发布博客 2024.12.25 ·
723 阅读 ·
15 点赞 ·
0 评论 ·
17 收藏

完全小白的大模型入门科普

多模态大模型,结合了NLP和CV的能力,通过整合并处理来自不同模态的信息(文本、图像、音频和视频等),可以处理跨领域的任务,例如文生图,文生视频、跨媒体搜索(通过上传图,搜索和图有关的文字描述)等。根据训练的数据类型和应用方向,我们通常会将大模型分为语言大模型(以文本数据进行训练)、音频大模型(以音频数据进行训练)、视觉大模型(以图像数据进行训练),以及多模态大模型(文本和图像都有)。大部分的大模型,都是基于开源大模型框架和技术打造的,实际上是为了迎合资本市场的需求,或者为了蹭热度。
原创
发布博客 2024.12.25 ·
573 阅读 ·
8 点赞 ·
0 评论 ·
3 收藏

人工智能大模型常见的推理框架

大模型常见推理框架:Transformers、Llama.cpp、Llamafile、Ollama、vLLM、TGI(Text Generation Inference)、DeepSpeed。是重点。
原创
发布博客 2024.12.25 ·
1804 阅读 ·
7 点赞 ·
0 评论 ·
13 收藏

ONNX 实时graph优化方法

ONNX实时提供了各种图形优化来提高模型性能。图优化本质上是图级别的转换,从小型图简化和节点消除,到更复杂的节点融合和布局优化。图形优化根据其复杂性和功能分为几个类别(或级别)。可以在线或离线执行。在联机模式下,优化在执行推断之前完成,而在脱机模式下,实时将优化的图形保存到磁盘。ONNX实时提供Python、C++、C++和C API,启用不同的优化级别,并在脱机与在线模式之间进行选择。下面将详细介绍优化级别、在线/离线模式以及控制它们的各种API。
转载
发布博客 2024.12.20 ·
154 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

目标检测中的FPN+RPN

在聊Feature Pyramid Networks(FPN)和Region Proposal Networks(RPN)之间先熟悉一下Faster R-CNN的背景。与算法如yolo系列相比,Faster RCNN做为典型的算法最大的区别就在于其先通过RPN找到proposal,在对proposa分类,经历了两个网络。
转载
发布博客 2024.11.18 ·
176 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多