- 博客(135)
- 收藏
- 关注
原创 大模型-手把手微调实战教程
本文详细以 Qwen3-8B 为主例,介绍微调从环境准备到生产部署的完整工程闭环。内容涵盖了使用 Unsloth 框架进行的低资源 LoRA 微调,以及基于标准 Transformer 库配合 DeepSpeed 实现的全参数多机多卡训练方案。此外,指南深入探讨了利用 vLLM 推理框架实现高性能服务部署,并辅以 EvalScope 框架对模型能力进行多维度评估。针对大模型特有的思维链(CoT)能力,文章还分享了通过混合数据训练来优化推理效果的进阶技巧,并为微调过程中常见的各类技术故障提供了针对性的排查。
2026-03-09 20:14:01
735
原创 大模型-Hugging Face生态
Hugging Face是知名的机器学习开源社区,提供Transformers、Datasets等核心工具库,支持自然语言处理任务的完整流程。其Hub平台汇聚了大量预训练模型和数据集资源。本文重点介绍了Hugging Face生态的核心组件,并详细讲解如何加载和使用中文BERT模型及其配套Tokenizer。通过AutoTokenizer和AutoModel类可便捷加载在线或本地模型,Tokenizer负责文本预处理,模型则用于推理任务。
2026-02-16 12:15:10
1017
原创 大模型-NLP(下)
预训练模型通过"预训练+微调"范式解决了传统NLP方法依赖标注数据、知识难以复用的问题。GPT首次系统化提出该范式,仅保留Transformer解码器结构进行自回归语言建模预训练,通过输入格式化实现多任务适配。BERT则采用双向Transformer编码器结构,通过掩码语言建模和下一句预测任务捕获上下文信息。两者均通过大规模无监督预训练学习通用语言表征,再通过少量标注数据微调适配下游任务,显著提升了模型泛化能力和开发效率。GPT和BERT分别代表自回归和自编码两种技术路线。
2026-02-16 12:05:27
1191
原创 大模型-NLP(中)
本文系统介绍了自然语言处理中序列生成任务的三大核心模型演进。Seq2Seq模型采用编码器-解码器架构,将输入序列压缩为固定向量,通过循环神经网络实现翻译、摘要等任务,但存在信息瓶颈和长句处理困难。**注意力机制**解决了这一问题,使解码器在生成每个词时能动态关注源序列相关部分,显著提升了对齐能力和翻译质量。Transformer模型完全摒弃循环网络,仅基于自注意力机制构建,通过多头注意力、位置编码、残差连接等设计,实现了并行计算和长距离依赖建模,成为现代大语言模型的基础架构。
2026-02-16 11:54:35
1000
原创 大模型-NLP(上)
文章系统梳理了NLP从文本表示到序列建模的核心技术。从分词算法、Word2Vec的CBOW与Skip-gram原理,到ELMo的上下文动态表示,层层递进。在序列模型部分,深入讲解RNN结构、梯度问题及PyTorch实现,通过“智能输入法”案例完整演示下一词预测任务。针对RNN长期依赖缺陷,引入LSTM,详细拆解遗忘门、输入门、输出门及记忆单元通路,并借助“文本情感分析”案例呈现从数据处理、模型构建到云端部署的全流程。在此基础上介绍GRU的轻量化改进。
2026-02-13 10:51:42
947
原创 大模型-Python基础扫盲
这份Python基础扫盲文档全面系统地介绍了Python编程的核心知识体系,从基础语法、变量与数据类型、运算符、流程控制、函数定义与参数传递、作用域规则,到列表、字符串、元组、集合、字典等核心数据结构及其操作;深入讲解了面向对象编程的类与对象、封装继承多态三大特性、装饰器与闭包等高级概念,以及生成器、迭代器、深浅拷贝机制;同时涵盖了异常处理、文件操作、模块与包管理、多进程多线程并发编程、网络通信(TCP/UDP/HTTP)和正则表达式等实用技术,最后通过一个客户信息管理系统的综合案例将各部分知识融会贯通。
2026-02-09 17:18:48
1219
原创 AscendC算子开发(中级)
本文介绍了AI Core架构中Add算子的实现原理。AI Core采用SIMD架构,包含标量、向量和矩阵三种计算单元,以及三条数据搬运流水线(MTE1/2/3),这些单元可并行执行。重点阐述了编程抽象中的存储管理:GlobalTensor管理外部存储(GM),LocalTensor管理内部存储(LM),通过Queue队列实现不同流水任务间的数据同步。文章还介绍了逻辑位置(如VECIN/VECOUT等)的概念,它们表示数据在计算流程中的阶段而非物理位置。这种架构设计使得单核在一个周期内可处理128个FP16加
2026-02-03 16:05:13
957
原创 AscendC算子开发(初级)
摘要:本文介绍了神经网络中的算子概念及其在计算图中的作用,详细阐述了张量作为数据容器的特性。重点讲解了华为CANN异构计算架构和Ascend C编程语言,包括昇腾AI处理器的逻辑架构、达芬奇架构特点,以及Ascend C如何通过多层抽象和自动并行计算提升算子开发效率。文章还分析了AI Core中的矩阵、向量和标量计算单元,以及数字视觉预处理模块的功能,展示了Ascend C在简化算子开发流程方面的优势。
2026-02-03 15:52:42
645
原创 Attention is all you need —— Transformer名词解析
本文介绍了Transformer模型中的关键概念与计算过程。首先讲解了softmax函数的作用及其Temperature参数对概率分布的影响,随后概述了预测过程:通过多层矩阵计算生成token概率分布,并迭代生成文本。重点解析了LayerNorm(对样本归一化)和Attention机制(包括Scaled Dot-Product Attention的计算流程及其数学原理),特别说明除以√dₖ的作用是防止高维点积导致softmax梯度消失。最后对比了自注意力与交叉注意力的区别,并通过图示展示了注意力矩阵运算过程
2025-08-18 16:56:52
770
原创 LangChain4J项目实战:手把手教你从0到1实现大模型应用开发
详细介绍了如何使用LangChain4J框架进行大模型的部署与调用,特别是如何在本地和云平台(如阿里云)上部署模型,并通过API进行交互。文中首先介绍了如何在本机使用Ollama部署模型,随后通过阿里云的百炼平台进行模型调用。文章还深入讲解了如何利用LangChain4J实现快速的会话功能和Spring框架的整合,展示了如何使用Java与大语言模型进行有效的对话。此外,文章还探讨了AI工具的集成与会话记忆功能,实现了会话的自动记录与管理,避免了服务重启后信息丢失的问题。同时,利用Redis和向量数据库增
2025-08-07 17:26:03
909
1
原创 什么是提示词工程(Prompt Engineering)
提示词是引导大语言模型(LLM)生成内容的关键指令,可以是任何形式的输入。提示词工程是通过优化提示词来提升模型响应质量的技术,包括六大策略:明确指令、提供参考、任务拆分、给予思考时间和使用外部工具。常用技巧包括:目标明确化、角色扮演、格式化输出、少样本提示、思维链推理以及构建系统化提示框架(角色-指令-背景-格式-示例)。这些方法能显著提升LLM输出的精准度和专业性,使AI更有效地满足用户需求。
2025-08-04 23:18:09
1015
原创 LangChain框架快速入门及详细教程
本文介绍了LangChain框架及其核心功能与应用。LangChain是一个开源的Python AI开发框架,旨在简化基于大语言模型(LLM)的应用开发流程,提供模块化工具支持文本生成、问答、翻译等任务。框架包含四大组件:模板库(LangChain Templates)、API服务(LangServe)、开发平台(LangSmith)和核心库(langchain-core等)。 核心功能包括: 统一LLM API访问接口和提示词管理 任务链(Chain)和表达式语言(LCEL)实现工作流编排 数据增强生成(
2025-08-04 22:49:52
1609
原创 pytorch2.0-gpu+python3.10+cuda12.3安装
PyTorch的版本需要与Python和CUDA版本对应以确保兼容性。本文提供了CUDA与PyTorch、Python与PyTorch的对应关系表,并指出CUDA 12.3与PyTorch 2.0.0兼容。作者使用Python 3.10和CUDA 12.3,因此选择安装PyTorch 2.0.0。安装过程包括创建虚拟环境、从镜像网站下载torch和torchvision、在虚拟环境中安装,并确保在PyCharm中加载的虚拟
2025-05-16 13:41:30
1736
原创 TensorFlow保姆级完整教程(原理讲解+代码实战)
本文系统介绍了 TensorFlow 深度学习框架的核心知识与实战技巧,涵盖从环境搭建到高级应用的学习路径。内容包括环境配置(Anaconda安装、虚拟环境创建、GPU支持配置)、神经网络基础(人工智能三大流派、全连接网络搭建)、优化策略(学习率衰减、激活函数、损失函数设计、正则化)、经典网络架构(LeNet、VGG、ResNet等模型实现及对比)。此外,还介绍了实战项目,如鸢尾花分类、MNIST手写数字识别、CIFAR10图像分类和股票预测(RNN/LSTM/GRU)。文章通过大量代码示例、公式图解和调参
2025-05-07 14:50:32
1922
原创 零基础带你快速入门Pytorch及完整实战教程
本文系统梳理了PyTorch深度学习框架的从数据加载到模型部署的全流程核心知识。文章首先介绍了数据加载模块,涵盖Dataset与DataLoader的实现机制,强调其对数据预处理与批处理的支持。随后详细解析TensorBoard可视化工具,演示如何通过add_scalar和add_image记录训练指标与图像数据,并对比不同数据格式的适配方法。在图像预处理部分,重点讲解transforms模块的ToTensor、Resize、Normalize等操作,结合代码说明其与OpenCV、PIL库的协同使用。
2025-04-30 20:38:31
1737
原创 手把手+零基础教你使用Django+Bootstrap搭建一个博客系统
startproject:创建django项目startapp:创建django应用check:校验项目完整性runserver:进入django环境并且运行django项目test:跑单元测试用例shell:进入django项目的Python Shell环境makemigration:创建模型变更的迁移文件migrate:执行上一个命令创建的迁移文件dumpdata:把数据库数据导出到文件loaddata命令:把文件数据导入到数据库。
2025-03-19 00:48:03
3195
原创 人工智能原理基础——仅用中学数学知识就能看懂(下篇)
上一节我们已经完整的讲述了利用词嵌入,把句子转化为词向量序列的详细过程。最后我们说因为无法忽视语言数据在时间上的关联性,所以我们的神经网络必须要有处理这种关联的能力,现在我们就来看看如何做到这一点,为了讲解上的清晰,我们我们不再考虑词嵌入这个数据的预处理操作,就假设句子里的每个词都已经被处理成了一个合适的300位词向量,那上一节我们采用全连接神经网络做预测的时候,是把所有的词向量平铺开然后送入,现在我们就来改造一下神经网络的工作模式。
2025-03-01 19:48:27
2406
1
原创 人工智能原理基础——仅用中学数学知识就能看懂(中篇)
在机器学习神经网络领域,对于不想过多了解底层原理的初学者而言,其实有一个应用层面一般意义上的经典hello word,那就是手写体识别,因为其场景和问题都很简单明确,更有经典的数据集mnist成为了众多入门者必备的实践项目。mnist的数据集的图片采用的是28×28的灰度图。灰度图显示图像的原理是这样的:一行有28个像素点,一共有28行,每个像素用一个字节的无符号数表示它的等级,如果是0那就是最暗纯黑色,如果是一个字节的最大值255,那么就是最亮的纯白色,如果是中间的值,那就是介于两者之间的灰色,我们通过让
2025-03-01 19:47:33
2679
原创 人工智能原理基础——仅用中学数学知识就能看懂(上篇)
1943年神经学家麦卡洛克和数学家皮兹在他们合作的论文中提出一种神经元模型McCulloch-Pitts模型,使用一次函数来对生物神经元做模仿1958年,心理学家Frank Rosenblatt在上述模型基础上提出Rosenblatt感知器模型,使得神经元有了自主调整参数的能力。
2025-03-01 19:45:38
2897
原创 Gradio快速入门详细教程
Gradio 是一个开源的 Python 软件包,可以快速为你的机器学习模型、API 或任意 Python 函数构建一个演示或 Web 应用程序。你可以通过 Gradio 内置的共享功能在几秒钟内分享你的演示链接。Gradio 可以在你喜欢的代码编辑器、Jupyter Notebook、Google Colab 或任何其他可以运行 Python 的环境中运行。现在,任何人都可以通过浏览器访问你的 Gradio 演示,而计算仍在你的本地计算机上运行。是一种广泛采用的约定,可提高代码的可读性。
2025-01-16 10:28:32
6455
原创 jupyter添加内核
2、进入想要添加的内核的虚拟环境,conda activate env_name。1、通过conda env list查看有哪些虚拟环境。4、运行pip install ipykernel。通过ipykernel为jupyter添加新的环境。env_name最好为之前激活的环境名字,不是也可。3、安装ipykernel。
2025-01-08 18:23:33
2063
原创 VMware安装Win10x64虚拟机全流程详解
本篇博客详细记录了在 VMware 中安装 Windows 10 x64 虚拟机的完整流程,适合初学者或需要快速配置虚拟机的用户参考。从准备工作开始,包括如何下载 Windows 镜像文件,到在 VMware 中自定义虚拟机设置,如处理器数量、内存分配、磁盘大小等,逐步展示了虚拟机的安装步骤。此外,还提供了操作系统安装过程的细节,包括网络设置、用户名和密码配置,以及 VMware Tools 的安装步骤,确保虚拟机性能优化和完整功能实现。通过图文并茂的说明,用户可以轻松完成虚拟机的搭建和
2025-01-08 18:18:46
2583
原创 YOLOv8训练火焰烟雾识别全流程详解
本篇博客详细记录了利用 YOLOv8 训练火焰和烟雾检测模型的完整流程。通过简单易懂的步骤指导,涵盖了从环境配置、数据集准备到模型训练的各个环节。内容包括如何创建训练、验证和测试数据集的目录结构,正确生成 `labels` 文件和 `data.yaml` 文件,以及设置训练参数如 `epoch` 和 `patience` 等。文章还详细解释了关键文件的作用和格式,帮助初学者快速入门,同时为进阶用户提供深入的细节解析。本文适合想在火灾检测领域探索深度学习应用的开发者参考!
2025-01-08 18:17:02
4980
原创 复现YOLOv8全流程详解
本篇博客详细记录了在 Windows 11 系统下复现 YOLOv8 的完整流程,适合新手快速入门和学习。内容涵盖环境搭建、YOLOv8 源码下载与安装,以及各项功能的复现,包括目标检测、实例分割和姿态检测等。文章通过详细的图文教程,带你一步步完成 Anaconda 环境创建、GPU 配置验证、PyTorch 安装、以及 YOLOv8 的功能演示。无论是学习 YOLOv8 的核心功能,还是用于深度学习项目的开发,本文都为你提供了全方位的参考指南。
2025-01-08 18:15:49
5994
原创 AutoDL安装Mamba
本篇博客详细介绍了如何在 AutoDL 环境中安装并配置 Mamba 框架,涵盖了从选择服务器、连接远程实例到安装所需依赖、配置环境的完整流程。内容包括 Conda 环境的创建与 Pytorch 的安装、GPU 加速配置验证、克隆 Mamba 项目、安装依赖包等关键步骤。此外,还分享了安装过程中的常见问题和解决方法,以及测试安装成功的代码示例。本文特别适合需要在 AutoDL 平台上快速部署深度学习项目的开发者参考!
2025-01-08 18:14:08
4549
2
原创 Windows安装多个版本的cuda
为了防止切换cuda版本时候导致的频繁删除下载,这里提供切换cuda的简便方法,思路是将要使用的cuda下载下来,之后修改环境变量的一系列配置即可在下载需要的cuda下载之后双击安装,不需要修改任何路径安装成功在存放cuda的目录下面可以看到已经安装成功修改cuda版本。
2025-01-08 18:10:28
2207
原创 阿里云云效部署前端及Java后端项目全流程详解
在现代开发流程中,云效成为了高效部署前后端项目的强力工具。这篇博客详细讲解了如何利用云效平台部署前端和后端项目的完整流程,包括代码构建、上传构件、配置服务器路径和端口、编写部署脚本等关键步骤。无论是 Node.js 前端项目的构建,还是 Java 后端服务的发布,我们都提供了图文并茂的指导。同时,还为常见问题(如防火墙端口未开放)提供了解决方案,助你轻松实现稳定、高效的项目上线。适合初学者及需要快速掌握云效部署技能的开发者阅读!
2025-01-08 18:09:20
2895
原创 本地Java 项目推送 GitHub:全流程详解
本篇博客专为 Java 开发者量身定制,提供了一份详细的操作指南,帮助你将本地 Java 项目快速推送到 GitHub 仓库。从初始化 Git 仓库、关联远程仓库到代码提交与推送,每一步都附有图文详解。无论你是新手还是想快速回顾操作流程的开发者,这份教程都能帮助你高效完成版本管理,轻松实现 Java 项目的云端托管。
2025-01-08 17:56:23
2328
原创 org.springframework.web.servlet.resource.NoResourceFoundException: No static
总之就是favicon.ico必须在static文件夹之下,也就是根级目录然后maven-clean一下,重新生成target一下就好了
2025-01-05 17:25:02
3959
1
原创 Application启动后又自动退出 报错No active profile set, falling back to default profiles: default
启动SpringBoot项目成功启动后,总是自动退出。该问题一般都是因为Springboot项目在启动时。,只是执行了main方法而后进程关闭了。
2025-01-05 17:23:56
2974
原创 The dependencies of some of the beans in the application context form a cycle
在TbWatcherServiceImpl我需要用到另一个service:TbSignInfoService的一个方法,所以我可以在TbWatcherServiceImpl中自动注入TbSignInfoService,但是在代码下面,我还需要到数据库里查本类的数据,那么这个时候我就不应该注入本类的service(TbWatcherService)来调用getOne()
2025-01-05 17:23:14
2008
原创 java.sql.SQLNonTransientConnectionException:Could not create connection to database server
一般是mysql依赖的版本号冲突因为在mysql5中,jdbc的驱动是com.mysql.jdbc.Driver,而mysql6以及以上是com.mysql.cj.jdbc.Driver
2025-01-05 17:21:26
2170
原创 A child container failed during start
SpringMVC启动时报错A child container failed during start原因:下面的javax.servlet-api会和tomcat在运行时候有冲突,所以需要在下面的包加上<scope>注解表示在编译和测试时候有效,在运行时无效,运行时候就用maven的tomcat
2025-01-05 17:18:46
2052
原创 Failed to load ApplicationContext
控制台如下解决办法,看一下自己的包名是不是写错了,这里setBasePackage需要更正一下
2025-01-05 17:18:06
1803
原创 spring项目日志功能配置详解
path:是要生成的文件路径,如果直接写log,就是直接生成在本项目下。config:是logback-spring.xml的路径。logback.xml路径。
2025-01-05 17:15:44
1836
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅