小枫@码-CSDN博客

原创大模型推理框架：vLLM

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。

2025-03-04 16:12:32 1876

检索增强生成是一种结合检索系统和生成模型的方法，通常用于问答系统、对话系统等场景中。传统的生成模型仅依赖于训练数据，模型在面对新问题或信息匮乏时会出现性能下降的问题。为了解决这一问题，RAG方法引入了检索机制：在生成过程中，模型会从外部数据库或文档中检索相关信息，然后将检索到的内容作为输入的一部分，结合上下文生成更精确的输出。RAG模型的关键优势在于，它能够结合静态模型的学习能力与动态的外部知识，尤其适合处理需要最新信息的任务。

2025-03-01 15:14:12 751

原创大模型训练的一些经验汇总

moss-003-sft-data：由复旦大学 MOSS 团队开源的中英文多轮对话数据，包含 100 万 + 数据 ultrachat：由清华大学开源的英文多轮对话数据，包含 140 万 + 数据 WizardLM_evol_instruct_V2_143k：由 WizardLM 项目开源的英文指令微调数据集，通过 Evol-Instruct 方法让指令进化，加强指令的复杂度，以提升模型对复杂指令的遵循能力。Instruction 的作用是为模型提供更准确和具体的指导，以便生成符合预期的文本。

2025-02-26 11:05:27 675

原创 DeepSeek 模型全览：探索不同类别的模型

DeepSeek 在 AI 领域的研究覆盖多个重要方向，包括 NLP、代码生成、多模态 AI、数学推理等。无论是开发者、研究人员还是 AI 爱好者，都可以从这些模型中找到适合自己需求的工具。未来，DeepSeek 可能会推出更多创新模型，让我们拭目以待！个人感觉DeepSeek的成功有以下几点。1. 开源和可访问性2. 验证了不需要监督微调（SFT），大规模强化学习（RL）训练的模型 R1-zero具有有强大的推理行为。3.知识蒸馏法，

2025-02-25 23:00:07 797

转载 DeepSeek-R1蒸馏模型

机器学习 (ML) 中的模型蒸馏是一种用于将知识从大型复杂模型（通常称为教师模型）转移到较小、更简单的模型（称为学生模型）的技术。目标是创建一个较小的模型，该模型保留了较大模型的大部分性能，同时在计算资源、内存使用和推理速度方面更高效。这对于在资源受限的环境（如移动设备或边缘计算系统）中部署模型特别有用。

2025-02-16 08:15:38 196

原创大模型ReAct框架

AI Agent也就是AI智能体，是通过把大模型作为“大脑”，通过利用大模型的推理和规划能力，然后调用外部工具来完成复杂任务的一种方式。而如果后续需要开发更加复杂的业务功能，比如说金融行业的投资分析，需要非常复杂的业务分析等环节，这时只依靠大模型本身的能力就不行了。最后两个就是大模型的调用模块和业务的解析模块，大模型的调用模块相对比较简单，这里就不仔细说了，感兴趣的可以直接看代码。提示词是最重要的一个环节，我们知道大模型的能力是一方面，但怎么发挥大模型的能力是由提示词的质量决定的。

2025-02-13 00:42:36 968

原创 Deepseek 671B + Milvus 搭建个人知识库

至此，你应当已经顺利构建了自己的知识库系统。然而，除了具体的搭建流程，我认为。

2025-02-11 09:39:12 1303

原创大模型实战--FastChat

本文重点介绍。使用FastChat快速部署LLM服务。

2025-02-10 16:24:09 1322

原创 DeepSeek + 本地知识库

是一款开箱即用的一体化 AI 应用，支持 RAG（检索增强生成）、AI 代理等功能。它无需编写代码或处理复杂的基础设施问题，适合快速搭建私有知识库和智能问答系统。通过和Ollama的结合，我们成功搭建了一个具备私有知识库能力的 AI 应用。私有知识库不仅可以让 AI 回答通用问题，还能基于私有文档（如企业内部资料、图书等）生成更精准的答案。注意：随着知识库中文档数量的增加，回答的准确性可能会受到影响。建议将文档分散到多个工作区，以提高检索效率。个人知识库+本地大模型的优点第一。

2025-02-09 17:21:45 2194

转载大模型之LangChain介绍

LangChain 就是一个 LLM 编程框架，你想开发一个基于 LLM 应用，需要什么组件它都有，直接使用就行；甚至针对常规的应用流程，它利用链(LangChain中Chain的由来)这个概念已经内置标准化方案了。下面我们从新兴的大语言模型（LLM）技术栈的角度来看看为何它的理念这么受欢迎。

2025-02-08 14:55:38 92

转载如何训练一个大模型：LoRA篇

现在有很多开源的大模型，他们一般都是通用的，这就意味着这些开源大模型在特定任务上可能力不从心。为了适应我们的下游任务，就需要对预训练模型进行微调。全参数微调有两个问题：在新的数据集上训练，会破坏大模型原来的能力，使其泛化能力急剧下降；而且现在的模型参数动辄几十亿上百亿，要执行全参数微调的话，他贵啊！！于是LoRA出现了， LoRA（Low-Rank Adaptation)是微软提出的一种参数有效的微调方法，可以降低微调占用的显存以及更轻量化的迁移。同时解决了上述两个问题，那它

2025-02-01 15:21:58 192

转载 vLLM 部署大模型

vLLM 是来自 UC Berkeley 的 LMSYS 在 LLM 推理方面的最新工作（没错就是搞出 Vicuna 的那个 group），最大亮点是采用 Paged Attention 技术，结合 Continuous Batching，极大地优化了 realtime 场景下的 LLM serving 的 throughput 与内存使用。vllm github 仓库。

2025-01-31 18:09:25 245

原创 GGUF简介

GGUF 格式的全名为（GPT-Generated Unified Format），提到 GGUF 就不得不提到它的前身 GGML（GPT-Generated Model Language）。GGML 是专门为了机器学习设计的张量库，最早可以追溯到 2022/10。其目的是为了有一个单文件共享的格式，并且易于在不同架构的 GPU 和 CPU 上进行推理。但在后续的开发中，遇到了灵活性不足、相容性及难以维护的问题。

2025-01-31 09:38:23 1151

原创终于把 transformer 算法搞懂了！！

今天给大家分享一个强大的算法模型，transformerTransformer 算法是一种基于注意力机制（Attention Mechanism）的深度学习模型，最早由 Vaswani 等人在 2017 年的论文《Attention is All You Need》中提出。与传统的循环神经网络（RNN）和长短期记忆网络（LSTM）不同，Transformer 完全基于注意力机制，实现了更高的并行性和更好的长距离依赖建模能力。

2025-01-27 08:27:37 739

原创大模型正确调用方式

如果是AutoDl服务器，可以开启学术加速。本次使用腾讯云Cloud Studio，所以已经安装好了 Ollama。

2025-01-26 19:41:06 318

原创 LLaMA-Factory 微调LLaMA3

首先需要通过vscode连接远程服务器哦如果是租赁的AutoDL服务器，一定要将模型下载到数据盘。

2025-01-25 23:54:30 929

原创 Llama3的本地部署与调用测试

Llama3是Meta于2024年4月18日开源的LLM，目前开放了8B和 70B两个版本，两个版本均支持最大为8192个token的序列长度 ( GPT-4支持128K )Llama3在Meta自制的两个24K GPU集群上进行预训练，使用15T 的训练数据，其中5%为非英文数据，故Llama3的中文能力稍弱， Meta认为Llama3是目前最强的开源大模型。

2025-01-25 10:27:01 481

原创 GPU服务器配置与使用

GPU配置输入invdia-smi，可以看到是A10卡，24G显存。使用 pip install nvitop 进行安装即可。第一次连接，还需要注册阿里云的账号，手机号注册即可。魔塔社区对于新用户有100个小时免费GPU算力。实时查看显存占用情况 nvitop。

2025-01-25 09:08:58 554

原创免费GPU算力，不花钱部署DeepSeek-R1

腾讯云Cloud Studio是一个基于云的集成开发环境（IDE），它提供了丰富的开发工具和资源，帮助开发者更高效地进行代码编写、调试和部署。最近，Cloud Studio推出了免费的GPU算力资源，用户每个月可以免费使用10000分钟的GPU服务器，配置为16G显存、32G内存和8核CPU。这对于需要高性能计算资源的开发者来说，无疑是一个巨大的福音。（用完后记得点关闭机器，下次微调再开启就可以了，环境自动保存，每个月10000分钟根本用不完）Ollama是一个开源的工具，专门用于管理和运行各种大模型。

2025-01-24 23:40:39 3662

原创大模型之token的理解

Token 限制指的是大型语言模型（LLM）在单个输入中可以处理的最大 token 数量，包括输入文本和生成的输出。首先，token 是大型语言模型处理和生成文本的核心。然而，对于较长的文本，它的效率可能较低，因为模型需要处理更多的 token。例如，如果你在 GPT-3 中发送一个消耗 3900 个 token 的提示，模型只剩下 196 个 token 来提供响应，这可能不足以应对更复杂的查询。当我们在大型语言模型（LLMs）的背景下谈论分词时，重要的是要理解不同的方法用于将文本拆分成 token。

2025-01-17 10:56:31 501

原创大模型之环境变量篇

我们在调用大模型接口的过程当中不可避免的要使用到大模型的KEY，那么不同的系统有不同的环境变量的配置方式，下面将两种使用环境变量的方式做一个总结。新建 .env配置文件，在配置文件中写入自己的。使用独立的环境变量的配置文件。

2025-01-16 15:08:06 407

原创大模型之工具篇

Conda是一个包和环境管理的工具。支持Windows、macOS和Linux。Conda可以快速的安装、运行和更新包和相关的依赖。Conda也可以轻易地创建、保存、加载和转换环境。Anaconda是一个用于科学计算的Python发行版，支持Linux,Mac,Windows,包含了conda、conda-build、Python和众多科学计算的包及其依赖。Miniconda是一个Anaconda的轻量级替代，默认只包含了conda，Python和一些它们所以依赖的包。

2025-01-16 11:31:11 1084

原创 AI应用开发先了解这些概念：智能体、LLM、RAG、提示词工程

一种基于LLM（LargeLanguage Model）的能够感知环境、做出决策并执行行动以实现特定目标的自主系统。与传统人工智能不同，Al Agent 模仿人类行为模式解决问题，通过独立思考和调用工具逐步完成给定目标，实现自主操作。大语言模型是一类基于深度学习的人工智能模型，旨在处理和生成自然语言文本。通过训练于大规模文本数据，使得大语言模型能够理解并生成与人类语言相似的文本，执行各类自然语言处理任务。LLM回答用户问题时，是基于训练LLM时使用的文本数据进行的。

2025-01-08 09:37:19 855

原创 ClickHouse存储引擎之ReplacingMergeTree引擎

使用order by 排序键，作为判断数据是否重复的唯一键只有在合并分区时，才会触发数据的去重逻辑删除重复数据，是以数据分区为单位。同一个数据分区的重复数据才会被删除，不同数据分区的重复数据仍会保留在进行数据去重时，由于已经基于ORDER BY排序，所以可以找到相邻的重复数据数据去重策略为：若指定了ver参数，则会保留重复数据中，ver字段最大的那一行。若未指定ver参数，则会保留重复数据中最末的那一行数据。

2024-03-05 09:49:13 791

原创 clickhouse的多路径存储策略

HOT/COLD策略，由多个disk组成volume组。每当一个新数据分区生成的时候，按照阈值(max_data_part_size_bytes)的大小，分区目录会按照volume组中定义的顺序依次写入。JBOD策略，每当生成一个新数据分区的时候，分区目录会根据volume中定义的disk顺序依次轮询并写入各个disk。合并分区或者一次性写入的分区大小超过max_data_part_size_bytes，也会被写入到COLD卷中。虽然MergeTree定义完存储策略后不能修改，但却可以移动分区。

2024-03-01 14:48:48 1132

原创数据平台：湖仓一体、流批一体、存算分离的核心问题

目前数据仓库存储的数据结构单一，只能存储结构化的数据，对于非结构化数据的存储需求，以及存储成本是数据仓库的主要问题，而非结构化数据存储在业务库，也造成数据不能相融和利用，为了解决非结构化数据的低成本的存储诞生了湖仓一体的技术架构。湖仓一体的技术架构是指将数据湖（Data Lake）和数据仓库（Data Warehouse）结合在一起，实现对各种类型的数据进行存储、管理和分析的一体化解决方案。

2024-02-07 14:39:38 1449

原创 ClickHouse为何这么快

ClickHouse 全称 Click Stream, Data WareHouse，是一个用于联机分析 (OLAP) 的列式数据库管理系统 (DBMS)。由俄罗斯本土搜索引擎企业 Yandex 公司为了自己公司自家的 Web 流量分析产品 Yandex.Metrica 开发，后来经过演变，逐渐形成为现在的 ClickHouse。

2024-02-02 15:12:14 915

原创 Flink检查点（checkpoint）、保存点（savepoint）的区别和联系

checkpoint和savepoint是Flink为我们提供的作业快照机制，他们都包含有作业状态的持久化副本。1、checkpoint的侧重点是容错，即Flink作业意外失败并重启之后，能够直接从早先打下的checkpoint恢复运行，且不影响作业逻辑的准确性。而savepoint的侧重点是维护，即Flink作业需要在人工干预下手动重启、升级、迁移或A/B 测试时，先将状态整体写入可靠存储，维护完毕后再从savepoint恢复。

2024-01-31 10:39:06 2150

原创如何通过Hive/tez与Hadoop的整合快速实现大数据开发

Hive是基于Hadoop的一个外围数据仓库分析组件，可以把Hive理解为一个数据仓库，但这和传统的数据库是有差别的。传统数据库是面向业务存储，比如 OA、ERP 等系统使用的数据库，而数据仓库是为分析数据而设计的。同时，数据仓库是在数据量巨大的情况下，为了进一步挖掘数据资源、为了企业决策需要而产生的，它不是所谓的 “大型数据库”。Hive 通过将结构化的数据文件映射到一张数据库表上，然后通过执行 SQL 语句实现查询功能。

2024-01-30 15:06:36 1406

原创数据监控-Prometheus/Grafana

拓扑图监控目标通过脚本或者其他的程序push日志到pushgateway中，prometheus通过pull的方式拉取pushgateway的日志pushgateway的重要性因为Prometheus是以pull的形式采集监控的指标，这样的话就会存在两个这样的问题：1、每次新增监控目标就需要修改Prometheus的配置2、如果监控目标所在网络和Prometheus所在网络不通，就无法通过Prometheus的pull形式采集指标Prometheus的缺点。

2024-01-27 13:40:12 1357

原创 Linux

在为主机添加硬盘前，首先要了解Linux系统下对硬盘和分区的命名方法。首先介绍几个概念：SCSI：Small Computer System Interface（小型计算机系统接口）的缩写。IDE：Integrated Drive Electrionics，IDE是表示硬盘的传输接口，它的本意是把控制器与盘体集成在一起的硬盘驱动器。1）在Linux下对SCSI的设备是以sd命名的，第一个ide设备是sda，第二个是sdb，依此类推。一般主板上有两个SCSI接口，一共可以安装四个SCSI设备。

2024-01-26 20:37:27 346

原创 Flink State backend状态后端

Flink在v1.12到v1.14的改进当中，其状态后端也发生了变化。老版本的状态后端有三个，分别是MemoryStateBackend、FsStateBackend、RocksDBStateBackend，在flink1.14中，这些状态已经被废弃了，新版本的状态后端是 HashMapStateBackend、EmbeddedRocksDBStateBackend。

2024-01-25 13:48:22 780

原创 Fink CDC 1.0 至3.0的从古至今

CDC是一种用以掌控数据变化的软件架构（技术思路），用于捕获和传递数据库中发生的数据变化。当数据库中发生增（INSERT）/删（DELETE）/改（UPDATE）时，它可以将这种变化实时/非实时地将这些变更以事件流的形式推送给其他应用程序或数据存储系统。

2024-01-25 10:39:39 1075

原创元数据管理在数据仓库中的实践应用

数据仓库，由数据仓库之父比尔·恩门（Bill Inmon）于 1990 年提出，主要功能仍是将组织透过资讯系统之联机事务处理（OLTP）经年累月所累积的大量资料，透过数据仓库理论所特有的资料储存架构，做有系统的分析整理，以利各种分析方法如联机分析处理、数据挖掘（Data Mining）之进行，并进而支持如决策支持系统（DSS）、主管资讯系统（EIS）之创建，帮助决策者能快速有效的自大量资料中，分析出有价值的资讯，以利决策拟定及快速回应外在环境变动，帮助建构商业智能（BI）。

2024-01-23 10:15:13 1656

原创 Ranger概述及安装配置

Apache Ranger是一个用来在Hadoop平台上进行监控，启动服务，以及全方位数据安全访问管理的安全框架。Ranger愿景是在Apache Hadoop生态系统中提供全面的安全管理。随着企业业务的扩展，企业可能在多用户环境中运行多个工作任务,这就要求Hadoop内的数据安全性需要扩展为同时支持多种不同的需求进行数据访问，同时还需要提供一个可以可以对安全策略进行集中管理，配置和监控用户访问的框架。Ranger由此产生。

2024-01-21 19:56:42 1132

原创大数据平台的硬件规划、网络调优、架构设计、节点规划

编写机架配置文件 rack.data，内容如下：这里将三个节点分别放到三个不同的机柜中。然后还需要。

2024-01-20 10:46:01 1390

原创 hbase预分区

HBase在创建表时，默认会自动创建一个Region分区。在导入数据时，所有客户端都向这个Region写数据，直到这个Region足够大才进行切分。这样在大量数据并行写入时，容易引起单点负载过高，从而影响入库性能。一个好的方法是在建立HBase表时预先分配数个Region，这样写入数据时，会按照Region分区情况，在集群内做数据的负载均衡。--自定义预分区的RowKey--使用文件内容预分区--使用内置的分区算法HexStringSplit--指定列族'info'使用'GZ'压缩。

2024-01-19 13:12:53 602

原创 postgresql安装

滑到最下面下载四个rpm包，下载的小版本号要一样。

2024-01-17 13:29:50 1010

原创 Clickhouse 分布式表&本地表详解

Clickhouse的表分为两种一个逻辑上的表, 可以理解为数据库中的视图, 一般查询都查询分布式表. 分布式表引擎会将我们的查询请求路由本地表进行查询, 然后进行汇总最终返回给用户.实际存储数据的表。

2024-01-14 14:41:42 4250

原创思考方式总结

1、SWOT分析法2、PEST分析法3、金字塔原理4、六顶思考帽5、5W1H分析法结合ECRS分析法6、鱼骨图分析法7、黄金圈法则8、SMART原则

2024-01-08 13:41:43 401

空空如也

空空如也