自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 Ollama REST API - api/generate 接口详解

Ollama提供的核心REST API端点包括:其他辅助端点:2. /api/generate 接口参数详解2.1 常规参数(必需/可选)参数名类型描述model必需模型名称(格式:,默认)。prompt必需生成响应的提示文本。suffix可选附加在模型响应后的文本。images可选base64编码图像列表(适用于多模态模型,如LLaVA)。2.2 高级参数(关键配置)参数名类型描述format可选响应格式(或J

2025-05-23 10:25:36 589

原创 Ollama 本地部署 Deepseek R1 模型

Ollama通过简化部署流程、支持多GPU和API调用,降低了大模型本地使用门槛,后续将聚焦API参数与工程化开发技巧。

2025-05-22 19:43:13 458

原创 Vllm部署优化策略及在线推理应用方法

在上一节《Part 1. Vllm 框架基础入门与本地私有化部署》中,我们介绍了vLLM离线推理的部署及使用方法。离线推理的大模型生命周期为:仅当发生实际调用请求时,模型资源才加载到显存,请求结束后立即卸载。这种模式导致每轮调用都需重新加载模型,响应延迟大,适用于非实时任务,如数据预处理、批量文本生成等。而对于实时问答、聊天机器人等对实时性要求高的场景,企业级应用需处理数千 QPS,离线推理无法满足需求。此时需掌握vLLM的在线推理方法,其是构建大模型应用及高效使用vLLM。

2025-05-21 10:28:25 1356

原创 Vllm框架入门及本地私有化部署

Vllm凭借高性能、可扩展及生产级特性,成为企业落地大模型的首选框架之一。本文覆盖了从框架选型、环境搭建到离线推理的全流程,后续将进一步探讨在线推理服务部署多模态模型集成及性能压测优化等进阶内容。参考资源。

2025-05-21 10:20:41 1226

原创 微软GraphRAG:索引构建workflow源码解读

以下是。

2025-04-23 09:14:47 1003

原创 微软GraphRAG :TextUnit 切分的源码解读

GraphRAG 中的 TextUnit 切分功能主要由抽象基类和子类实现,通过和函数完成具体的切分操作。这种基于令牌的切分方式能够更精确地控制文本块的大小,适用于处理大规模的文本数据。同时,代码中还考虑了进度跟踪和错误处理,提高了系统的健壮性和可维护性。

2025-04-22 17:00:58 848

原创 微软GraphRAG: 索引构建源码解读

配置加载:读取并解析配置文件,获取索引构建所需的参数。数据加载:根据配置从指定数据源加载输入数据。数据处理:对加载的数据进行清洗、转换等操作,确保数据的质量和一致性。图构建:基于处理后的数据构建图结构,用于表示实体之间的关系。社区生成:对图进行聚类,生成社区结构,便于后续的查询和分析。报告生成:为每个社区生成报告,总结社区的关键信息。通过对 GraphRAG 索引构建源码的解读,我们可以看到其索引构建过程涉及到多个关键步骤和模块,包括配置加载、数据加载、数据处理、图构建、社区生成和报告生成等。

2025-04-22 16:31:57 982

原创 PPO:强化学习领域的高效算法

强化学习是机器学习的一个重要分支,它的核心目标是让智能体(agent)在一个动态环境中通过不断地与环境交互,学习到最优的行为策略,以最大化长期累计奖励。智能体在环境中采取动作,环境会根据智能体的动作反馈一个奖励信号和新的状态,智能体根据这些信息来调整自己的策略。在强化学习的发展历程中,涌现出了许多不同的算法,主要可以分为基于策略的方法(Policy-based methods)、基于价值的方法(Value-based methods)以及两者结合的方法。

2025-04-18 08:33:08 893

原创 深入解析LoRA:低秩适应的高效大模型微调技术

LoRA通过低秩矩阵分解实现了大模型的高效微调,在保持性能的同时将参数量压缩至原模型的0.1%。显存友好:支持在消费级GPU上微调70B模型抗遗忘性:显著减少对源领域知识的遗忘灵活性:可轻松集成到现有框架(如Hugging Face PEFT)动态秩优化:结合任务自适应调整秩多模态扩展:将LoRA应用于图像、音频等多模态模型量化融合:与4位/8位量化技术结合进一步降低成本LoRA已成为大模型微调的事实标准,其思想为参数高效训练提供了普适性框架,推动了大模型在行业中的落地应用。

2025-04-17 08:14:28 1302

原创 强化学习:7-7时序差分

通过对q learning算法不同版本的介绍以及在不同探索性behavior policy下的应用示例,能更全面地理解q learning算法的特点和性能表现。

2025-04-16 09:28:54 741

原创 强化学习:7-8时序差分

通过本次课程的学习,对TD learning有了较为全面的理解,下节课将进一步介绍TD learning,把基于表格的形式替换为基于函数的形式,引入神经网络并介绍经典的深度学习内容。

2025-04-14 16:22:48 518

原创 强化学习:7-7时序差分

通过对q learning算法不同版本的介绍以及在不同探索性behavior policy下的应用示例,能更全面地理解q learning算法的特点和性能表现。

2025-04-14 16:22:16 863

原创 强化学习:10-4确定性策略梯度

引入原因:之前的stochastic策略对action个数有限制(输出的概率和为1且个数有限),当状态s下有无限个action时,需使用deterministic(确定性)策略。策略定义变化原策略派a s theta表示在状态s采取action a的概率(0到1之间数值,可表示随机或确定性策略,确定性时等于1)。

2025-04-14 08:13:13 866

原创 强化学习:10-2advantage actor critic

a2c也被称为td ac actor critic,因为用到td估计value function。在第t个时刻,根据策略派a s t c a t产生action与环境交互,得到r t + 1和st + 1,计算类似advantage function的量并带入critic(value update,即td算法和value function approximation结合的算法),该量也可复用到actor计算policy update,得到的数据用于下一个循环。

2025-04-13 07:56:45 605

原创 强化学习:10-1 actor critic方法

本次课将介绍actor critic的方法。

2025-04-13 07:55:11 1503

原创 强化学习:7-4时序差分

在介绍了用于估计给定策略state value(状态值)的经典TD算法后,在此基础上介绍包括Sarsa、expected Sarsa、n step Sarsa等在内的算法,它们是Sarsa基本算法的变形,以及q learning算法。Sarsa及其变形用于估计给定策略的action value(动作值),进行policy evaluation(策略评估),结合policy improvement(策略改进)可找到最优策略;

2025-04-12 12:25:26 1193

原创 强化学习:7-7时序差分

通过对q learning算法不同版本的介绍以及在不同探索性behavior policy下的应用示例,能更全面地理解q learning算法的特点和性能表现。

2025-04-11 17:52:25 725

原创 强化学习:7-6时序差分

在介绍完Sarsa算法及其变形后,引入q learning算法。q learning是经典且仍广泛使用的算法(如深度学习中q learning的变形),与Sarsa等算法的主要数学区别在于它直接估计optimal action value(最优动作值),无需在policy evaluation(策略评估)和policy improvement(策略改进)之间交替运行。

2025-04-11 17:51:15 429

原创 强化学习:7-5时序差分

在介绍了Sarsa算法后,继续介绍其两个变形算法:expected Sarsa和n step Sarsa。与Sarsa相比,它们的重要性稍低,但展示了从经典算法出发进行推广改进的研究思路。Sarsa算法用于估计action value并结合策略改进搜索最优策略,这两个变形算法在功能和原理上与之相关但又有差异。

2025-04-11 17:49:56 532

原创 强化学习:7-4时序差分

在介绍了用于估计给定策略state value(状态值)的经典TD算法后,在此基础上介绍包括Sarsa、expected Sarsa、n step Sarsa等在内的算法,它们是Sarsa基本算法的变形,以及q learning算法。Sarsa及其变形用于估计给定策略的action value(动作值),进行policy evaluation(策略评估),结合policy improvement(策略改进)可找到最优策略;

2025-04-11 17:48:54 757

原创 强化学习:7-3 时序差分

srvπ​sErγvπ​s′)]gvs))gwwvsgvs))0vsvπ​srrs′s′gT​gT​vs−rγvπ​s′)]gvs))测量误差vk1​svk​s−αk​gT​rs′srs′svvk1​vπ​sk′​vk​sk′​vk​vπ​αt​vt​svπ​sαt​sαt​。

2025-04-11 17:47:36 808

原创 强化学习:7-2时序差分

本次介绍的第一个TD算法用于求解给定策略π的state value(状态值)。求解state value后可进行policy evaluation(策略评估),与policy improvement(策略改进)结合能寻找最优策略。TD learning既指一大类算法,本次讲的是最经典、原始的用于估计state value的特定TD算法。

2025-04-11 17:47:03 895

原创 强化学习:7-1 时序差分

这是第七次课,本次将介绍temporary difference learning(时序差分方法,简称TD学习),它是强化学习中经典的model free方法。回顾课程地图,在第五节课介绍了蒙特卡罗方法,是首次介绍的model free方法,TD学习是第二种。二者算法上的直观区别是:蒙特卡罗方法是一种非增量式(non-incremental)方法,而TD学习是增量式或迭代式方法。

2025-04-11 17:45:15 898

原创 强化学习:6-7 随机近似与随机梯度下降

2025-04-11 17:43:44 629

原创 强化学习:6-6 随机近似与随机梯度下降

2025-04-11 17:42:06 672

原创 强化学习:6-5 随机近似与随机梯度下降

考虑一个优化问题,目标函数为JwEfwX)],其中fwX21​∥w−X∥2(当w和X为向量时,表示它们的范数平方,直观上是w和X之间的距离),希望最小化它们之间的距离。对fwX求梯度可得∇fwXw−X。w∗XEX推导最优解:因为J达到最小值的必要条件是∇Jw0,将梯度移到期望内部可得E∇fwX)]Ew−X0,又因为w的期望就是它本身,所以wEX。

2025-04-11 17:40:16 883

原创 强化学习:6-4 随机近似与随机梯度下降

接下来进入第三部分,讲解stochastic gradient descent(简称sgd,随机梯度下降)算法。该算法在强化学习以及很多机器学习领域有非常广泛的应用,十分重要。并且,前面介绍的rm算法中,sgd实际上是rm算法的一个特殊情况,同时,均值估计算法也是sgd的一个特殊情况,这三部分关系密切。

2025-04-11 17:39:02 1048

原创 强化学习:6-1随机近似与梯度下降

本次课,我们将会学习stochastic approximation(随机近似理论)以及stochastic gradient descent(随机梯度下降)。我们经过之前的学习,在上节课学习到了基于蒙特卡洛方法的强化学习的算法,这是我们第一次学习model raid强化学习的算法。下节课我们将来到temporary difference learning,这是非常经典的model free强化学习的算法,后续课程也都是关于model free的内容。

2025-04-11 17:34:30 966

原创 强化学习:Tracted Policy Iteration(截断策略迭代)4-3

值迭代:由压缩映射定理得出,有两个步骤,通过迭代收敛到最优状态值。策略迭代:新介绍的算法,从初始策略出发,经策略评估和策略改进迭代,对下节课的model free强化学习算法有重要基础作用。截断策略迭代:值迭代和策略迭代的一般化形式,两者是其极端特殊情况。通过本次课程,全面了解了强化学习中的这三种算法及其关系,为后续学习奠定基础。

2025-04-10 09:10:12 669

原创 强化学习:Policy Iteration(策略迭代)4-2

策略迭代算法(policy iteration)是本次课程介绍的model base强化学习算法之一。算法从一个初始策略π0​(可以是任意给定的,可能是不好的策略)开始,通过不断迭代找到好的策略。每次迭代包含两个步骤:策略评估(policy evaluation)和策略改进(policy improvement)。

2025-04-10 09:09:05 831

原创 强化学习:Value Iteration(值迭代)4-1

本次是课程的第四次课,将介绍值迭代(value iteration)和策略迭代(policy iteration)这两个model base的强化学习算法。上节课介绍了贝尔曼最优公式,下节课会介绍第一个model free的算法,这三节课内容紧密相关。其中,值迭代算法在上节课已有所涉及,本节课会以更正式的方式介绍;策略迭代算法是下节课蒙特卡罗学习的基础。

2025-04-10 09:07:52 379

原创 强化学习:MC Absolute Grady算法的实例分析与课程总结5-6

蒙特卡罗方法引入:课程最开始通过motivation example介绍了蒙特卡罗方法,即无需模型,用数据去估计一个期望(expectation)。算法关系:基于蒙特卡罗方法提出了三种算法,这三个算法关系紧密,从最简单的算法逐渐变得复杂,效率也越来越高。ϵ\epsilonϵ-Greedy策略性质:通过大量例子说明了ϵ\epsilonϵ-greedy策略的一些性质,包括探索性和最优性,以及如何平衡两者以获得更好的策略。

2025-04-10 08:58:33 1319

原创 强化学习:去除Exploring Stars条件的方法及MC Absolute Grady算法5-5

策略定义:在一个状态sss下,存在一个greedy action(其对应的qπsa∗qπ​sa∗是最大的),ϵ\epsilonϵ-greedy会给这个greedy action一定的选择概率,给其他不是greedy action的action另外的概率。具体公式中,ϵ\epsilonϵ是一个介于000到111的正数,∣As∣∣As∣是状态sss所对应的action的个数。

2025-04-10 08:57:25 527

原创 强化学习:MC Exploring Stars算法概述5-4

基于上述思考得到mc exploring stars算法,它是mc basic的推广,计算效率更高。算法的伪代码主要步骤包括生成一个episode,然后进行policy evaluation和policy improvement。在计算return时,为提高计算效率采用倒推方式。例如对于一个episodes1a1s2a2s3a3s4a4⋯s1​a1​s2​a2​s3​a3​s4​a4​⋯。

2025-04-10 08:56:12 400

原创 强化学习:MC Basic算法的实例分析5-3

刚才提到mc basic算法因为过于简单,效率较低,在实际中不会使用,但它对于理解强化学习的核心思想非常关键。我们来看一个例子,假设有一个初始策略π0​,除了在状态s1​和s3​处策略不太好之外,在其他状态策略都还不错。我们从π0​出发,应用mc basic算法去寻找最优策略。

2025-04-10 08:54:51 478

原创 强化学习:MC Basic5-2

当没有模型时,就依赖数据(在统计或概率里叫sample,在强化学习中有个特殊名字叫experience经验)。这个算法名为mc basic(mc是蒙特卡罗首字母的缩写)。从一个初始的策略出发(这个策略可能不好,后续会改进)。:计算qπksaqπk​​sa,对所有的状态-动作对sa(s, a)sa都要得到qπksaqπk​​sa。方法是从sa(s, a)sa出发,得到很多episode,对episode的return求平均。

2025-04-10 08:53:00 791

原创 强化学习:蒙特卡洛5-1

从model base的reinforce learning过渡到model free reinforce learning,最让人难以理解的应该就是怎么样在没有模型的情况下去估计期望。这里边有一个重要的方法或者思想就是蒙特卡罗estimation。例子:投掷硬币假设手上有一个硬币,把它抛到空中,硬币会落到手面,硬币要么是正面朝上,要么是反面朝上,把这个结果设为大X。如果它是正面朝上,设X等于正1;如果它是反面朝上,X就等于-1。下面要求解的问题是这个X的平均数或者X的expectation是什么。

2025-04-10 08:51:23 841

原创 强化学习:贝尔曼最优公式

上节课介绍了贝尔曼公式,本节课会介绍贝尔曼最优公式,贝尔曼最优公式是贝尔曼公式的一个特殊情况,是一个非常重要的式子。希望大家在学习时重点关注两个概念和一个工具。两个概念是 optimal state value、optim policy,一个工具是贝尔曼最优公式。强化学习的目的是寻找最优策略,因此,本节课所讲的最优策略的定义以及寻找最优策略的方法非常重要。大纲内容虽看起来较多,但实际上每一部分内容较短,大家可以合理规划自己的时间。

2025-04-09 14:04:51 499

原创 强化学习:状态价值与动作价值的介绍

我们关注 action value,是因为策略是在一个状态下选择什么样的 action,需要根据 action value 来判断,action value 大意味着选择该 action 能获得更多奖励(reward)。

2025-04-09 12:14:35 576

原创 贝尔曼公式:矩阵和向量形式及状态价值求解

上一部分介绍了贝尔曼公式的推导,接下来介绍其矩阵和向量的形式。有了贝尔曼公式后需考虑如何求解,由于单个贝尔曼公式表达式左边的状态价值(state value)无法仅从这一个公式得出,但其针对每个状态价值的等式对所有状态都成立。若有 (n) 个状态,就有 (n) 个这样的等式,将这些公式放在一起可整理成矩阵向量(metrics vector)形式,这对求解和理解问题很有帮助。

2025-04-09 11:57:05 778

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除