几两春秋梦_-CSDN博客

原创强化学习原理（一）

描述的agent相对于环境的一个状态所有状态的空间每一个状态可采取的一系列活动当采取action时，agent从一个state移动到另一个state进入某个区域后，agent会得到惩罚使用概率来描述状态转移告诉agent如果在一个状态take哪个action是在才去一个action之后得到的实数如果Reward是一个正数，代表对采取的action是鼓励的如果Reard是一个负数，代表对采取的action是有惩罚的，不希望该行为的发生。是一个state-action-reward的链是有限步的。

2025-09-20 23:16:53 428

原创 LLM（四）

LLM是通过使用监督学习构建的，将输入A与输出标签B的技术，使用监督学习来重复预测下一个词是什么。可以通过RAG来为LLM提供超出其从互联网或其他开放来源的数据中学到的知识。实际上是让语言模型（LLM）以特定风格表达的更有下的方式。① 详细和具体：给定模型足够的背景信息来完成任务。另一种是帮助语言生成模型获得一定的领域知识。查看模型大小、闭源模型or开源模型、

2025-09-14 00:17:08 122

原创 LLM（三）

首先，从提示词数据集中选择一个提示词，使用LLM进行补全，反馈至奖励模型得到一个奖励值，将这个提示词-补全对于奖励值反馈至强化学习算法，来更新LLM的权重。智能体通过采取行动，观察环境中的变化，并根据其行动的结果接收奖励或者惩罚，不断从其经验中学习，迭代这一过程。微调的目标是通过指令，包括路径方法，进一步训练你的模型，使他们更好地理解人类的提示，并生成更像人类的回应。使用人类反馈微调型语言模型，使用强化学习，使用人类反馈微调LLM，从而得到一个更符合人类偏好的模型。把微调过的模型成为人类对齐的LLM。

2025-09-12 21:29:01 279

原创神经算子学习

神经算子是一类用于学习函数到函数映射的深度学习模型，适用于偏微分方程（PDE）求解、物理建模、科学计算等问题。与传统神经网络关注“输入到输出”之间的数值映射不同，神经算子的目标是直接近似一个用于描述函数空间之间映射的算子——即输入为函数，输出仍为函数。各种类型的神经算子均以端到端的形式学习逼近输入函数到输出函数两个函数空间之间的映射关系。

2025-09-09 14:31:47 681

原创 LLM（二）

主要用于通过将自动生成的摘要与人工生成的参考摘要进行比较，来评估摘要的质量。（不同任务的ROUGE分数是无法进行比较的）

2025-09-08 16:22:40 470

原创 LLM（一）

是传统机器学习的一个子集，支持生成式AI的机器学习模型，是通过在大量原始由人类生成的内容的数据集中找到统计模式，学习了这些能力。传递给大语言模型的指令文本，其可用的空间或记忆呗称为上下文窗口，通常足够放下几千个字，但每个模型都不同。模型的输出被称为完成（Completion），使用模型生成文本的行为被称为推理。一个模型所拥有的参数越多，它的记忆就越多，他能完成的任务也就越复杂。② Select：决定是从头开始训练自己的模型还是使用现有的基础模型。① Scope：尽可能准确和具体地定义项目范围。

2025-09-07 21:12:01 287

原创大模型术语

结合信息检索与生成式大模型，使得模型在回答问题时，实时引入外部知识库，提升模型的在知识密集任务中的表现。Agent（智能体），AI系统实现自主决策的核心载体。机制：奖励系统驱动模型在试错中优化策略，模拟人类“先思考后回答”的认知过程。核心思想：智能并非孤立于大脑，而是身体、环境、感知运动系统协同作用的产物。模型表示自然语言文本的最小单位，计费的基本单位。模型输出答案前的思考步骤长度，提升答案准确性。参数越多，模型能力越强，处理复杂问题更准确。将大型模型的知识和能力迁移到小模型的技术。

2025-09-07 17:56:40 272

原创吴恩达机器学习（十）

该算法能够自行学习所要使用的特征。

2025-09-07 12:15:12 211

原创吴恩达机器学习（九）

首先给定无标签的训练集，然后对数据建模即p(x)，当我建立了x的概率模型之后。需要一个算法来告诉我们一个新的样本数据是否异常。

2025-09-06 21:45:15 211

原创吴恩达机器学习（八）

将数据从二维下降到一维，

2025-09-06 19:12:03 219

原创吴恩达机器学习（七）

是机器学习中处理非线性问题的核心工具，通过隐式映射将数据从原始空间转换到高维特征空间，从而在高维空间中实现线性可分或线性建模。其数学本质是计算两个样本在高位空间中的内积，而无需显式计算映射函数。所以，核函数的作用是省去高位空间里进行繁琐计算的“简便运算法”。将n维空间映射到无限维空间中去。

2025-09-06 15:38:31 154

原创吴恩达机器学习（六）

如果算法处于高方差情况下，训练误差与验证误差之间会有很大的差距，如果继续增大训练样本数量，那么则对改进算法有一定的帮助。用验证集或者交叉验证集来选择模型，选择交叉验证最小的假设来作为做选择的模型。如果算法处于高偏差的情况下，那么再怎么增加训练样本的数量，对于算法的改进是无用的。随着方程项的增加，训练集误差是越来越小的而交叉验证误差先减小后增大。对应的就是欠拟合的情况，通常是训练误差较大，交叉验证误差也较大。对应的就是过拟合情况，通常是训练误差较小，交叉验证误差较大。从中选择测试集误差最小的多项式模型。

2025-09-05 14:31:34 312

原创吴恩达机器学习（五）

⑤ 使用梯度检验来计算通过反向传播得到的偏导数值与用数值方法得到的估计值进行比较。⑥使用一个优化算法与反向传播算法相结合来最小化参数的代价函数。l来代表第l层的第j个结点的误差，用来捕捉。确保前向传播或者反向传播是百分百正确的。④ 执行反向传播算法来计算偏导数项。在这个神经节点的激活值的误差。对每一个结点计算一项。② 执行前向传播算法。

2025-09-04 21:25:31 153

原创吴恩达机器学习（四）

依次计算激活项，从输入层到隐藏层再到输出层的过程。

2025-08-30 17:49:03 133

原创吴恩达机器学习（三）

过拟合：如果存在过多变量，这时训练给出的假设能很好地拟合训练集，此时代价函数可能无限接近于0或者等于0。会导致无法泛化到新的样本中。这就是正则化背后的思想，如果我们的参数值较小就意味着一个更简单的假设模型。② 正则化：保留所有的特征变量并减少量级。后面这一项的目的就是缩小每一个参数。① 减少选取变量的数量；

2025-08-30 15:57:47 115