- 博客(110)
- 收藏
- 关注

原创 基于大模型应用技能的学习路径
通过以上分阶段的学习计划,您可以逐步掌握大模型应用工程师所需的核心技能,并具备实际应用能力。建议每日投入2-3小时系统性学习,配合周末4-6小时实战,可在6个月内达到高级开发工程师水平。重点关注HuggingFace生态和PyTorch Lightning框架,这两个是当前企业的主流技术栈。
2025-04-09 10:49:20
566
原创 高等数学基础(微积分的基本思想和解释)
微分是对函数局部变化率的线性描述, 微分学的基本思想就是。, 围成的平面图形, 我们可以通过。分为4份, 整体等于部分之和,移动时, 纵坐标上的变化范围为。,继续细分入图二表示, 间隔为。点的一个切线来近似代替函数。的思想, 分成许多个小矩形。. 根据无穷小的概念,, 假设函数上有一点。点切线的斜率是导数,如何求解曲面梯形的面积。上非负, 连续. 直线。
2025-05-16 16:47:08
792
原创 高等数学基础(梯度下降法求函数的最小值)
梯度下降法, 一般是寻找函数极小值最常用的优化方法. 当目标函数时凸函数时, 梯度下降时全局解, 但是一般情况没办法保证是全局最优的. 通常在求最优解时, 首先会设定好步长大小进行调整, 按照上述方法对参数进行调整后就会逼近一个极小值。为一元连续函数, 初始值为。, 那么下一个点的坐标就为。的梯度, 反复迭代, 直到。的绝对差极小, 此时。
2025-05-15 16:44:25
820
原创 多元函数求切面方程
类型公式表达偏导数∂f∂xi∂xi∂f梯度向量∇f∂f∂x1∂f∂xn∇f∂x1∂f∂xn∂f方向导数Duf∇f⋅uDuf∇f⋅u切平面方程zfx0∇fx0⋅x−x0zfx0∇fx0⋅x−x0。
2025-05-13 10:51:32
917
原创 高等数学基础(偏导数和梯度)
设函数zfxyz=f(x,y )zfxy, 在点x0y0(x_0, y_0)x0y0的领域内有定义, 当yyy固定在y0y_0y0, 而xxx在x0x_0x0处有增量Δx\Delta xΔx时, 函数有增量fx−0Δxy0−fx0y0fx−0Δxy0−fx0y0, 如果极限limΔx→0fx0Δxy0−fx0y0Δx。
2025-05-13 10:14:57
758
原创 高等数学基础(连续性和导数)
函数建立了变量之间的关系, 有时候也需要考虑函数的连续性. 例如观察温度的变化, 当时间变动微小时, 气温的变化也很微小, 这种特点就是连续性。的某个领域内有定义, 当自变量的增量。的某个去心邻域内有定义, 如果函数。有下列3种情况之一, 那么函数。处连续, 需要满足以下的条件。满足上述三个条件, 因此函数。时, 对应的函数的增量。, 极限存在并且等于。的间断点或者不连续点。
2025-05-12 14:16:35
609
原创 高等数学基础(函数和极限)
设数集D⊂RD⊂R, 则称映射fD→R为定义在f: D \rightarrow R为定义在fD→R为定义在D上的函数通常简记为上的函数, 通常简记为上的函数通常简记为y = f(x)$,x∈Rx \in Rx∈R. 其中xxx称为自变量,yyy称为因变量,DDD称为定义域, 记作DfD_fDf, 即DfDD_f = DDfDf(x)=\left。
2025-05-10 20:28:26
873
原创 常见的算法介绍
PY1∣X1expw∗xexpw∗xPY0∣X1expw∗x1PY1∣x)PY0∣x)PCi∣F1F2...FnPF1F2...FnPF1F2...FnPCii12...mPXZ∣θ)θXZθθθθiPZ∣Xθi)lnZ∣Xθi)ZZiXZiθi)thetaPX。
2025-05-10 17:37:47
374
原创 熵和交叉熵
交叉熵(Cross-Entropy)则是熵的延伸,直接用于评估模型预测分布与真实数据分布之间的差距,是分类任务中最常用的优化目标之一。将熵与交叉熵的公式分解为可理解的部分,通过逻辑分步和生活化类比,帮助读者掌握其数学本质与实际意义。通过具体机器学习任务,说明熵与交叉熵在模型训练和优化中的实际作用,并展示其解决实际问题的流程。明确熵与交叉熵的数学定义,通过通俗类比解释其核心思想,并说明其在机器学习中的直观意义。让读者理解熵和交叉熵在信息论与机器学习中的核心地位,并掌握其在模型优化中的实际意义。
2025-05-09 13:21:55
722
原创 数据归一化
在特征空间中,未归一化的数据可能导致坐标轴“拉伸”(如X轴范围0-1000,Y轴0-1),使距离计算(如欧氏距离)被大尺度特征主导。若特征尺度差异大(如“年龄”范围0-100 vs. “收入”范围0-100,000),大尺度特征会主导距离计算,导致模型失效。数据归一化(Data Normalization)是将不同量纲或尺度的特征值映射到统一数值范围(如[0,1])或分布(如均值为0、方差为1)的预处理技术。:假设特征服从正态分布(均值 μ=50,σ=15),标准化后 μ=0,σ=1。
2025-05-09 10:48:18
679
原创 贝叶斯定理
贝叶斯定理(Bayes’ Theorem)由18世纪英国数学家托马斯·贝叶斯(Thomas Bayes)提出,后经拉普拉斯等人完善,是概率论中的核心工具之一。它解决了如何基于新证据动态修正概率估计的问题,为从经典统计学向贝叶斯统计学的范式转变奠定了基础。在机器学习中,贝叶斯方法被广泛应用于分类、推荐系统、概率图模型等领域,例如垃圾邮件过滤(通过关键词出现的概率推断邮件是否为垃圾邮件)、医学诊断(根据检测结果更新患病概率)等。假设你设计了一个垃圾邮件过滤器,已知以下数据:问题:当某封邮件包含“免费”时,它是垃
2025-05-08 18:15:42
1232
原创 正态分布和幂律分布
正态分布幂律分布共同铺垫:通过对比身高(正态)与财富(幂律)的差异,引出两种分布对现实建模的本质区别——前者强调均值代表性,后者强调极端值主导性,为后续数学性质和算法设计埋下伏笔。正式定义:若随机变量XXX的概率密度函数为f(x)=12πσe−(x−μ)22σ2(−∞<x<∞),f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \quad (-\infty < x < \infty),f(x)=2πσ1e−2
2025-05-08 17:15:28
969
原创 矩阵基本操作/过拟合和损失函数
模型在训练数据上表现很好,但在测试数据上表现差的现象。原因是模型过度学习了训练数据的噪声或局部特征,导致泛化能力差。衡量模型预测值与真实值之间差异的函数。优化目标是使损失函数最小化。两个长度相同的向量对应元素相乘后求和的结果。(单价为10元和20元的商品),购买数量向量。将矩阵的行和列互换的操作,记作。
2025-05-08 14:57:31
606
原创 正则化和L1/L2范式
假设你正在设计一个房价预测模型,手头有100个特征(如面积、楼层、周边设施等),但其中部分特征可能是噪声或冗余(如“距离某个路灯的距离”)。在生物医学研究中,基因表达数据通常包含数万个基因(特征)的表达值,但样本量(如患者数量)往往仅有几十到几百个。在房价预测中,特征如“房间数”和“建筑面积”可能存在高度相关性(共线性),导致线性回归系数不稳定,甚至符号异常(如房间数增加但房价下降)。L2范式像“雨露均沾”的压缩策略——对所有权重施加与数值大小相关的惩罚,权重越大被压缩得越狠,但永远不会完全归零。
2025-05-08 13:54:34
1109
原创 BP算法正向传播和反向传播
定义:通俗解释:类似工厂流水线,原材料(输入)经过多道工序(网络层)逐步加工(加权与激活),最终产出成品(预测结果)。每一步的加工参数(权重)决定了成品质量。例子:输入一张猫的图片(像素值),正向传播逐层提取边缘→轮廓→特征→最终判断为“猫”。定义:通俗解释:假设团队完成任务后发现结果错误,需回溯分析每一步操作对错误的“贡献度”,并针对性改进。类比:烹饪失败时,从成品味道反推食谱问题:盐多→减少盐量;火候过久→调整时间。每一环节的修正依赖最终结果反馈。定义:BP算法是正向传播计算输出 + 反向传播
2025-05-08 13:21:39
763
原创 拉格朗日和泰勒公式
拉格朗日乘数法与泰勒公式是数学与机器学习的基石工具,前者为约束优化提供解析路径,后者为复杂函数建模奠定基础。该问题本质上是一个带约束的优化问题,需在保证分类正确的前提下,最小化分类超平面的范数。假设你是一家工厂的管理者,需在固定预算下最大化生产利润(目标函数),但受限于原材料成本(约束条件)。在优化损失函数(如神经网络的损失函数)时,牛顿法通过二阶泰勒展开逼近函数极值,利用Hessian矩阵加速收敛。:地图上等高线代表海拔(目标函数),河流边界(约束条件)若与某条等高线相切,则该点可能是最高/最低点。
2025-05-07 13:17:31
746
原创 定积分和不定积分
积分学起源于17世纪对面积、体积及运动规律的研究,由牛顿(Newton)和莱布尼茨(Leibniz)独立发展形成体系。它与微分共同构成微积分的核心,解决了“如何求变化率的反过程”和“如何计算不规则形状的累积量”两大问题。在数学中,积分是分析连续变化的基础工具;在机器学习中,它支撑了概率分布建模、损失函数优化等关键环节。这两个问题看似不同,却通过微积分基本定理紧密关联:定积分的结果(面积)可通过不定积分的原函数计算,从而将“求和”转化为“找原函数”。学完本节后,你将能够:例子:例子:定义公式:∫abf(x)
2025-05-07 11:39:52
811
原创 偏导数和梯度
在现代机器学习中,它们是优化算法的基石,尤其在神经网络训练中,通过反向传播算法高效计算损失函数的梯度,从而调整模型参数。例如,盲人摸象时,梯度会告诉他脚下哪边最陡峭。偏导数的核心思想是“固定其他变量,仅研究单一变量对函数值的影响”,但其表达形式可能因场景不同而有所变化。通过以上代码,读者可以直观理解偏导数和梯度的计算方法,并掌握其在优化问题中的实际应用。例如,在山丘地形图中,梯度指向最陡峭的上坡方向,负梯度指向最陡峭的下坡方向。通过这种拆解,读者能清晰理解:偏导数是梯度的“基石”,梯度是优化的“指南针”。
2025-05-07 11:11:19
1420
1
原创 BERT模型详解
BERT(Bidirectional Encoder Representations from Transformers)是由Google在2018年提出的一种基于Transformer架构的预训练模型。
2025-05-06 13:54:15
808
原创 Pytorch 反向传播
维度关键技术点典型应用理论基础DAG、反向模式AD动态模型设计实现流程训练自定义模型核心组件grad_fn、Autograd引擎调试梯度计算流程内存管理多任务学习、低显存训练注意事项梯度累积、in-place限制、非标量处理复杂Loss设计、高阶优化问题。
2025-04-29 16:25:48
1091
原创 迁移学习(基础)
根据实际经验, 自定义为微调网络参数总数应当大于0.5倍的训练数据量, 小于10倍的训练数据量, 这样有助于模型在合理的时间范围内收敛, 如果是分类任务样本数量应当保持在1:1"""自定义微调网络"""""":param char_size: 输入句子中的字符数量, 输入句子规范后的长度128:param embedding_size: 字嵌入的维度, 因为使用的bert中文模型嵌入维度是768, 因此这里也使用768"""# 因为是一个2分类, 所以输出为2。
2025-04-25 14:52:05
1024
原创 Transformer(Trainer)和参数调优实践
Trainer是 HuggingFace Transformers 库提供的高级训练接口,主要功能是简化训练流程自动化训练循环(前向传播、反向传播、优化器步进)分布式训练(多GPU/TPU支持)混合精度训练(FP16/FP32混合加速)日志记录、评估、检查点保存自定义回调(如早停、超参数搜索)适用于微调预训练模型(如BERT、ViT等),无需手动编写训练循环。核心原则数据驱动:根据数据规模、分布选择增强和采样策略。模型适配:预训练模型的特性决定学习率和冻结策略。动态监控。
2025-04-25 14:08:30
963
原创 Transformer 整体代码结构分析
Transformer 成功的原因:解决了传统模型的效率低下和长距离依赖问题,通过自注意力机制实现了全局视野和高效计算。核心优势:并行化处理和全局视野,让模型能够快速、全面地理解序列数据。多头注意力机制:从宏观上看,它帮助模型理解全局信息;从微观上看,它通过多个“视角”捕捉不同特征。前馈连接的作用:作为注意力机制的补充,进一步加工和整合信息,提升模型的表现。
2025-04-22 17:28:45
888
原创 transformer 模型构建和测试
实现了编码器和解码器结构的类 EncoderDecoder类的初始化函数传入五个参数, 编码器对象, 解码器对象, 源数据嵌入函数, 目标数据嵌入函数, 输出部分类别生成器类中共有三个函数, forward, encode, decodeforward是要要逻辑函数, source代表源数据, target代表目标数据, source_mask和target_mask代表对应掩码张量encode是编码函数, source 和 source_mask 为参数。
2025-04-22 17:02:59
260
原创 transformer 解码器和输出部分结构
线性层作用对上一步的线性变化得到指定维度的输出, 也就是转换维度的作用softmax层作用使以后一维的向量中的数字缩放到0~1, 的概率值域内, 并满足他们的和为1学习并实现了softmax层和Generator类初始化函数的参数有两个, d_model 代表词嵌入维度, vocab_size 代表词表大小forward函数接受上一层的输出最终获得经过线性层和softmax层处理的结果。
2025-04-22 17:02:01
413
原创 transformer 编码器层
作为编码器的组成单元, 每个编码器完成一次对输入特征提取的过程, 即编码过程。编码器用于对输入进行指定的特征提取过程, 也称为编码, 由N个编码器堆叠而成。
2025-04-22 17:01:16
243
原创 transformer 子层连接结构
输入到每个子层以及规范化层的过程中, 使用了残差连接(跳跃连接, 从Add&Norm -> Add&Norm), 因此我们把这一部分结构整体叫做子层连接(代表子层及其链接结构), 在每个编码器中, 都有两个子层, 这两个子层加上周围的链接结构就形成了两个子层连接结构。
2025-04-22 17:00:43
145
原创 RetinaFace/Yolo8人脸检测和实现
基于 YOLOv8-Face + ArcFace + FAISS 的方案可实现高精度实时人脸检索,GPU 环境下可达到 50 FPS 以上(1080p视频),适合安防、智慧园区等场景。
2025-04-17 13:28:02
1292
2
原创 transformer 注意力机制
Query(Q):你的需求,比如“我想找什么”。Key(K):信息的标签,用来判断是否符合你的需求。Value(V):信息的实际内容,最终你要获取的东西。过程用 Query 和 Key 计算匹配度。缩放匹配度,避免数值过大。用 Softmax 把匹配度变成关注度(权重)。根据权重提取 Value,得到最终结果。什么是多头注意力机制。
2025-04-14 09:51:21
575
原创 transformer 规范化层
函数/方法作用常用场景关键参数定义可训练参数自定义模型层无计算均值损失函数、数据归一化dimkeepdim计算标准差BatchNorm、数据标准化dimunbiased。
2025-04-12 15:44:22
723
原创 transformer 前馈全连接层
是 PyTorch 中实现ReLU(Rectified Linear Unit)激活函数的核心函数。下面从输入输出类型基本作用底层原理和代码示例四个方面详细说明:输入输出类型输入:任意维度的张量(Tensor),通常为神经网络的隐藏层输出。输出:与输入张量形状相同的张量,所有负值被置为 0,正值保持不变。数据类型:支持float32float64等浮点类型。基本作用ReLUxmax0xReLUxmax0x功能:对输入张量逐元素应用 ReLU 函数,实现非线性变换。用途。
2025-04-12 15:15:08
910
原创 transformer 中编码器原理和部分实现
掩代表着烟, 码就是我们张量中的数值, 他的尺寸不定, 里面一半只有1和0个元素, 代表位置被遮掩或者不被遮掩, 至于是0位置被遮掩还是1位置被遮掩可以自定义因此它的主要作用就是让另一个张量中的一些数值被遮掩, 也可以说是被替换, 它的表现形式是一个张量。
2025-04-09 17:56:36
332
原创 训练数据清洗(文本/音频/视频)
数据清洗的具体方案需要结合数据集的特点和业务需求进行定制化设计。探索性数据分析(EDA):全面了解数据的分布、缺失情况、异常值等。明确目标:根据建模目标确定清洗的重点方向。逐步实施:按照上述方案逐一处理问题,同时记录清洗过程以便复现。验证效果:清洗后重新检查数据质量,确保清洗结果符合预期。
2025-04-09 13:53:48
934
原创 FineTuning介绍
将通用大模型转化为专业大模型:"普通医生"代表通用模型,"皮肤科/心脏病专家"代表专业模型,后者能深入解决特定领域问题。在短提示词和长文本之间找到平衡具有挑战性,微调是调整大语言模型输出语气的有效方式。
2025-04-08 17:44:32
933
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人