- 博客(409)
- 收藏
- 关注

原创 英文文献单词
Convolutional 卷积的。feedforward 前馈。assumptions 假设。constitute 组成。preserve 保留。immense 巨大的。augment 增强。
2025-01-02 12:52:17
134
原创 conda init执行了还是不好用
原因解决方法PowerShell 执行策略限制设置权限不足导致无法写入 profile使用管理员身份运行 PowerShellconda init未真正生效手动添加 conda 初始化脚本不熟悉 PowerShell 环境改用 Anaconda Prompt的输出结果的输出结果你是从哪个终端(CMD / PowerShell / VSCode / Git Bash)运行命令的?我可以继续帮你一步步排查 😊。
2025-05-16 17:51:51
778
原创 在人脸识别项目中ffmpeg有什么作用
总的来说,FFmpeg 是一个多功能的工具集,能够帮助你更高效地预处理视频数据,从而让后续的人脸识别算法更加专注于核心任务。在实际应用中,你可能会使用 FFmpeg 来准备数据集、优化视频流的传输效率、或是作为整个工作流程的一部分,确保输入到人脸识别模块的数据是最优的。尽管 FFmpeg 本身并不是直接用于人脸识别的工具,但它通过其强大的多媒体处理能力,在很多方面间接支持了人脸识别任务的执行。:虽然在人脸识别中不常用,但如果你的项目涉及到同时分析视频中的音频信息,FFmpeg 也提供了相应的音频处理能力。
2025-05-16 11:36:35
334
原创 LangChain的预定义的角色
角色类型:主要包括"system""user""human", 和"ai"。实际应用:根据需要选择合适的角色来构造你的提示模板。灵活性:使用元组提供了一种简便的方式来快速定义不同类型的聊天消息,同时保持了足够的灵活性以适应各种场景。如果你有更多关于如何具体应用这些角色的问题,或是想了解如何在特定情况下优化你的提示,请随时提问!
2025-05-14 12:01:25
272
原创 ChatPromptTemplate创建方式比较
和功能相同,都可以用来指定系统消息。推荐根据项目的一致性和个人偏好选择。和基本上可以互换使用,但在复杂或多占位符的情况下,使用更加清晰。出于代码清晰度考虑,推荐使用带有明确参数名的形式。
2025-05-14 11:53:18
508
原创 langchain学习
LangChain 能解决大模型的两个痛点,包括模型接口复杂、输入长度受限离不开自己精心设计的模块。根据LangChain 的最新文档,目前在 LangChain 中一共有六大核心组件,分别是模型的。原文链接:https://blog.csdn.net/2301_81940605/article/details/137627288。下面我们将分别讲述每一个模块的功能和作用。目前,最新的官网中将数据连接部分改为了检索。
2025-05-13 23:29:49
380
原创 使用聊天模型和提示模板构建一个简单的 LLM 应用程序
功能修改位置示例换模型修改https://api-inference.huggingface.co/models/用户名/模型名控制输出修改参数更换任务修改和内容“你是谁?”、“帮我翻译”、“写一篇作文”等使用中文模型选择支持中文的模型如。
2025-05-13 21:50:53
856
原创 langChain存储文档片段,并进行相似性检索
这段代码展示了如何使用LangChain框架中的和来存储文档片段,并基于提供的查询进行相似性搜索。
2025-05-13 17:40:44
383
原创 6.1RAG
模型名称框架特点OpenAI英文、通用BAAI中文优化m3e-base中文/多语言,性能优异多语种、多任务在 RAG 里的作用是什么?RAG = 检索(Retrieval)+ 生成(Generation),embedding 模型用在检索部分构建知识库:先用 embedding 模型把所有知识文档转成向量,存到向量数据库(如 FAISS、Milvus)。用户提问:把用户的问题也用 embedding 模型转成向量。检索相关文档:在向量空间里,找到与用户提问“最接近”的知识文档。
2025-05-06 13:06:28
806
原创 4.3模型量化
技术是否训练精度损失推理效率适用场景静态量化否中等高小模型、边缘设备动态量化否较低中等NLP 推理、通用部署QAT是低高精度敏感场景、大模型QAT 微调是(轻量)低高已训练模型轻量部署对称量化中高权重层非对称量化低中激活层技术是否训练精度损失推理效率适用场景静态量化否中等高小模型、边缘设备动态量化否较低中等NLP 推理、通用部署QAT是低高精度敏感场景、大模型QAT 微调是(轻量)低高。
2025-05-06 13:04:33
706
原创 4.2性能优化算法
VLLM(Vectorized Large Language Model Serving System)是一个高性能、易扩展的大语言模型推理引擎vLLM 是一个专为 大语言模型(LLM)推理加速设计的开源框架,是为了加速大模型的推理过程,特别是在多轮对话多用户并发下,优化推理效率和显存使用。全称是:由 UC Berkeley 等机构开发,目标是解决传统推理框架多并发推理效率低KV 缓存内存浪费大GPU 资源利用率低。
2025-05-06 13:03:46
1005
原创 4.1框架应用
特性Offload 到哪里CPU 内存NVMe 硬盘Offload 对象优化器状态、梯度模型参数、激活值是否涉及优化器是否显存节省中等极高对 NVMe 要求低高对 CPU 内存要求高低训练速度中等慢(依赖调度)适用模型规模亿级十亿至百亿级别请解释 ZeRO-Offload 和 DeepSpeed-Infinity 的原理,它们的区别在哪里?ZeRO-Offload 和 ZeRO-3 的显存优化方式有何异同?
2025-05-06 13:03:10
697
原创 3.2基于人类反馈的强化学习
模型名称作用关键词简介生成策略负责根据 Prompt 生成答案,类似于强化学习中的“策略网络”。评估策略好坏给 Actor 的输出打分,判断该动作(回答)在环境中是否合理。人类偏好评分模拟人类的喜好,给回答一个奖励分,来自人工标注数据训练。旧策略作为基准是旧的 Actor 拷贝,用于在训练中计算策略变化幅度(KL 惩罚)。模型名类比于 RL 中的角色作用ActorPolicy(策略)决定怎么回答 PromptCriticValue Function(状态评估)
2025-05-06 13:01:49
583
原创 2.3 结果评估
使用语言模型计算测试集中每个词的条件概率。计算整个测试集的概率对数似然。对这个对数似然取负值,然后求平均,并指数化。假设一个语言模型预测下一个词的概率是:真实标签是 “fine”,则 Loss = -log(0.5) ≈ 0.693Perplexity = exp(Loss) ≈ 2👉 意味着模型“在平均每个位置上,有 2 个等概率的候选词”PPL 越小越好,说明模型越确定。困惑度越低,说明模型对数据的拟合程度越好,预测能力越强。预测为正例的样本中(分母)真正正例(分子)的比例公式为(Precis
2025-05-06 10:53:48
939
原创 windows安装docker,发现没有hyper
创建并运行安装脚本:家庭版Windows需要通过脚本手动安装Hyper-V。可以按照以下步骤操作。其他方法:但是我试了不好用,注意Windows10和11的方法略有不同。新建txt文件,输入下面脚本信息,变更文件名为 Hyper.bat。身份执行脚本,执行完成后安装提示,输入y后,
2025-04-27 21:23:53
217
原创 2.1 数据处理
能力工具是否面试重点公共数据获取✅✅✅数据质量评估可视化分析、分布检查、清洗✅✅网络爬虫✅✅文本去重要选对算法(MinHash 精准又高效),数据配比要“广+精+多样”,让模型具备语言理解、推理、生成等多项能力。
2025-04-18 11:05:11
859
原创 1.3 基础网络组件
Attention 负责找“关系”,FFN 负责做“加工”。Attention 是面向全局,FFN 是逐点强化!梯度问题:要考虑激活函数是否会导致梯度消失或梯度爆炸问题。ReLU 及其变体通过在正半轴上保持恒定的导数,有效缓解了梯度消失问题。而 Sigmoid 和 Tanh 函数在输入绝对值较大时,导数趋近于 0,容易导致梯度消失,因此在深层网络中使用时需要谨慎。数据特性:数据的分布和范围也会影响激活函数的选择。
2025-04-18 11:04:45
1000
原创 1.2 核心架构
是基础架构,提供了自注意力机制和高效的处理能力,是 BERT 和 GPT 等模型的核心。BERT:基于双向Transformer 编码器,适用于需要理解上下文的任务,如问答系统和文本分类。GPT:基于单向Transformer 解码器,擅长生成类任务,并且在零样本和少样本学习方面表现出色。三者的关系可以理解为:Transformer 是基础架构,BERT 和 GPT 是 Transformer 的不同变体,分别针对不同的应用场景和任务需求进行了优化和改进。
2025-04-18 11:03:16
668
原创 1.1 文本处理基础
语言模型本身是以数字形式来处理和理解信息的。Tokenizer 的作用就是将输入的文本进行处理,把一句话切分成一个个小块(Token),然后将这些 Token 映射为数字,通常是通过词汇表或编码方式来实现。方法适合语言处理方式优点缺点BPE英语频繁字符对合并快速、简单、抗 OOV不考虑语言结构WordPiece英语概率+频率合并语义更好,适合 BERT慢,多语言支持差多语言无空格依赖,字符流处理多语种支持强,自动化Token 多,长文本低效Unigram多语言。
2025-04-18 11:02:29
551
原创 Transformer模型的自注意机制原理、作用、优缺点,通俗易懂
Transformer模型中的自注意力机制(Self - attention Mechanism)可以通俗地理解为一种让模型自动关注文本中不同部分之间关系的方法。
2025-04-12 23:04:30
656
原创 kaggle竞赛——房价预测
房价预测是Kaggle的入门竞赛,很适合新手竞赛网站和数据集获取:https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques。
2025-04-07 18:48:13
331
原创 py常用函数
注意:dropna会返回一个新的DataFrame,不会修改原始数据。若想要修改,可以使用。3. 针对特定的列,删除包含NaN的行。2. 删除包含NaN的列。
2025-04-01 22:43:52
223
原创 TabularDataset
如果你之前没有接触过 AutoGluon 或 AutoML,可能会对它比较陌生。但如果你想试试 AutoML,或者让 AutoGluon 自动帮你选择和训练模型,如果你希望尝试 AutoML,可以试试用它做自动建模!是 AutoGluon 提供的一个特殊数据结构,主要用于 AutoGluon 的。的一个封装,本质上仍然基于 Pandas,但针对 AutoML 任务做了一些优化。是 AutoGluon 库提供的一种数据结构,主要用于。但如果你想做 AutoML 任务,,但经过优化,可以更高效地处理数据。
2025-03-31 16:28:54
245
原创 激活函数、损失函数和优化器
(损失函数本身并不会直接输出梯度,而是需要对它求导,才能得到梯度。优化器更新参数的依据是梯度,而梯度需要通过对损失函数求导数来获得。如果没有激活函数,每一层神经元的输出都是输入的线性组合,这样的神经网络本质上和普通的线性回归模型没有区别,无法学习复杂的非线性关系。你正在学习机器学习的核心概念,这三个问题非常重要,我会详细为你解答。损失函数是衡量模型预测值和真实值之间误差的函数,它的作用是。激活函数是神经网络中的一个数学函数,它的作用是。,使得神经网络可以学习复杂的模式。,从而提高模型的预测能力。
2025-03-27 20:38:31
819
原创 信息熵、信息增益、信息增益率、基尼值、基尼指数
通常不会直接使用决策树,但这些概念对于理解。(如 ID3、C4.5、CART)很重要。,用于分类任务(如 CART 决策树)。(特征划分后不确定性下降越多越好)。在决策树等机器学习算法中,(意味着数据集纯度高)。,用于选择分裂特征。(更好的特征选择)。(数据集纯度更高)。
2025-03-12 12:01:59
1020
原创 ROC 曲线和 AUC 的关系
ROC(Receiver Operating Characteristic,受试者工作特征曲线)和 AUC(Area Under Curve,曲线下的面积)是评估。AUC 指的是 ROC 曲线下的面积,数值范围。,如果是二分类(如正向/负向情感),可以用。作为评估指标,来衡量模型的区分能力。
2025-03-12 11:13:10
407
原创 均方误差和最小二乘法的区别
均方误差(MSE)定义:MSE是一个衡量模型预测值与实际观测值之间差异的指标,它是预测误差的平方的平均值。目的:用于评估模型的预测性能,即模型预测的准确度。最小二乘法定义:最小二乘法是一种参数估计方法,它通过最小化预测值与实际观测值之间差的平方和来估计模型的参数。目的:用于找到模型参数的最佳估计,使得模型能够尽可能好地拟合数据。简而言之,均方误差是一个性能指标,用于评价模型的好坏;而最小二乘法是一种算法或方法,用于估计模型参数。
2025-03-12 09:53:43
371
原创 归一化和标准化
归一化(Normalization)和标准化(Standardization)通常是。的操作,而不是必须先归一化再标准化。两者的目的都是对数据进行。(因为均值和标准差对异常值影响较小,而归一化容易受极端值影响),但适用于不同的场景。
2025-03-11 11:03:56
403
原创 分布式机器学习中【拓扑】与【通信】的区别和联系
拓扑是网络结构的描述,定义了节点间的连接方式。通信是数据交换的过程,决定了数据在节点之间如何传输。它们是相辅相成的:拓扑影响通信方式,通信方式又可能影响训练的效率和收敛速度。希望这样解释能帮助你更清楚地理解拓扑和通信的区别和联系!如果有更深入的细节想了解,随时告诉我!
2025-01-25 22:12:59
415
原创 传统机器学习和深度学习
机器学习通常分为传统机器学习(也称为经典机器学习)和深度学习传统机器学习主要基于特征工程,即从数据中提取有意义的特征来进行建模。包括算法如线性回归、逻辑回归、决策树、随机森林、支持向量机(SVM)、K近邻(KNN)、朴素贝叶斯等。适用于结构化数据,比如表格数据。需要人工设计特征,并且在大规模数据集上表现不如深度学习。深度学习基于神经网络,特别是深度神经网络(DNN),可以自动从数据中学习特征。包括卷积神经网络(CNN)、循环神经网络(RNN)、变压器(Transformer)等。
2025-01-25 19:44:37
809
原创 偏差(Bias)和方差(Variance)
在机器学习中,偏差(Bias)和方差(Variance)是模型预测误差的两个主要组成部分,它们描述了模型在训练和预测过程中可能出现的两种不同类型的错误。
2025-01-25 17:13:26
267
原创 BERT和Transformer模型有什么区别
BERT(Bidirectional Encoder Representations from Transformers)和Transformer都是自然语言处理(NLP)领域的重要模型,它们之间的区别主要体现在以下几个方面:
2025-01-20 21:36:18
867
原创 GLUE benchmark
GLUE 的得分为多个任务上的平均分,每个任务都有自己的评估指标。为了在 GLUE 上取得好成绩,模型需要能够处理多种类型的自然语言处理挑战。随着深度学习的发展,特别是预训练语言模型(如 BERT, RoBERTa, XLNet 等)的出现,这些模型在 GLUE 基准上的表现有了显著提升。它由一系列的语言理解任务组成,旨在衡量机器学习模型对人类语言的理解能力。GLUE 为研究社区提供了一个统一的标准来比较不同模型的效果,并推动了自然语言处理技术的发展。
2025-01-20 16:52:48
352
jpg或eps的世界地图 如何转换成json格式
2023-05-22
TA创建的收藏夹 TA关注的收藏夹
TA关注的人