AI大模型：启动参数总结整理

危险、

已于 2023-12-06 15:49:48 修改

阅读量987

点赞数 1

文章标签： AI大模型启动参数 Baichuan2 ChatGLM

于 2023-12-06 15:38:33 首次发布

本文链接：https://blog.csdn.net/weixin_43945983/article/details/134833114

版权

虽然通过调整启动大模型的参数，对生成效果的提升是有限的，但适当的调整，还是能满足一些常用的场景的~

一. 【max_length】令牌生成最大数

用于控制生成文本的最大长度，默认为 20。它的值对应于输入提示的长度加上max_new_tokens。
如果同时设置了max_new_tokens，则它的效果将被覆盖。
例如，在使用ChatGLM3大模型的时候，如果设置这个参数为2048，一旦你请求的上下文长度超过这个数值，
服务会直接抛出如下图的异常。

在这里插入图片描述

二.【min_length】令牌生成最小数

控制生成序列的最小长度，具体使用方式跟max_length类似

三.【repetition_penalty】重复处罚的参数

1.0意味着没有惩罚

四.【temperature】输出答案的创造力发散程度

temperature 介于 0 和 1 之间，用于决定模型输出的 "创造力"。值越高，对相似问题的回答越多样化。
值越低，输出越确定性。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

危险、

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大语言模型应用指南：向模型发起请求的参数

AI天才研究院

05-19

472

1. 背景介绍 1.1 大语言模型的兴起近年来，随着深度学习技术的快速发展，大语言模型（Large Language Model, LLM）逐渐成为人工智能领域的研究热点。LLM 是一种基于深度学习的自然语言处理模型，拥有强大的文本理解和生成能力。其参数规模通常达到数十亿甚至数千亿，能够在海量文本

AI大模型探索之路-训练篇15：大语言模型预训练之全量参数微调

寻道AI，探索AI无限可能！

05-06

8923

在自然语言处理（NLP）领域，预训练模型的应用已经越来越广泛。预训练模型通过大规模的无监督学习，能够捕捉到丰富的语言知识和上下文信息。然而，由于预训练模型通常需要大量的计算资源和时间进行训练，因此在实际使用时，我们往往需要对预训练模型进行微调，以便更好地适应特定的任务需求。本文将介绍全量参数微调的方法，以及如何在实践中进行操作。

参与评论您还未登录，请先登录后发表或查看评论

AI大模型调参魔法师：Temperature参数全解与实战指南

catastrophe_zy的博客

02-13

2522

Temperature（温度参数）是控制AI生成文本随机性的关键参数，取值范围通常为0到1（部分模型支持更高）。低温度（接近0）：AI变身严谨学霸，选择最可能的输出高温度（接近1）：AI化身狂野艺术家，拥抱创造性随机。

大模型生成时的参数设置怎么调整？

zc621_的博客

10-06

1706

在使用大型语言模型（如GPT-3、GPT-4等）进行文本生成时，调整生成参数（Generation Parameters）是优化生成结果质量和多样性的重要手段。设置为True后，生成方法转变为束搜索与多项式采样相结合的解码策略，增加生成内容的多样性和创造性。通过不断实验和优化，您可以找到最适合您任务的参数设置，提升大模型生成内容的质量和效果。建议通过实验和观察生成内容，逐步优化参数设置，以达到最佳效果。通过理解每个参数的作用和调整策略，您可以根据具体任务需求，生成更符合预期的内容。

大模型微调参数说明（2025版）

最新发布

风一样

04-07

1124

Batch Size（批量大小）全局批量大小：所有设备单次处理的样本总数（如分布式训练中多GPU总和）。局部批量大小：单个设备处理的样本数（如梯度累积步数：通过多步前向传播累积梯度，等效扩大全局批量大小（如步数=4时等效批量=局部批量×4）。学习率（Learning Rate, LR）初始学习率：训练起始阶段的学习率，常需搭配warmup策略。峰值学习率：warmup后的最大学习率，通常为1e-5至1e-4。调度策略：余弦衰减（Cosine Decay）、线性衰减等，用于后期稳定收敛。

具有温度系数（Temperature）的Softmax函数

Harry的博客

04-06

5099

softmax 函数是一种激活函数，通常用作神经网络最后一层的输出函数。该函数是两个以上变量的逻辑函数的推广。Softmax 将实数向量作为输入，并将其归一化为概率分布。softmax函数的输出是与输入具有相同维度的向量，每个元素的范围为0到1。并且所有元素的总和等于1。

大白话5分钟带你走进人工智能-第五节解析解方式求解模型参数

L先生AI课堂

12-11

1408

第五节解析解方式求解模型参数第四节中我们讲解了最大似然和最小二乘之间的关系，通过数学原理找到了损失函数为MSE的理论支撑。本节的话我们讲解怎么样基于目标函数为MSE的情况下，找到最合适的参数模型。在此之前，我们总结下通过最大似然估计建立目标函数思...

人工智能之模型评估之参数选择

攻城狮小关的博客

09-13

707

1.模型评估之参数选择 2.来吧，展示 #模型评估之参数选择 #k:1-25 #遍历所有可能的参数组合 #建立相应的model #model训练和预测 #测试数据的准确率计算 #查看最高准确率对应的k值 #遍历所有可能的参数组合 #建立相应的model #model训练和预测 #训练数据的准确率计算 #测试数据准确率计算 3.图形展示准确率训练正确率图形测试正确率图形 4.对新数据进行测试希望能帮到大家，问你...

煤矿安全大模型：微调internlm2模型实现针对煤矿事故和煤矿安全知识的智能问答

丨汀、的博客

07-03

694

煤矿安全大模型：微调internlm2模型实现针对煤矿事故和煤矿安全知识的智能问答

最全的开源 LLM （大语言模型）整理.zip

09-01

在当今快速发展的信息技术领域，人工智能(AI)已经成为一个不可或缺的部分，而自然语言处理(NLP)作为AI的重要分支，其核心技术之一便是大语言模型(LLM)。开源的大语言模型不仅推动了技术的进步，也为企业和个人开发者...

AI大模型探索之路-应用篇17：GLM大模型-大数据自助查询平台架构实践

寻道AI，探索AI无限可能！

04-20

5670

在众多大型企业中，数据资产庞大无比，因此它们纷纷构建了多种大数据平台。然而，关键在于如何高效地利用这些数据，例如，将数据有效地提供给产品经理或数据分析师以供他们进行设计和分析。在传统工作流程中，由于这些角色通常不是技术专家，他们往往无法直接使用和操控SQL，导致必须依赖技术人员来编写SQL查询并返回结果，然后才能由产品经理、数据分析师或其他相关人员进一步处理。

大模型应用之路：从提示词到通用人工智能（AGI）

2401_85377976的博客

07-31

706

对于企业而言，构建一个符合自身业务需求的知识库是至关重要的。通过RAG、微调等技术手段，我们可以将通用的大模型转变为对特定行业有着深度理解的“行业专家”，从而更好地服务于企业的具体业务需求。这样的知识库基本上适用于每个公司各行各业，包括：市场调研知识库、人力资源知识库、项目管理知识库、技术文档知识库、项目流程知识库、招标投标知识库等等。第一、离线的知识数据向量化•加载：通过文档加载器（Document Loaders）加载数据/知识库。•拆分：文本拆分器将大型文档拆分为较小的块。便于向量或和后续检索。

07浅谈大语言模型可调节参数tempreture

记录个人日常所学所思

07-07

1518

浅谈大语言模型输出随机性参数temperature

12个必须了解的AI模型评估指标

新缸中之脑

11-20

4949

构建机器学习模型或深度学习模型的想法遵循建设性反馈原则。你构建一个模型，从指标中获取反馈，进行改进，并继续下去，直到达到理想的分类准确性。评估指标解释了模型的性能。评估指标（evaluation metrics）的一个重要方面是它们区分模型结果的能力。本文解释了作为数据科学专业人士必须了解的 12 个重要评估指标。你将了解它们的用途、优点和缺点，这将帮助你相应地选择和实施它们。

AI大模型知识点大梳理

2301_82275412的博客

05-07

1245

AI大模型是指具有巨大参数量的深度学习模型，通常**包含数十亿甚至数万亿个参数。**这些模型可以通过学习大量的数据来提高预测能力，从而在自然语言处理、计算机视觉、自主驾驶等领域取得重要突破。AI大模型的定义具体可以根据参数规模来分类。≤ 1百万个参数1百万 – 1亿个参数1亿 – 10亿个参数≥ 10亿个参数其中大型模型和极大型模型可以被视为AI大模型。总的来说，2022年11月30日由总部位于旧金山的OpenAI推出ChatGPT3.5。

大模型Llama3常用的参数详解

java之路

08-26

1010

大模型Llama3常用的参数详解，text-generation-webui参数。

【AI大模型】Transformers大模型库（十）：repetition_penalty惩罚系数

人工智能领域博客

06-17

5420

本文先对大语言模型生成参数repetition_penalty进行讲解，希望可以帮助到您。

Django的数据库模型的CharField字段的max_length参数与中文字符数的关系探索(参数max_length的单位是字符个数还是字节数？)

昊虹AI笔记

01-10

1531

Django的数据库模型的CharField字段的max_length参数与中文字符数的关系探索(参数max_length的单位是字符个数还是字节数？)

通过ai大模型训练自己的模型

03-28

### 使用预训练大规模AI模型进行微调以生成定制化模型 #### 预训练与微调的概念预训练是指通过大量的无监督或弱监督数据集，使模型学习到通用的语言特征和语义信息[^1]。这些模型通常基于复杂的神经网络架构，例如Transformer、BERT或GPT系列[^3]。微调则是在预训练的基础上，针对特定任务的需求进一步优化模型参数，从而使模型能够更好地完成目标任务。 #### 微调的主要步骤以下是使用预训练的大规模AI模型进行微调的关键步骤： 1. **加载预训练模型** 加载已有的预训练模型及其权重作为基础。这一步骤确保了模型已经具备了一定程度的语言理解能力和泛化能力。 2. **准备任务专用的数据集** 收集并整理适合目标任务的标注数据集。该数据集应尽可能覆盖目标应用场景中的各种情况，以便提高模型的鲁棒性和准确性[^4]。 3. **设计任务适配层** 根据具体任务需求，在预训练模型之上添加额外的网络层（如分类头、回归层等）。这一部分负责将预训练模型的知识转化为解决特定问题的能力[^5]。 4. **设置超参数** 调整诸如学习率、批量大小、迭代次数等超参数。特别注意的是，在初始阶段可采用较低的学习率或者引入学习率预热策略，帮助模型平稳过渡至新任务环境。 5. **执行微调过程** 利用上述配置好的组件启动训练流程。在此期间，整个模型会依据反向传播算法更新其内部参数，使得它更加契合当前设定的任务条件。 6. **评估与验证性能** 定期保存检查点，并在开发集中测试最新版本的表现指标；必要时返回修改某些环节直至达到预期效果为止[^2]。 7. **部署应用** 当确认满足业务标准之后，则可以导出最终版模型文件用于生产环境中实际运行服务请求。 ```python from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments def fine_tune_model(pretrained_name="bert-base-uncased", num_labels=2): model = AutoModelForSequenceClassification.from_pretrained(pretrained_name, num_labels=num_labels) training_args = TrainingArguments( output_dir="./results", learning_rate=2e-5, per_device_train_batch_size=8, weight_decay=0.01, warmup_steps=500, save_total_limit=2, ) trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, # 替换为您的训练数据集对象 eval_dataset=val_dataset # 替换为您的验证数据集对象 ) trainer.train() ```

AI大模型：启动参数总结整理

一. 【max_length】 令牌生成最大数

二.【min_length】令牌生成最小数

三.【repetition_penalty】 重复处罚的参数

四.【temperature】输出答案的创造力发散程度

一. 【max_length】令牌生成最大数

三.【repetition_penalty】重复处罚的参数