AI大模型:启动参数总结整理

虽然通过调整启动大模型的参数,对生成效果的提升是有限的,但适当的调整,还是能满足一些常用的场景的~

一. 【max_length】 令牌生成最大数

用于控制生成文本的最大长度,默认为 20。它的值对应于输入提示的长度加上max_new_tokens。
如果同时设置了max_new_tokens,则它的效果将被覆盖。
例如,在使用ChatGLM3大模型的时候,如果设置这个参数为2048,一旦你请求的上下文长度超过这个数值,
服务会直接抛出如下图的异常。

在这里插入图片描述

二.【min_length】令牌生成最小数

控制生成序列的最小长度,具体使用方式跟max_length类似

三.【repetition_penalty】 重复处罚的参数

1.0意味着没有惩罚

四.【temperature】输出答案的创造力发散程度

temperature 介于 0 和 1 之间,用于决定模型输出的 "创造力"。值越高,对相似问题的回答越多样化。
值越低,输出越确定性。
### 使用预训练大规模AI模型进行微调以生成定制化模型 #### 预训练与微调的概念 预训练是指通过大量的无监督或弱监督数据集,使模型学习到通用的语言特征和语义信息[^1]。这些模型通常基于复杂的神经网络架构,例如Transformer、BERT或GPT系列[^3]。微调则是在预训练的基础上,针对特定任务的需求进一步优化模型参数,从而使模型能够更好地完成目标任务。 #### 微调的主要步骤 以下是使用预训练的大规模AI模型进行微调的关键步骤: 1. **加载预训练模型** 加载已有的预训练模型及其权重作为基础。这一步骤确保了模型已经具备了一定程度的语言理解能力和泛化能力。 2. **准备任务专用的数据集** 收集并整理适合目标任务的标注数据集。该数据集应尽可能覆盖目标应用场景中的各种情况,以便提高模型的鲁棒性和准确性[^4]。 3. **设计任务适配层** 根据具体任务需求,在预训练模型之上添加额外的网络层(如分类头、回归层等)。这一部分负责将预训练模型的知识转化为解决特定问题的能力[^5]。 4. **设置超参数** 调整诸如学习率、批量大小、迭代次数等超参数。特别注意的是,在初始阶段可采用较低的学习率或者引入学习率预热策略,帮助模型平稳过渡至新任务环境。 5. **执行微调过程** 利用上述配置好的组件启动训练流程。在此期间,整个模型会依据反向传播算法更新其内部参数,使得它更加契合当前设定的任务条件。 6. **评估与验证性能** 定期保存检查点,并在开发集中测试最新版本的表现指标;必要时返回修改某些环节直至达到预期效果为止[^2]。 7. **部署应用** 当确认满足业务标准之后,则可以导出最终版模型文件用于生产环境中实际运行服务请求。 ```python from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments def fine_tune_model(pretrained_name="bert-base-uncased", num_labels=2): model = AutoModelForSequenceClassification.from_pretrained(pretrained_name, num_labels=num_labels) training_args = TrainingArguments( output_dir="./results", learning_rate=2e-5, per_device_train_batch_size=8, weight_decay=0.01, warmup_steps=500, save_total_limit=2, ) trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, # 替换为您的训练数据集对象 eval_dataset=val_dataset # 替换为您的验证数据集对象 ) trainer.train() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值