text-generation-webui 笔记

聊天参数

最大新令牌数 max_new_tokens

给定的提示令牌数量意味着在不忽略它们的情况下要生成的最大令牌数量。

简单来说,就是答案的长度。

最大提示大小(以标记为单位)

用于提示的最大令牌数。

简单来说,就是模型的记忆。除非有特殊情况,建议设置为最大值。

温度temperature

控制文本生成多样性的值。 

值越高,答案越有创意,但越有可能说的是废话或八卦。

相反,较低的值会给出较少的乐趣和僵硬的答案,但模型更加诚实。

top_p

用于生成文本的单词的概率。

在0状态下,没有限制,不对应概率等于或大于0的单词被排除。

较低的值会给出意想不到的答案,而较高的值会给出更可预测的答案。

例如)“喂?” 发送聊天内容时的情况

top_p 0.7 = 仅给出正确答案概率超过 70% 的答案。

AI 的预期答案列表: 1. 是 (50%) 2. 你好 (60%) 3. 你好! (90%) 4. 你多大了 (10%)

3.嗨!(90%)输出

= 你:喂?机器人:你好!

前k个

用于生成文本的字数。

在0状态下,没有限制,并且在正数的情况下,使用该数量的文本候选词。

top_k 的数量越多,候选词的数量越多,可能会出现更多意想不到的答案。

typical_p典型_p

如果top_p的值大于0,则文本生成的概率会随着答案的累积与top_p的值成比例地调整。

当typical_p的值为0时,top_p的值是固定的。

简而言之,它决定了你的答案的上下文的一致性。

typical_p 的低值与一条评论一致。

另一方面,如果它很高,答案可能会有点乱码,但它也可以给出更有趣的答案。

repetiton_penalty重复惩罚

这个数字是为了防止重复答案。

当值为1时,不进行抑制,且值大于1时,抑制越多

它增加了语言模型不会重复相同单词的概率。

简而言之,这个数字越高,语言模型就越有可能避免像习惯一样经常使用某些单词。

较高的值会增加表达的多样性。

encoder_repetiton_penalty编码器重复惩罚

encoder_repetiton_penalty 是一个调整提示中单词出现概率的值。

当该值为1时,不应用,当该值大于1时,提示中单词出现的概率降低。

这一特性可以防止语言模型的自主性过于依赖提示,降低对话的自然度 。

no_repeat_ngram_size

防止 ngram 文本中出现重复短语的值。

当为零时,不应用它;当为正值时,它防止 ngram 中的重复。

与repetition_penalty的作用类似,但有所不同。

repetition_penalty只是降低了单词重复的概率,因此它们可能会再次重复。

然而 ,这会阻止文本生成本身重复某些单词。

n gram 表示答案中连续出现的 n 个单词。

例如,值 0  可能会导致类似“我爱你,我爱你,我爱你”的响应。

现在,如果该值为 1,我们将永远不会在答案中重复相同的单词。

“我爱你,你也爱我,我也喜欢你。”

较高的值允许答案的词汇发生变化。

但你可以胡言乱语,只是为了找到不会重复的词。

最小长度

文本生成的最小标记数。

简单来说,它设置了答案的最小长度。值越高,语言模型给出简短答案的可能性就越小。

例如,如果该值为 5,则语言模型将始终给出至少 5 个单词的答案。

Instruction template

Instruction template

聊天模式的指令模版

  • 聊天模式的精确指令模板,包括 Llama 2、Alpaca、Vicuna、WizardLM、StableLM 等
  • Alpaca是由斯坦福大学开发的大语言模型。 它是在LLaMA-7B的基础上精调得到的,使用了5万多条由GPT 3.5生成的样本数据。 由于是LLaMA-7B的衍生模型,作者给它起名字为Alpaca——羊驼(曾经的中文互联网网红)。 按照GPT的一生中的分类,Alpaca属于第二阶段模型,同阶段的模型还有Vicuna
  • Llama 2是Meta开发的大型语言模型
  • Vicuna是由UC Berkeley大学主导开发的,精调过程中使用了大量用户分享的ShareGPT对话数据
  • WizardLM 是由Can Xu 等人在2023 年4 月提出的一个能够根据复杂指令生成文本的大型语言模型。 它使用了一个名为Evol-Instruct 的算法来生成和改写指令数据,从而提高了指令的复杂度和多样性。 WizardLM 共有三个版本:7B、13B 和30B
  • Stability AI宣布推出新的開源大型語言模型「StableLM

Session

基本设置

旗帜

描述

-h

,

--help

显示此帮助消息并退出。

--notebook

在笔记本模式下启动 Web UI,其中输出将写入与输入相同的文本框。

--chat

以聊天模式启动 Web UI。

--multi-user

多用户模式。

聊天历史记录不会保存或自动加载。

警告:这是高度实验性的。

--character CHARACTER

默认情况下在聊天模式下加载的角色名称。

--model MODEL

默认加载的模型的名称。

--lora LORA [LORA ...]

要加载的 LoRA 列表。

如果要加载多个 LoRA,请以空格分隔名称。

--model-dir MODEL_DIR

包含所有模型的目录路径。

--lora-dir LORA_DIR

包含所有 loras 的目录路径。

--model-menu

首次启动 Web UI 时在终端中显示模型菜单。

--no-stream

不要实时流式传输文本输出。

--settings SETTINGS_FILE

从此 yaml 文件加载默认接口设置。

settings-template.yaml

参阅示例。

如果您创建一个名为 的文件

settings.yaml

,则默认情况下将加载该文件,而无需使用该

--settings

标志。

--extensions EXTENSIONS [EXTENSIONS ...]

要加载的扩展列表。

如果要加载多个扩展,请用空格分隔名称。

--verbose

将提示打印到终端。

--listen

使 Web UI 可从您的本地网络访问。

--listen-host LISTEN_HOST

服务器将使用的主机名。

--listen-port LISTEN_PORT

服务器将使用的侦听端口。

--share

创建公共 URL。

这对于在 Google Colab 或类似平台上运行 Web UI 非常有用。

--auto-launch

启动后在默认浏览器中打开 Web UI。

--gradio-auth USER:PWD

设置 gradio 身份验证,例如“用户名:密码”;

或逗号分隔多个,如“u1:p1,u2:p2,u3:p3”

--gradio-auth-path GRADIO_AUTH_PATH

设置gradio认证文件路径。

该文件应包含一个或多个用户:密码对,格式如下:“u1:p1,u2:p2,u3:p3”

--api

启用 API 扩展。

--public-api

使用 Cloudfare 为 API 创建公共 URL。

--api-blocking-port BLOCKING_PORT

阻塞 API 的监听端口。

--api-streaming-port STREAMING_PORT

流API的监听端口。

--deepspeed

通过 Transformers 集成启用 DeepSpeed ZeRO-3 进行推理。

--nvme-offload-dir NVME_OFFLOAD_DIR

DeepSpeed:用于 ZeRO-3 NVME 卸载的目录。

--local_rank LOCAL_RANK

DeepSpeed:分布式设置的可选参数。

LLaMa 的 GPTQ

旗帜

描述

--wbits WBITS

加载具有指定精度(以位为单位)的预量化模型。

支持 2、3、4 和 8。

--model_type MODEL_TYPE

预量化模型的模型类型。

目前支持 LLaMA、OPT 和 GPT-J。

--groupsize GROUPSIZE

团体规模。

--pre_layer PRE_LAYER [PRE_LAYER ...]

分配给 GPU 的层数。

设置此参数可以启用 4 位型号的 CPU 卸载。

对于多 GPU,请写入以空格分隔的数字,例如

--pre_layer 30 60

--checkpoint CHECKPOINT

量化检查点文件的路径。

如果不指定,则会自动检测。

--monkey-patch

应用猴子补丁以将 LoRA 与量化模型结合使用。

--quant_attn

(triton) 启用定量注意力。

--warmup_autotune

(triton) 启用预热自动调谐。

--fused_mlp

(triton) 启用融合 MLP。

加速器/变压器

旗帜

描述

--cpu

使用CPU生成文本。

警告:CPU 训练速度非常慢。

--auto-devices

自动将模型拆分到可用的 GPU 和 CPU 上。

--gpu-memory GPU_MEMORY [GPU_MEMORY ...]

每个 GPU 分配的最大 GPU 内存(以 GiB 为单位)。

示例:

--gpu-memory 10

对于单个 GPU,

--gpu-memory 10 5

对于两个 GPU。

您还可以在 MiB 中设置值,例如

--gpu-memory 3500MiB

.

--cpu-memory CPU_MEMORY

为卸载权重分配的最大 CPU 内存(以 GiB 为单位)。

与上面相同。

--disk

如果模型对于 GPU 和 CPU 的组合来说太大,请将剩余层发送到磁盘。

--disk-cache-dir DISK_CACHE_DIR

保存磁盘缓存的目录。

默认为

cache/

.

--load-in-8bit

以 8 位精度加载模型(使用位和字节)。

--bf16

以 bfloat16 精度加载模型。

需要 NVIDIA Ampere GPU。

--no-cache

use_cache

生成文本时

设置为 False。

这会稍微减少 VRAM 的使用,但会降低性能。

--xformers

使用 xformer 的记忆高效注意力。

这应该会增加您的代币。

--sdp-attention

使用torch 2.0的sdp注意力。

--trust-remote-code

加载模型时设置 trust_remote_code=True。

ChatGLM 和 Falcon 所必需的。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值