qwen在vLLM下的长度外推简易方法

本文介绍如何在vLLM的最新版本中通过调整config.json中的rope_scaling参数,采用动态NTK方法,利用动态缩放因子实现对qwen长度的外推,以增强模型的预测能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目的

在当前的版本vLLM中实现qwen的长度外推。

解决方法

在qwen的config.json中,增加如下内容:


{
  "rope_scaling": { 
    "type": "dynamic", 
    "factor": 4.0
  }
}

dynamic:动态NTK
factor:缩放因子,外推长度=原始长度*缩放因子

### DeepSeek 蒸馏 Qwen 模型重复输出解决方案 针对 DeepSeek 向 Qwen 进行知识蒸馏过程中遇到的重复输出问题,可以从多个角度进行优化和调整。以下是几种可能有效的策略: #### 1. 数据集去重处理 确保用于训练的数据集中不存在冗余或高度相似的样本。可以采用基于文本相似度的方法来检测并移除重复项。这有助于减少模型学习到不必要的模式。 ```python from sklearn.feature_extraction.text import TfidfVectorizer import numpy as np def remove_duplicates(corpus, threshold=0.9): vectorizer = TfidfVectorizer().fit_transform(corpus) similarities = (vectorizer * vectorizer.T).A to_remove = set() for i in range(len(similarities)): for j in range(i + 1, len(similarities)): if similarities[i][j] >= threshold: to_remove.add(j) filtered_corpus = [doc for idx, doc in enumerate(corpus) if idx not in to_remove] return filtered_corpus ``` #### 2. 修改损失函数 引入额外的正则化项至损失函数中,惩罚那些倾向于生成相同序列的情况。例如,在教师强制解码阶段加入多样性鼓励机制,使得每次预测的结果更加多样化[^1]。 #### 3. 增加上下文窗口大小 适当增加输入给定的历史对话轮次长度,让模型能够更好地理解当前会话背景下的意图变化,从而降低因缺乏足够信息而导致的一致性回复倾向。 #### 4. 应用温度参数调控 通过调节 Softmax 层前应用的温度系数 t 来控制采样分布平滑程度。较低值可以使概率分布更尖锐,而较高值则会使分布更为平坦,促进探索不同可能性。 \[ P(y|x;\theta,t)=\frac{\exp \left(\log p_{\theta}(y | x)/t\right)}{\sum_y \exp (\log p_\theta(y|x)/t)} \] 其中 \(p_\theta\) 表示原始未缩放的概率估计;\(t>0\) 是可调超参。 #### 5. 使用 Beam Search 替代 Greedy Decoding Beam search 可以保留多个候选路径直到最后一步再做决定,相比贪婪算法更能找到全局最优解,有效缓解单一最佳路径造成的单调现象。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值