- 博客(2)
- 收藏
- 关注
原创 我在sft过程中遇到的困难
原因:对于生成任务,prompt 的开头部分(如系统消息、早期对话)可能不如靠近末尾的部分重要。保留 prompt 的末尾(即最接近生成位置的内容)能让模型更好地理解当前上下文。Tokenizer truncation是文本处理中的一个重要机制,当输入文本的长度超过模型最大处理限制时,系统需要决定保留哪些部分、舍弃哪些部分。Qwen 注意:Qwen 的 tokenizer 默认。(用来定位 response 的起始 token)。存在的时候,Qwen 的默认模板会把。(2)禁用chat_template。
2026-04-08 23:32:07
173
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅