yyt041029-CSDN博客

原创我在sft过程中遇到的困难

原因：对于生成任务，prompt 的开头部分（如系统消息、早期对话）可能不如靠近末尾的部分重要。保留 prompt 的末尾（即最接近生成位置的内容）能让模型更好地理解当前上下文。Tokenizer truncation是文本处理中的一个重要机制，当输入文本的长度超过模型最大处理限制时，系统需要决定保留哪些部分、舍弃哪些部分。Qwen 注意：Qwen 的 tokenizer 默认。（用来定位 response 的起始 token）。存在的时候，Qwen 的默认模板会把。（2）禁用chat_template。

2026-04-08 23:32:07 173

原创算法训练（热150）

主要是记录一下自己的刷题过程，作为一个笔记本吧。写完了75道题了，总体而言还是做起来比较舒服的。

2025-03-12 16:37:45 379

机器学习(V4版).rar

2024-12-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 我在sft过程中遇到的困难

原创 算法训练（热150）

机器学习(V4版).rar

空空如也

原创我在sft过程中遇到的困难

原创算法训练（热150）