马蜂窝自研旅游行业大模型
我们构建了专业的旅行评测数据集,下图表中是各个模型在该评测数据集上的得分均值,其中DeepSeek-R1-Distill-Qwen-32B模型为我们的base模型,mfw-32B-sft-lora为LoRA方式微调后的模型,mfw-32B-sft-ft为全参微调后的模型。后续准备尝试对抗学习,在训练过程中设立一个提问模型、一个回答模型(即我们的应用模型)、一个奖励模型,提问模型专注于生成较为全面或者深入的旅行问题,回答模型专注于解决提问模型提出的旅行问题,而奖励模型针对表现进行打分反馈。




