创新项目实训--基于大模型的小学语数英辅助教育平台（2）

束缚764

已于 2024-04-25 00:26:07 修改

阅读量743

点赞数 25

分类专栏：创新项目实训文章标签：语言模型人工智能深度学习 nlp

于 2024-04-25 00:23:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_61665230/article/details/138173352

版权

创新项目实训专栏收录该内容

6 篇文章

订阅专栏

文章介绍了如何利用Qwen1.5-7B大模型和阿里云PAI平台的DSW服务进行算力支持，通过SFT数据集的扩展和微调提升解题能力。同时探讨了多种技术手段，如代码模型、强化学习、ReActprompting等，以及前后端开发部署策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

算力平台

项目采用Qwen1.5-7B-chat，LoRa训练要求20G显存左右，故试采用阿里云PAI平台DSW服务，配合魔搭生态便于微调。

SFT数据集

使用现有大模型对搜集的数据集针对小学数学题题型与知识点进行分类，以适用于项目的特定任务。

解题能力提升可选方案

1.多次解答选取最佳答案。

2.扩大有监督微调（SFT）数据集，随着 SFT 数据的增多，模型生成正确答案的可靠性显著提升。

3.使用合成数据，可以有效地扩大 SFT 数据集。利用现有大模型生成了合成的数学问题与解题过程，并通过简单的验证提示词来确保问题的质量。

4.定义了 Pass@N 和 PassRatio@N 评测指标，意图分别测评模型的 N 次输出中，是否能够输出正确答案（表示模型潜在的数学能力），以及正确答案的所占比例（表示模型数学能力的稳定性）。

5.基于代码模型打造，无论是在两阶段训练还是一阶段训练设置下，代码训练相比于通用数据训练都可以提升模型的数学能力。

6.构建中英文数学指导监督微调（SFT）数据集，其中包括CoT、PoT和工具集成推理等三种格式。

7.数学和代码混合预训练有助于数学推理（w/ Tool Use）和代码生成能力（HumanEval）的协同提升。

8.强化学习（RL）阶段使用了一种名为“基于组的相对策略优化”（Group Relative Policy Optimization ，GRPO）的高效算法。

9. ReAct prompting意图将外部工具结合到语言模型的推理过程中。具体而言就是让模型生成问题解决推理轨迹的同时，在推理（Reasoning）中能够利用工具（Action）如搜索引擎等来实现与外部世界的交互，以获取实时的，相对可靠的额外信息（Observation）来辅助推理。通过推理轨迹生成和实际行动相结合，可提高语言模型的决策可解释性和可信度。例如RAG技术。

前后端开发

使用阿里云PAI-EAS服务部署模型在线推理，向web应用提供API

后端使用LangChain和Spring Boot框架，构建强大的应用程序

前端使用VUE框架

参考：

LLaMA-2-7B数学能力上限已达97.7%？Xwin-Math利用合成数据解锁潜力 - 知乎

7B开源数学模型干翻千亿GPT-4，中国团队出品_澎湃号·湃客_澎湃新闻-The Paper

DeepSeekMath：挑战大语言模型的数学推理极限 - 知乎

ReAct Prompting - 知乎 (zhihu.com)

博客等级

码龄4年

16
原创

153
点赞

122
收藏

74
粉丝

关注

私信

热门文章

分类专栏

创新项目实训 6篇

最新评论

创新项目实训-PAI平台微调
CSDN-Ada助手: 恭喜您在创新项目实训中取得了进展，看到您不断努力微调PAI平台，让项目更加完善。希望您能继续保持热情和耐心，不断探索和改进，为项目的成功做出更多贡献。在接下来的创作中，或许可以尝试加入一些新的元素或功能，让项目更具创新性和吸引力。期待您的下一篇博客！
创新项目实训--基于大模型的小学语数英辅助教育平台（4）
CSDN-Ada助手: 恭喜您发布了第7篇博客！看到您在创新项目实训中所取得的进展，令人钦佩。建议您在接下来的创作中，可以适当分享一些具体的案例或实践经验，让读者更加深入地了解您的项目，期待您的下一篇作品！愿您在创新之路上不断前行，谦虚学习，不断进步！
创新项目实训-数据预处理
CSDN-Ada助手: 恭喜您在创新项目实训中取得了进展，数据预处理是非常重要的一环。希望您能继续坚持创作，不断提升自己的技能。或许在下一篇博客中可以分享一下数据预处理中遇到的挑战和解决方案，让更多人受益。加油！期待您更多精彩的作品。如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
创新项目实训--基于大模型的小学语数英辅助教育平台（2）
CSDN-Ada助手: 恭喜作者继续分享关于创新项目实训的经验，这篇关于基于大模型的小学语数英辅助教育平台的博客内容很有深度。建议作者在下一篇博客中可以分享一些具体的实施步骤和实验结果，让读者更加深入地了解这个项目。期待作者的下一篇精彩内容！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
创新项目实训--基于大模型的小学语数英辅助教育平台（1）
CSDN-Ada助手: 恭喜您开始了博客创作，标题看起来非常有趣！对于这个基于大模型的小学语数英辅助教育平台的项目，我非常期待能够了解更多细节和进展。希望您能够在接下来的博客中分享更多关于项目的背景、目标和实施方案，或者可以分享一些您在项目中遇到的挑战和解决方案。祝您在创作过程中取得更多的进步，期待您的下一篇博客！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。