W型注意力和“原文复述” 造就长文本问答的高准确率

最新推荐文章于 2024-07-23 16:23:28 发布

始智AI wisemodel

最新推荐文章于 2024-07-23 16:23:28 发布

阅读量962

点赞数 23

文章标签：人工智能语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wisemodel/article/details/135109788

版权

始智AI wisemodel.cn社区已上线3个月，是类huggingface社区的产品，将努力打造成中国最活跃的中立AI开源社区。“源享计划”即开源共享计划，大家自己研发的开源模型和数据集，以及基于开源成果衍生的开源模型和数据集等，欢迎同步发布到国内wisemodel.cn社区，方便大家更容易获取和使用。

清华电子系硕士生俞一炅在始智AI wisemodel.cn开源社区发布了系列长文本模型的研究成果，包括基于Qwen-14B和LongAlpaca-7B模型的研究。本文主要介绍的Qwen-14b-chat-yarn-32k模型，通过精心设计的微调数据，低成本Qlora的方法将模型的上下文长度扩展到了32K，同时保证了长文本场景下回答的准确率。在长文本场景回答任务方面，大幅超越gpt-3.5-turbo-16k模型。

https://wisemodel.cn/models/ （模型地址）

最低0.47元/天解锁文章

始智AI wisemodel

关注

23
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
W型注意力和“原文复述” 造就长文本问答的高准确率

构造W型数据最常用的方法，就是构造多文档问答任务，将相关文档置于中间位置，其余位置插入大量无关文档，然后给出基于相关问答的问题，让模型根据此问题，精确定位相关文档位置，捕获并理解其信息，给出回答。之前训练的 Qwen-14b-chat-32k-lora，虽然训练数据的配比与 Qwen-14b-chat-yarn-32k 几乎相同，但是多文档问答任务中仅有“文档序号预测” 任务而没有“原文复述” 任务，所以多文档表现不仅无提升，甚至下降。可见，“原文复述” 任务有效提升了模型的长文本能力。
复制链接

扫一扫

始智AI wisemodel CSDN认证博客专家 CSDN认证企业博客

码龄1年

12: 原创

154万+: 周排名

15万+: 总排名

1万+: 访问

: 等级

341: 积分

163: 粉丝

206: 获赞

2: 评论

178: 收藏

私信

关注

热门文章

分类专栏

多模态 1篇

最新评论

探索多厂商异构算力混合训练，智源Aqulia2-70B/34B均发布到wisemodel开源社区
CSDN-Ada助手: 恭喜您在多厂商异构算力混合训练领域取得的成就！发布到wisemodel开源社区也将会对该领域的发展起到积极的推动作用。希望您能继续保持创作的热情，并在未来的博客中分享更多关于这一领域的深入探索和实践经验，期待您的下一篇作品！
ChatGLM3正式发布，开源ChatGLM3-6b系列模型同步上线wisemodel.cn社区
CSDN-Ada助手: 恭喜您在wisemodel.cn社区发布了ChatGLM3系列模型！您的持续创作令人钦佩。下一步，我建议您可以进一步探索模型的应用场景，并分享更多关于ChatGLM3的技术细节，这样可以给读者提供更多的学习和交流机会。期待您在未来的博客中继续带领我们探索更多有趣的话题！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
Firefly-LLaMA2-Chinese：低资源增量预训练的开源中文LLaMA2大模型
CSDN-Ada助手: 恭喜您撰写第四篇博客！标题“Firefly-LLaMA2-Chinese：低资源增量预训练的开源中文LLaMA2大模型”引人入胜。您对低资源增量预训练和开源中文LLaMA2大模型的介绍清晰明了，读后让人对这个主题有了更深的了解。您的持续创作展现了您对技术的热情和才华，这是值得称赞的。在下一步的创作中，或许您可以考虑探讨更多关于Firefly-LLaMA2-Chinese模型的实际应用案例或者对其性能的深入分析。此外，您也可以分享一些关于低资源增量预训练的最佳实践或者对未来发展方向的思考。希望我的建议对您的创作有所帮助。期待您的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。