W型注意力和“原文复述” 造就长文本问答的高准确率

始智AI wisemodel.cn社区已上线3个月,是类huggingface社区的产品,将努力打造成中国最活跃的中立AI开源社区。“源享计划”即开源共享计划,大家自己研发的开源模型和数据集,以及基于开源成果衍生的开源模型和数据集等,欢迎同步发布到国内wisemodel.cn社区,方便大家更容易获取和使用。


清华电子系硕士生俞一炅在始智AI wisemodel.cn开源社区发布了系列长文本模型的研究成果,包括基于Qwen-14B和LongAlpaca-7B模型的研究。本文主要介绍的Qwen-14b-chat-yarn-32k模型,通过精心设计的微调数据,低成本Qlora的方法将模型的上下文长度扩展到了32K,同时保证了长文本场景下回答的准确率。在长文本场景回答任务方面,大幅超越gpt-3.5-turbo-16k模型。

图片

https://wisemodel.cn/models/ (模型地址)

  • 23
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值