Answer.AI开启家用70亿参数模型训练新篇章

最新推荐文章于 2024-10-04 22:36:54 发布

XianxinMao

最新推荐文章于 2024-10-04 22:36:54 发布

阅读量623

点赞数 9

文章标签：人工智能语言模型 transformer 自然语言处理深度学习

本文链接：https://blog.csdn.net/xianxinmao/article/details/136791774

版权

Answer.AI开启家用70亿参数模型训练新篇章

摘要

2024年3月6日，Answer.AI推出首个项目：一套开源系统，首次实现在家用台式机上，仅需两块标准游戏GPU（RTX 3090或4090），高效训练70亿大型语言模型。此系统结合了FSDP和QLoRA技术，由Answer.AI、Tim Dettmers（华盛顿大学）和Hugging Face的Titus von Koeller及Sourab Mangrulkar合作开发。此系统旨在帮助开源社区发布更优秀的模型。

背景

在深度学习模型训练领域，通常使用的有数据中心级硬件（如H100s和A100s），其成本达数十万美元；与之相对的是，装有游戏GPU的桌面计算机（如双4090），成本不足1万美元。数据中心GPU与游戏GPU性能相似，但前者价格昂贵且功耗巨大。Answer.AI旨在寻找利用游戏GPU训练大型语言模型的方法，以降低训练成本，提高可访问性。