【开源】4090 多卡大模型训练框架,全量微调 32B 模型提速 25 倍

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社...
【开源】4090 多卡大模型训练框架,全量微调 32B 模型提速 25 倍
【开源】4090 多卡大模型训练框架,全量微调 32B 模型提速 25 倍
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


帮我同学推广一下他们的新工作:

开源】4090多卡大模型训练框架,全量微调32B模型提速25倍

很多佬友自己或组里有只几张PCIe显卡,比如4090或PCIe版A100,在网上租也大部分是这种卡。用这些卡跑大模型微调的时候通常都会遇到多卡并行严重掉速,GPU 利用率很低。

主要原因就是现有的大多数开源微调框架,一般只能给你搞 数据并行 (DP) + CPU/内存卸载 (Offload) 这一套,计算全被PCIe通信卡住了。

因此,我的同学做了一个专门针对这种情况优化的训练框架,到站里分享给佬友,也希望听听佬友们的建议。

开源地址

项目主页与文档

itcarrot.github.io

主页 - RoundPipe

Github

github.com

GitHub - ITcarrot/RoundPipe: Large DNNs training framework for consumer GPUs

Large DNNs training framework for consumer GPUs

性能情况

  1. 在4090上能全量微调32B模型,LoRA微调235B,速度是现有开源框架的1.4-28倍;(论文里要和之前的没开源代码的方法比,就只有1.4-2.16倍加速)
  2. 支持28k+的上下文输入,几B的小模型能支持到49k+,大部分数据集都够用了
  3. 在有全向NVLINK的服务器上,我们框架不用NVLINK达到了使用NVLINK框架的98%+性能,8x4090也能达到8A800 SXM性能的76%以上,说明我们框架只用PCIe也不会损失性能

现在框架提供了和pytorch单卡训练类似的API,也有详细的文档,欢迎佬友们提意见和issue,看看有什么可以继续改进的。

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文