- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
帮我同学推广一下他们的新工作:
【开源】4090多卡大模型训练框架,全量微调32B模型提速25倍
很多佬友自己或组里有只几张PCIe显卡,比如4090或PCIe版A100,在网上租也大部分是这种卡。用这些卡跑大模型微调的时候通常都会遇到多卡并行严重掉速,GPU 利用率很低。
主要原因就是现有的大多数开源微调框架,一般只能给你搞 数据并行 (DP) + CPU/内存卸载 (Offload) 这一套,计算全被PCIe通信卡住了。
因此,我的同学做了一个专门针对这种情况优化的训练框架,到站里分享给佬友,也希望听听佬友们的建议。
开源地址
项目主页与文档
主页 - RoundPipe
Github
github.com
GitHub - ITcarrot/RoundPipe: Large DNNs training framework for consumer GPUs
Large DNNs training framework for consumer GPUs
性能情况
- 在4090上能全量微调32B模型,LoRA微调235B,速度是现有开源框架的1.4-28倍;(论文里要和之前的没开源代码的方法比,就只有1.4-2.16倍加速)
- 支持28k+的上下文输入,几B的小模型能支持到49k+,大部分数据集都够用了
- 在有全向NVLINK的服务器上,我们框架不用NVLINK达到了使用NVLINK框架的98%+性能,8x4090也能达到8A800 SXM性能的76%以上,说明我们框架只用PCIe也不会损失性能
现在框架提供了和pytorch单卡训练类似的API,也有详细的文档,欢迎佬友们提意见和issue,看看有什么可以继续改进的。
1 个帖子 - 1 位参与者