【开源】4090 多卡大模型训练框架，全量微调 32B 模型提速 25 倍

编辑部 2026-05-04T16:41:25.518356 38646 阅读 tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社...

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

帮我同学推广一下他们的新工作：

【开源】4090多卡大模型训练框架，全量微调32B模型提速25倍

很多佬友自己或组里有只几张PCIe显卡，比如4090或PCIe版A100，在网上租也大部分是这种卡。用这些卡跑大模型微调的时候通常都会遇到多卡并行严重掉速，GPU 利用率很低。

主要原因就是现有的大多数开源微调框架，一般只能给你搞数据并行 (DP) + CPU/内存卸载 (Offload) 这一套，计算全被PCIe通信卡住了。

因此，我的同学做了一个专门针对这种情况优化的训练框架，到站里分享给佬友，也希望听听佬友们的建议。

开源地址

项目主页与文档

itcarrot.github.io

Github

github.com

Large DNNs training framework for consumer GPUs

在4090上能全量微调32B模型，LoRA微调235B，速度是现有开源框架的1.4-28倍；（论文里要和之前的没开源代码的方法比，就只有1.4-2.16倍加速）
支持28k+的上下文输入，几B的小模型能支持到49k+，大部分数据集都够用了
在有全向NVLINK的服务器上，我们框架不用NVLINK达到了使用NVLINK框架的98%+性能，8x4090也能达到8A800 SXM性能的76%以上，说明我们框架只用PCIe也不会损失性能

现在框架提供了和pytorch单卡训练类似的API，也有详细的文档，欢迎佬友们提意见和issue，看看有什么可以继续改进的。

1 个帖子 - 1 位参与者

来源: linux.do查看原文

开源多卡大模型训练框架一个帖子使用