两张nvdia 4090本地大模型分析

RTX 4090 本身是 PCIe 4.0 x16 设备 ,也就是显卡接口规格支持: PCIe 4.0 x16 对应理论单向带宽约: PCIe 4.0 x16 ≈ 31.5 GB/s PCIe 4.0 x8 ≈ 15.75 GB/s 项目 带宽 PCIe 4.0 x16 约 31.5 GB/s 单向...
两张nvdia 4090本地大模型分析
两张nvdia 4090本地大模型分析

RTX 4090 本身是 PCIe 4.0 x16 设备,也就是显卡接口规格支持:

PCIe 4.0 x16

对应理论单向带宽约:

PCIe 4.0 x16 ≈ 31.5 GB/s
PCIe 4.0 x8  ≈ 15.75 GB/s
项目 带宽 PCIe 4.0 x1631.5 GB/s 单向,约 63 GB/s 双向合计 CPU/主板 ↔ GPU 之间的数据通道 PCIe 4.0 x815.75 GB/s 单向,约 31.5 GB/s 双向合计4090 在消费级平台上常见状态 RTX 4090 显存带宽1008 GB/s 4090 GPU 核心 ↔ 自己的 24GB GDDR6X 显存 M4 Max 32 核 GPU版 410 GB/s Apple 统一内存带宽 M4 Max 40 核 GPU版 546 GB/s Apple 统一内存带宽

pcie性能太差,通过pcie连接两张4090部署一张卡里装不下的模型,性能会很差。不如两张卡部署两个互补模型独立工作,或者多卡为了多人高并发。

3 个帖子 - 3 位参与者

阅读完整话题

来源: linux.do查看原文