我去,DeepSeekv4 真的发布了

DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求 1 个帖子 - 1 位参与者 阅读完整话题...
我去,DeepSeekv4 真的发布了
我去,DeepSeekv4 真的发布了

DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attention),实现了全球领先的长上下文能力,并且相比于传统方法大幅降低了对计算和显存的需求

1000007443.png
1000007442.png
1000007444.png

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文