最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降

DeepSeek V4 终于发布了,带来了 1M 上下文,代码能力明显提升,推理进入第一梯队,但知识类能力仍落后于头部闭源模型。 最重要的是:「DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attentio...
最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降
最强开源模型 DeepSeek V4 发布,1M上下文,运行成本大降

DeepSeek V4 终于发布了,带来了 1M 上下文,代码能力明显提升,推理进入第一梯队,但知识类能力仍落后于头部闭源模型。 最重要的是:「DeepSeek-V4 开创了一种全新的注意力机制,在 token 维度进行压缩,结合 DSA 稀疏注意力(DeepSeek Sparse Attentio

来源: feeds.appinn.com查看原文