Yifan Zhang 透露了DeepSeek V4参数

编辑部 2026-05-04T16:36:17.529303 22683 阅读 tech

Yifan Zhang：本科北大元培、硕士清华姚班，现为普林斯顿大学 AI Lab Fellow，研究方向是大语言模型推理与强化学习这哥们儿不是DeepSeek的员工，但估计和DeepSeek关系挺密切的，之前几次预测都说对了。这次他披露的： V4 1.6T, V4-Lite 285B Atte...

Yifan Zhang：本科北大元培、硕士清华姚班，现为普林斯顿大学 AI Lab Fellow，研究方向是大语言模型推理与强化学习

这哥们儿不是DeepSeek的员工，但估计和DeepSeek关系挺密切的，之前几次预测都说对了。

这次他披露的：
V4 1.6T, V4-Lite 285B
Attention: DSA2 (NSA + DSA),
head-dim 512 Sparse MQA + SWA
MoE: Fused MoE Mega-Kernel with 6 active in 384 experts
Residual: Hyper-Connections
Optimizer: Muon
Pretrain context length: 32K
RL: GRPO with corrected KL
Final Context Length: 1M
Modality: Text only

DeepSeek V4估计发布也快了，到时候验证吧

12 个帖子 - 11 位参与者

阅读完整话题

来源: linux.do查看原文

Yifan Zhang 透露了DeepSeek V4参数

B 社解释为何《辐射 76》仍能吸引新玩家：社区很重要，大家很合作

[生活] 城巴佬——城市中产在消费劳动表演

相关推荐