普林斯顿博士生YifanZhang 透露：DeepSeek V4下周发布，披露三项架构组件！

编辑部 2026-05-04T16:42:19.313647 23808 阅读 tech

普林斯顿博士生 Yifan Zhang 透露，中国 AI 公司 DeepSeek（深度求索）的下一代旗舰 V4 将在下周发布；他在跟帖里列出三项架构组件：稀疏 MQA（Sparse Multi-Query Attention）、融合 MoE 大核（Fused MoE Mega Kernel）、Hyp...

普林斯顿博士生YifanZhang 透露：DeepSeek V4下周发布，披露三项架构组件！

普林斯顿博士生 Yifan Zhang 透露，中国 AI 公司 DeepSeek（深度求索）的下一代旗舰 V4 将在下周发布；他在跟帖里列出三项架构组件：稀疏 MQA（Sparse Multi-Query Attention）、融合 MoE 大核（Fused MoE Mega Kernel）、Hyper-Connections。

Zhang 本科北大元培、硕士清华姚班
现为普林斯顿 AI Lab Fellow
曾在字节跳动 Seed 基础模型团队任研究实习生
目前不在 DeepSeek 任职，DeepSeek 官方也未就发布时间表作出确认。

三项组件各对应 LLM 优化里的一条独立方向。稀疏 MQA 是在多查询注意力基础上引入稀疏性，用于在长上下文场景进一步压低推理算力和显存占用；融合 MoE 大核把 MoE 的路由判断与专家矩阵乘法编进同一个 GPU kernel，砍掉推理阶段大量 kernel 启动和显存搬运开销；Hyper-Connections 是对残差连接的泛化，用多条可学习加权通路替代单一残差加法。

25 个帖子 - 19 位参与者

阅读完整话题

来源: linux.do查看原文

普林斯顿博士生 YifanZhang 透露 DeepSeek 一个帖子使用

普林斯顿博士生YifanZhang 透露：DeepSeek V4下周发布，披露三项架构组件！

[生活] 城巴佬——城市中产在消费劳动表演

[分享发现] 现在这个形势，推荐备一个 CMHK 的流量卡

相关推荐