DeepSeek V4 非专业解读

从 DeepSeek V4 个人技术前瞻 继续讨论: 终于经过望眼欲穿的等待,DeepSeek-V4千呼万唤始出来,发布以后,回看 此前的前瞻 ,还是有些出入,最期待的也最需要修正的部分是对Engram的预期。从V4技术报告来看,也许笔者的预期过于乐观,在这一代中暂时没有条件落地应用。不过条件记忆、...
DeepSeek V4 非专业解读
DeepSeek V4 非专业解读

DeepSeek V4 个人技术前瞻继续讨论:

终于经过望眼欲穿的等待,DeepSeek-V4千呼万唤始出来,发布以后,回看此前的前瞻,还是有些出入,最期待的也最需要修正的部分是对Engram的预期。从V4技术报告来看,也许笔者的预期过于乐观,在这一代中暂时没有条件落地应用。不过条件记忆、知识检索解耦、模型内部稀疏访问等问题仍然值得长期跟踪,也许在DeepSeek V4.5出现也未可知。

回到正题,本次V4的主线围绕百万Context,并降低了训练和推理的综合成本,实实在在的体现了报告标题Towards Highly Efficient Million-Token Context Intelligence。具体参数不再赘述,报告的开篇图片就提到了在 1M context 下,V4-Pro 相比 V3.2 只需要 27% 的单Token推理FLOPs和10%的KV cache;V4-Flash 则降至 10% FLOPs 和 7% KV cache。在笔者看来,推理性价比比窗口长度本身更重要。长上下文能力的价值不只取决于最大输入长度,还取决于长输入下的单位任务成本。如此一来,交给Agent做的低难度长历程任务例如代码仓库理解、跨文档分析、多轮搜索、工具调用等,V4使得这些场景在经济上可承受。

值得一提的是,本次的发布仍然体现了DeepSeek在模型架构方面的探索和实践,V4的核心架构升级中值得一提的就是CSA/HCA混合注意力。与V3时代以来,业界祖宗之法不可变的DSA(NSA)相比,V4设计了这两种注意力机制交错使用,并加入滑窗注意力保留近期局部依赖。基本思路是把长上下文的信息访问拆开处理。远距离信息通过 HCA 的极致压缩保留全局视野,可能相关的信息通过 CSA 的稀疏选取召回,近期信息通过滑窗保持更高分辨率。这样的混合架构相比于DSA等稀疏注意力机制,等于在模型里嵌入了一个微型多级搜索引擎,对Tokens 的压缩/分块/语义化/分层检索/共享缓存做得非常精细,虽然代价是精度上的取舍。

至于架构方面,DeepSeek的看家绝活mHC已经在前瞻中提到不再赘述。尽管本次V4-Pro的预训练规模达到33T tokens、和1.6T总参数,mHC的工程开销仅为overlapped 1F1B pipeline stage 的 6.7%。另外不出意外地是 Muon 优化器在多数模块上取代了 AdamW,作为目前业界的主流趋势的优化器倒也合理。但是由于使用了新的混合注意力机制,并且巨大的参数量,在这次训练过程中V4也遇到了 loss spike 问题,DeepSeek报告中说用了两个奇技淫巧但其理论机制尚未完全理解,选择公开分享以供社区研究。(笔者看不懂这俩技巧没法分析)

在Agent时代,模型的后训练变得越来越重要,而本次的V4在后训练方面笔者认为也是非常精彩的,他们把后训练也分为多个阶段,首先是专家训练,这个和V3时代是一致的,但是没有使用GRPO而是跟进了业界的OPD策略;其次是对难验证任务使用了生成式的奖励模型来评估策略;工具调用方面,V4使用了自构建的DSL格式,减少了逃逸风险和工具调用报错,但是也导致首发后出现Skill不调用以及tool call表现差的问题,换用其对应的parser是可以解决的不知道后续会不会在后训练中加上这一部分的映射纠正。此外,本次报告用了相当篇幅描述Agent所需的工程基础设施,为后训练和评估建立了一个数十万并发的沙盒平台以至于被夸赞是业界最强的infra团队。至于硬件方面,很可惜本次还是没有使用国产平台进行训练,希望推理阶段能够加大国产卡应用进一步降低API价格。

评测方面社区已经有大量的帖子,基本上是在开源模型中的第一梯队但是离闭源的Opus4.7/GPT5.4 还是有一定距离。在报告中,DeepSeek的内部问卷调查“你愿不愿意把V4当成你日常的首选编程模型”,85人的回答是52%愿意/39%倾向于愿意/9%不愿意。这个反馈也是比较真诚的。不过目前体验下来,Pro 在推理模式下速度偏慢,且开销为同类模型的两到三倍,其实这一点在之前的V3时代已经有体现了,尤其是昙花一现的exp试验版本就是力大砖飞的思路;至于创意写作和非推理任务上笔者认为是略有不足的,虽然有人提到V4-Pro破限任务表现出色,但是笔者认为其创意性受推理能力训练的影响有所失色。相较而言,笔者认为v4-flash是一个不错的干活模型。

回看前瞻中的各项判断。mHC确实不出意外, 且长上下文与 Agent系统栈的方向判断基本成立,多模态方面未来可期(打脸了笔者的前瞻,也许是作为一家更偏研究性机构不可避免的训练数据量问题),而最为期待的Engram仍在路上。总的来说,作为一款大家期待已久的国产之光,DeepSeek这次的表现可圈可点,虽然性能还做不到脚踢A​:divide:拳打奥特曼,但是成本上确实是非常出色。毕竟百万上下文输入1块钱要什么自行车(PRO也只要3块钱了,恐怖

最后笔者非常喜欢DeepSeek的态度,「不诱于誉,不恐于诽,率道而行,端然正己。」作为一个在L站从V2时期折腾Cocopilot + DeepSeek FIM替代copilot的老用户,真心希望他们可以向实现 AGI 的目标不断靠近。

3 个帖子 - 2 位参与者

阅读完整话题

来源: linux.do查看原文