DeepSeek的新视觉模型基于新的视觉框架，基底模型是v4 flash

编辑部 2026-05-04T11:06:11.187052 27338 阅读 tech

DeepSeek联合北京大学、清华大学发布论文《Thinking with Visual Primitives》，提出一种新的多模态推理框架。该框架的核心做法是将空间标记——坐标点和边界框——提升为模型思维链中的“最小思考单元”，在推理过程中直接交织使用，使模型在"思考"的同时能够"指向"图像中的...

DeepSeek联合北京大学、清华大学发布论文《Thinking with Visual Primitives》，提出一种新的多模态推理框架。

该框架的核心做法是将空间标记——坐标点和边界框——提升为模型思维链中的“最小思考单元”，在推理过程中直接交织使用，使模型在"思考"的同时能够"指向"图像中的具体位置。

当前多模态大语言模型的思维链推理几乎完全在语言空间中进行。业界此前的改进方向集中在通过高分辨率裁剪等手段弥补“感知差距”（即让模型看得更清楚），但论文指出，一个更根本的瓶颈被忽视了——“引用差距”：自然语言天然无法精确、无歧义地指向连续视觉空间中的具体对象。

在密集计数、多步空间推演等任务中，模型的语言"思路"会丢失对视觉实体的追踪，导致推理逻辑崩塌并产生级联幻觉。

该模型基于DeepSeek-V4-Flash构建，总参数量284B，推理时激活参数13B。架构上采用了压缩稀疏注意力机制，对一张800×800的图像，KV缓存中仅保留约90个视觉条目，从原始像素到最终缓存实现了7,056倍的压缩比。

这意味着该模型在视觉token用量远低于同级系统的前提下，仍能维持相当的推理深度。

训练流程分为五个阶段：预训练阶段通过大规模网络数据（经两轮语义与几何质量筛选后保留约3.17万个数据源、超4,000万高质量样本）赋予模型输出视觉原语的基础能力；随后进入后训练，依次经历专项监督微调、专项强化学习（使用GRPO算法配合格式/质量/准确度三类奖励模型）、统一拒绝采样微调，最终通过在策略蒸馏将两个专家模型（分别擅长边界框和坐标点）的能力合并为单一模型。

在7项公开基准和4项自建基准的评测中，该模型在计数、空间推理、拓扑推理等维度上达到或超过GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash的表现，平均得分77.2%，为所有被测模型中最高。

值得关注的是，在迷宫导航和路径追踪两项拓扑推理任务上，该模型分别取得66.9%和56.7%的准确率，而其余前沿模型均未超过51%，这表明现有多模态模型在拓扑推理方面仍有很大提升空间。

论文同时指出了当前的局限：受限于输入分辨率，模型在细粒度场景中的视觉原语输出偶有偏差；视觉原语思考能力目前依赖显式触发词激活，尚不能由模型自主判断何时启用；以坐标点解决复杂拓扑推理的跨场景泛化能力也有待增强。

2 个帖子 - 2 位参与者

阅读完整话题

来源: linux.do查看原文

DeepSeek 视觉模型基于框架一个现在帖子

DeepSeek的新视觉模型基于新的视觉框架，基底模型是v4 flash

[ETF] 趁大 A 放假，恒科大涨 3%

求助毕业文章降低ai方法

相关推荐