
前几天DeepSeek 多模态研究员陈小康在 X 上发了一条推,并公布了DeepSeek 关于[多模态技术]的新论文《Thinking with Visual Primitives》,表示「Excited to release」。DeepSeek# 次日一早,推文删了,GitHub 上的论文也撤了。
陈小康在那条推文里写道:
「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the “point-to-reason” synergy humans use.」
「传统的思维链停留在语言空间里,但视觉推理需要更多。通过使用点和框作为认知锚点,我们的模型弥合了「引用鸿沟」,模拟了人类「边指边想」的协同机制。」
6 个帖子 - 6 位参与者