Deepseek的多模态快要来啦!!!

前几天DeepSeek 多模态研究员陈小康在 X 上发了一条推,并公布了DeepSeek 关于[多模态技术]的新论文《Thinking with Visual Primitives》,表示「Excited to release」。 DeepSeek # 次日一早,推文删了,GitHub 上的论文也撤...
Deepseek的多模态快要来啦!!!
Deepseek的多模态快要来啦!!!

image
前几天DeepSeek 多模态研究员陈小康在 X 上发了一条推,并公布了DeepSeek 关于[多模态技术]的新论文《Thinking with Visual Primitives》,表示「Excited to release」。DeepSeek# 次日一早,推文删了,GitHub 上的论文也撤了。
陈小康在那条推文里写道:

「Traditional CoT stays in the linguistic space, but visual reasoning needs more. By using points and boxes as cognitive anchors, our model bridges the Reference Gap—mimicking the “point-to-reason” synergy humans use.」

「传统的思维链停留在语言空间里,但视觉推理需要更多。通过使用点和框作为认知锚点,我们的模型弥合了「引用鸿沟」,模拟了人类「边指边想」的协同机制。」

image

6 个帖子 - 6 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文