今天给chatgpt,gemini,deepseek,小米喂了一张比较长的图

只有deepseek识别出来图片信息,而其余根本不知道在说什么。 薅到了小米的羊毛,配置在Claude code中让agent切分图片然后OCR识别,结果又不知道在说什么。 好奇怪 是因为超长图,内容密度很高且包含大量表格和特殊符号,对OCR和视觉模型的分辨率/上下文窗口都是很大挑战吗? 1 个帖子...
今天给chatgpt,gemini,deepseek,小米喂了一张比较长的图
今天给chatgpt,gemini,deepseek,小米喂了一张比较长的图

只有deepseek识别出来图片信息,而其余根本不知道在说什么。
薅到了小米的羊毛,配置在Claude code中让agent切分图片然后OCR识别,结果又不知道在说什么。
好奇怪
是因为超长图,内容密度很高且包含大量表格和特殊符号,对OCR和视觉模型的分辨率/上下文窗口都是很大挑战吗?

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文