请问有没有用前置ocr模型,给非多模态模型提供视觉能力的方案呢

最新的DeepSeek又便宜又好(主要是便宜),想把大部分工作转移到DeepSeek上了 但偶尔还会有传图片的需求,这时候手动切换一下模型怪麻烦的,有没有办法给ai做一个前置判断,识别到有图片,就调用一下多模态的模型,然后输出文字化的图片内容给DeepSeek的 无感的 方案呢 4 个帖子 - 4 ...
请问有没有用前置ocr模型,给非多模态模型提供视觉能力的方案呢
请问有没有用前置ocr模型,给非多模态模型提供视觉能力的方案呢

最新的DeepSeek又便宜又好(主要是便宜),想把大部分工作转移到DeepSeek上了

但偶尔还会有传图片的需求,这时候手动切换一下模型怪麻烦的,有没有办法给ai做一个前置判断,识别到有图片,就调用一下多模态的模型,然后输出文字化的图片内容给DeepSeek的无感的方案呢

4 个帖子 - 4 位参与者

阅读完整话题

来源: linux.do查看原文