发现了一个MIMO的用途

需求是把非常杂乱的一张手填的表格照片汇总录入一个excel, 直接让gpt 5.5 和opus 4.6 做, 识别效果很差, 有些手写确实难,我自己看的都费劲. 想到了小米送的tokenplan, 印象中momi v2.5 的MMMU-Pro 得分比较高(后来核实了一下 88.5, 作为参考 gem...
发现了一个MIMO的用途
发现了一个MIMO的用途

需求是把非常杂乱的一张手填的表格照片汇总录入一个excel, 直接让gpt 5.5 和opus 4.6 做, 识别效果很差, 有些手写确实难,我自己看的都费劲.
想到了小米送的tokenplan, 印象中momi v2.5 的MMMU-Pro 得分比较高(后来核实了一下 88.5, 作为参考 gemini 3 pro 是86), 于是让codex 做了个工具, 调用mimo v2.5, 完成图像理解并输出, 然后用脚本拼成目标excel.
接着这个思路, 在图片理解相关领域都可以平替Gemini 因为我只有学生pro, gemini cli太不稳定, 也没有api方便. 后续codex在开发前端的时候可以利用mimo的视觉能力判断页面是否符合预期. gpt 调用snapshot->保存图片->写预期prompt → 通过脚本调用mimo v2.5 ->判断图片是否符合预期并给出评审结果, 如果不通过, 修改, 直到判定通通过. 这样就提供了一个闭环开发途径.

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文