从在我催更三天之后,ds火速上线了多模态继续讨论:
我还是比较关心文字OCR,我去试一下
ds经典的OCR错误率90%,太离谱了(手写文字 相对于豆包专家的30%,哈基米3.1的10%)
有趣
qwen喜欢加戏,但是也挺强
睡前补一张图
![]()
3.1迷之自信,但是这一点确实只有他错了
ds选择了不写:
![]()
整体感觉应该错的明显更高
不过实践出真知 之后我会让哈基米进行验证
(而且给ds的图是从哈基米那里下载的图 被压缩了 虽然对人类来说识别没问题,对AI估计有问题的 )
![]()
中间还红温了一下,因为哈基米突然给ds的回答认为是我写的最终版正确版
总之也辛苦哈基米了,他每一次用py工具,光代码都得写2万kb,一共写了5万了都
最终结果

d是豆包专家(网页版 APP有降智)
6是3.6plus
5是3.5Omini
star是ds识图模式
me是Gemini
ds被哈基米狠狠批判了 ![]()
继续努力
一心只想着技术的公司,搞个视觉第一还不是简简单单()
不过ds不是我的主力
也是没想到qwen3.6p竟然拿下了第一,不过他的多模态识别能力确实要强过omni(在语音转文字方面)
豆包专家在特定统计算法下成绩不是非常好,但他们几个整体上差距也不是非常大嘛 关键是豆包专家相比于哈基米3.1p对于免费用户来说还是便宜一些的
总测试字数
依旧少样本测试 仅供参考
但是难度确实相当大。虽然我依旧能完美辨认我自己写了什么()
Ds可是受大苦了
1 个帖子 - 1 位参与者

