尝试了各种ai和ocr提取手写字小说,最后发现元宝是最好用的

起因:朋友不知道从哪里翻出来他以前上学时写的小说,然后想让我帮他整成电子版方便发给同学看。 我把他的小说一页一页拍完照后,首先想到的是gemini,毕竟都说gemini多模态强。然而我简单测试后却发现准确率不够高,而且还有些幻觉(我觉得我朋友写的字很密和不是很好看是一大原因),总之就是不太能用。 后...
尝试了各种ai和ocr提取手写字小说,最后发现元宝是最好用的
尝试了各种ai和ocr提取手写字小说,最后发现元宝是最好用的

起因:朋友不知道从哪里翻出来他以前上学时写的小说,然后想让我帮他整成电子版方便发给同学看。

我把他的小说一页一页拍完照后,首先想到的是gemini,毕竟都说gemini多模态强。然而我简单测试后却发现准确率不够高,而且还有些幻觉(我觉得我朋友写的字很密和不是很好看是一大原因),总之就是不太能用。

后面我又测试了豆包、deepseek、kimi、文心、智谱清言、gpt、grok、qwen、元宝、还有扫描全能王、微信文字识别、夸克扫描、glmocr和PaddleOCR-VL-1.5

结果是豆包、deepseek、文心、gpt、grok和qwen完全没法用,搁那输出了一半就开始胡编乱造,然后扫描全能王、微信文字识别、夸克扫描、glmocr和PaddleOCR-VL-1.5准确率不够,而且对于一些涂改和太难看、潦草的字基本没法识别,排版也不好。

kimi2.5、gemini 3 flash和元宝是最后大体能看过眼的,但gemini幻觉比其它两个稍微高一些且准确率也差一点。而kimi2.5和元宝准确率都能有97%以上而且幻觉也非常少,最后我选择了元宝,没别的,kimi2.5官网输出太慢了,而元宝快多了(朋友小说有差不多100页呢,等不了kimi那么慢的速度)

以前一直觉得元宝是腾讯套壳蹭热度的,纯路边一条。然而这两天需要大量识别手写字图片的时候,我才发现我好像错了:对不起元宝 :cry:,我以后再也不骂你是废物了 :sob:

3 个帖子 - 2 位参与者

阅读完整话题

来源: linux.do查看原文