[分享创造] 做了整整 7 年,但今天决定开源|专治 AI 幻觉的解析引擎拿去用吧

之前在读博的时候,会遇到很多复杂的资料,以前没有 AI ,都是自己捣鼓一些小工具去辅助处理的,慢慢地就形成了一个稳定的解析项目雏形,但也只有身边的人在用。 后来有了 AI ,我们都以为,哟,高科技来了,要解放了。谁知一读 PDF 就开始胡说八道,分析起报告一堆数据错误。搞科研、学医、金融、数据行业的...
[分享创造] 做了整整 7 年,但今天决定开源|专治 AI 幻觉的解析引擎拿去用吧
[分享创造] 做了整整 7 年,但今天决定开源|专治 AI 幻觉的解析引擎拿去用吧

之前在读博的时候,会遇到很多复杂的资料,以前没有 AI ,都是自己捣鼓一些小工具去辅助处理的,慢慢地就形成了一个稳定的解析项目雏形,但也只有身边的人在用。

后来有了 AI ,我们都以为,哟,高科技来了,要解放了。谁知一读 PDF 就开始胡说八道,分析起报告一堆数据错误。搞科研、学医、金融、数据行业的应该都明白吧。

这是遇上“AI 幻觉”了,因为 AI 只能扫描一些短平快的文字,复杂的格式它是解析不了的,所以你问它这种文档相关的问题,它只能胡乱编一个数据蒙你。

所以我结合之前的项目经验,做出了一个 AI 原生的文档解析工具——Knowhere ,专治“AI 幻觉”。并且今天开源出来给大家。

它能干的事很简单:帮 AI 去解析那些复杂难啃的文档:比方说大文件( 20 页+)、层级多(八章 40 节 120 小点)、格式花的( PDF/Excel/PPT ),通通都能搞定。

你只要安装好 Knowhere 插件,再把文件交给 AI ,AI 就会调用 Knowhere 。

复杂的文档经过 Knowhere 的解析,会变成方便 AI 理解的 JSON 等文件,AI 拿到解析过后的高质量文件切片去做检索和生成,就能给出更精确的回答。

除此之外,Knowhere 还有记忆功能,能把你给它的信息建成一棵“知识树”,在你提问的时候能根据历史跨文档给出答案。

我们实测:

  • AI 产品感知提升 80%+,上百份文件扫描耗时 10min 内;

  • Token 消耗降低 50%+,解析效率提升 3 倍+;

  • 多模态信息提取完整度 95%+,复杂表格解析准确率 95%+。

我可以负责任地说,吊打市面上同类产品:

  • Unstructured:免费版限速严重、定价贵、中文文档效果一般

  • LlamaParse:强绑 LlamaIndex 生态,云端延迟明显,成本高

  • MinerU:本地部署依赖地狱,VLM 模式 GPU 要求极高

  • Docling:首次加载模型 1.5GB ,扫描件 OCR 质量还不如 MinerU

一句话,比 Knowhere 解析好的没它便宜,比 Knowhere 便宜的解析没它好,简直就是性价比拉满。

而且 Knowhere 还是 AI 原生的,更符合 AI Agent 轻量化+高精度的要求。

如果你也在做 AI 应用开发,或者正在被长文档折磨,那不妨试一试 Knowhere 。

求个 Star⭐支持一下,谢谢各位老哥👉 https://github.com/Ontos-AI/knowhere

来源: v2ex查看原文