[分享创造] 做了整整 7 年，但今天决定开源|专治 AI 幻觉的解析引擎拿去用吧

编辑部 2026-05-14T10:41:25.685395 31862 阅读 tech

之前在读博的时候，会遇到很多复杂的资料，以前没有 AI ，都是自己捣鼓一些小工具去辅助处理的，慢慢地就形成了一个稳定的解析项目雏形，但也只有身边的人在用。后来有了 AI ，我们都以为，哟，高科技来了，要解放了。谁知一读 PDF 就开始胡说八道，分析起报告一堆数据错误。搞科研、学医、金融、数据行业的...

[分享创造] 做了整整 7 年，但今天决定开源|专治 AI 幻觉的解析引擎拿去用吧

之前在读博的时候，会遇到很多复杂的资料，以前没有 AI ，都是自己捣鼓一些小工具去辅助处理的，慢慢地就形成了一个稳定的解析项目雏形，但也只有身边的人在用。

后来有了 AI ，我们都以为，哟，高科技来了，要解放了。谁知一读 PDF 就开始胡说八道，分析起报告一堆数据错误。搞科研、学医、金融、数据行业的应该都明白吧。

这是遇上“AI 幻觉”了，因为 AI 只能扫描一些短平快的文字，复杂的格式它是解析不了的，所以你问它这种文档相关的问题，它只能胡乱编一个数据蒙你。

所以我结合之前的项目经验，做出了一个 AI 原生的文档解析工具——Knowhere ，专治“AI 幻觉”。并且今天开源出来给大家。

它能干的事很简单：帮 AI 去解析那些复杂难啃的文档：比方说大文件（ 20 页+）、层级多（八章 40 节 120 小点）、格式花的（ PDF/Excel/PPT ），通通都能搞定。

你只要安装好 Knowhere 插件，再把文件交给 AI ，AI 就会调用 Knowhere 。

复杂的文档经过 Knowhere 的解析，会变成方便 AI 理解的 JSON 等文件，AI 拿到解析过后的高质量文件切片去做检索和生成，就能给出更精确的回答。

除此之外，Knowhere 还有记忆功能，能把你给它的信息建成一棵“知识树”，在你提问的时候能根据历史跨文档给出答案。

我们实测：

AI 产品感知提升 80%+，上百份文件扫描耗时 10min 内；
Token 消耗降低 50%+，解析效率提升 3 倍+；
多模态信息提取完整度 95%+，复杂表格解析准确率 95%+。

我可以负责任地说，吊打市面上同类产品：

Unstructured：免费版限速严重、定价贵、中文文档效果一般
LlamaParse：强绑 LlamaIndex 生态，云端延迟明显，成本高
MinerU：本地部署依赖地狱，VLM 模式 GPU 要求极高
Docling：首次加载模型 1.5GB ，扫描件 OCR 质量还不如 MinerU

一句话，比 Knowhere 解析好的没它便宜，比 Knowhere 便宜的解析没它好，简直就是性价比拉满。

而且 Knowhere 还是 AI 原生的，更符合 AI Agent 轻量化+高精度的要求。

如果你也在做 AI 应用开发，或者正在被长文档折磨，那不妨试一试 Knowhere 。

求个 Star⭐支持一下，谢谢各位老哥👉 https://github.com/Ontos-AI/knowhere

来源: v2ex查看原文

分享创造整整今天决定一个自己帖子

[分享创造] 做了整整 7 年，但今天决定开源|专治 AI 幻觉的解析引擎拿去用吧

[职场话题] 写代码一定要防御性编程

[问与答] 有人听罗永浩的播客么？

相关推荐