[分享创造] 搞了大半年的文档解析引擎,今天终于开源了——专治 AI 幻觉,欢迎老铁们来试试

之前 4 月中旬的时候我发过一个帖子,说我做了一个叫 Knowhere 的文档解析插件,专治非结构化数据。当时有老哥问后台用的是什么服务,我说准备开源出去,后面可以关注一下。 今天,它来了。 Knowhere 正式开源。 仓库在这里: https://github.com/Ontos-AI/know...
[分享创造] 搞了大半年的文档解析引擎,今天终于开源了——专治 AI 幻觉,欢迎老铁们来试试
[分享创造] 搞了大半年的文档解析引擎,今天终于开源了——专治 AI 幻觉,欢迎老铁们来试试

之前 4 月中旬的时候我发过一个帖子,说我做了一个叫 Knowhere 的文档解析插件,专治非结构化数据。当时有老哥问后台用的是什么服务,我说准备开源出去,后面可以关注一下。

今天,它来了。

Knowhere 正式开源。

仓库在这里: https://github.com/Ontos-AI/knowhere

先说说我为什么做这个东西。

做 AI 应用开发的兄弟应该都有同感——模型越来越强了,但一碰到复杂文档,还是容易崩。

比如你丢一份几十页的财报 PDF 进去,AI 要么开始胡编,要么直接说没有这个内容。这叫“AI 幻觉”。

最开始我也以为是模型不行,换了 Claude 换 GPT ,折腾了一圈发现问题根本不在这里。

根本上,喂给 AI 的原材料就是烂的。

现在市面上绝大多数文档解析工具,处理方式简单粗暴:按固定字数一刀切,把所有内容打碎成碎片。问题是文档里的信息是有层级、有关联、有上下文的一刀切进去,逻辑全断了。AI 拿到一堆碎片,只能靠猜。

更要命的是 PDF 里的多级表头、Excel 里的复杂行列关系、PPT 里的图文混排,传统方案基本束手无策。

强行切下去的结果就是:解析不准 → 检索不到 → AI 脑补 → 你被气死。

Knowhere 是怎么搞的。

我们花了挺长时间,自研了一套 Tree-like 算法。这个名字的由来很直白——它做的事,是把每一份文档都解析成结构化的知识树,而不是一堆散落的碎片。

核心差异在于:

传统方案:按固定字数暴力切片,标题和内容的归属关系全断,跨页表格直接乱码。

Knowhere:在解析时就完整保留文档的层级结构和逻辑关联,标题、段落、表格、图片,各自的归属关系和上下文全部对齐。

这样做出来的数据切片,关联是自带的。AI 拿到之后不再需要在碎片间瞎猜,追问的时候也能精准溯源。

几个硬指标,给老哥们参考。

我们做了大量实测,几个关键数据可以分享:

多模态解析:PDF 、Word 、PPT 、Excel 、图片全支持,信息提取完整度 95%以上。

复杂表格:多级表头这类传统方案的死穴,Knowhere 准确率 90%以上,输出带完整属性的 HTML ,下游不需要额外修正。

Token 消耗:相比传统 RAG 方案降低 50%以上。

解析效率:提升 3 倍+,上百份文件扫描 10 分钟内完成。

溯源能力:每条输出都可精确回溯到源文档的具体位置,从根源上降低幻觉。

另外,我们已经在 OpenClaw 智能体生态里深度集成,作为原生文档解析引擎在跑。配置好 API Key 之后,Agent 会自动调用 Knowhere 处理文档,不需要学新命令。

这次开源的内容包括完整的文档摄入、解析链路。你可以选择:

SaaS 版:开箱即用,免费试用 14 天,不用绑卡 https://knowhereto.ai/?utm_source=v2ex

自托管:想自己部署的老哥可以直接拉仓库跑

pip install knowhere-self-hosted
# 或者作为 OpenClaw 插件安装
openclaw plugins install @ontos-ai/knowhere-claw

最后说点心里话。

市面上其实有一些 PDF 解析的开源方案,比如 MinerU Web 、Docling 、Marker 这些,各有千秋。但它们更多是通用文档解析工具,不是专门为 AI Agent 设计的。

Knowhere 的定位不太一样——它从一开始就是给 AI 和智能体啃的。解析只是第一步,后续我们会逐步加入检索 API ,进一步降低大模型调用成本,让数据真正可复用。

我们相信:大模型的能力上限,取决于你喂给它的数据质量。

如果你也在被 AI 幻觉折磨,欢迎来试试。有任何问题或者想法,直接提 issue ,或者评论区聊聊,我看到都会回。

最后,求个 Star ⭐ https://github.com/Ontos-AI/knowhere

开源的路很长,希望大家 PR/issue ,多多反馈~

来源: v2ex查看原文