[分享创造] [原创+挖坑] Bonsai --- 使用本地 Agentic AI 来取代 ChatGPT

我在德州西南医学中心从去年开始开的一门课就是如何利用 Agentic AI 来编写 Harness 为不同的专门领域来服务。 当前随着各大 AI 公司比如 OpenAI Google Anthropic 大幅提高 Token 价格,使用云端的大模型的花费越来越高。但是同时很多用户使用 ChatGPT...
[分享创造] [原创+挖坑] Bonsai --- 使用本地 Agentic AI 来取代 ChatGPT
[分享创造] [原创+挖坑] Bonsai --- 使用本地 Agentic AI 来取代 ChatGPT

我在德州西南医学中心从去年开始开的一门课就是如何利用 Agentic AI 来编写 Harness 为不同的专门领域来服务。

当前随着各大 AI 公司比如 OpenAI Google Anthropic 大幅提高 Token 价格,使用云端的大模型的花费越来越高。但是同时很多用户使用 ChatGPT 这样的工具只是把它当成 Google 一样来用,用来查询信息。完全没有必要花费巨额的 Token 量和花费来使用顶级的 GPT 5.5 或者 Opus 4.8 这样的模型。

鉴于此,我决定使用高效的本地模型结合 Harness 来设定工具和 Memory 来解决这个问题。

(取名 Bonsai 的原因,一部分是因为我和 Stanford 出身的 Prism 实验室有过一些交集 https://prismml.com/)

虽然 Anthropic 从来没有公布具体的 Claude Sonnet 的参数量,不过从网上的信息以及我的个人分析推断,这个模型是一个 MoE (Mix of Expert) 模型,它的有效参数 (Active Parameter) 应该在数十 B 左右,总参数在几百 B 左右。

MoE 模型的有效参数是真实的模型推理过程中使用的参数量,总参数量则是这个模型所储备的知识量 (Knowlege)。我的想法是如果是这样,那么使用一款带有 Thinking 能力的 Dense 模型,虽然只有数十 B 的参数量,但如果可以结合 Harness Engineering, 利用针对性的高效工具来弥补模型知识能力的不足,这样的工具如果写成了应该可以在本地替代大部分的 ChatGPT 对于大多数用户的需求。

做为这个想法的第一个专门项目,我决定先公布一个测试版本 Bonsai, 这个 Harness 采用了底层和本机的 Google Chrome 交流,通过编写的多个浏览器交流工具让本地 LLM 使用 Agentic 模式来访问网络, 默认使用的大模型是 Google Gemma 4B, 当然也可以换成 QWen 模型。 (使用 Gemma 模型的原因是在德州的政府部门包括学校中不能使用中国的开源模型)

下载地址: https://drive.google.com/drive/folders/1YUQ3tmcBSLEyBKLi5JdJgmod9mqXFTgl?usp=sharing

截图: https://i.imgur.com/9MacuXk.png

左边是输入对话框,右边是 Agent 在操作浏览器

这个 Harness 采用了很多专门针对浏览器交互的工具,包括可以 InjectJS 等 JS 注入工具,来方便 Agnet 来查找网页元素和点击按钮等等

这个当前的版本是在 Windows 上编译的,需要 Nvidia CUDA 的支持

我会随后更新还在测试中的 M 系列的 Mac 版本

当前使用 4B thinking 模型作为默认模型的目的是可以在本地上跑到快速的 token / s 方便使用 Agentic workflow. 我测试使用的 Win11+Nvidia 4090 可以跑到大概 140 tps. 在 M4 mac 上使用 Metal 后段大概在 50 tps 左右

来源: v2ex查看原文