【开源推广】更好用的Danbooru标签模糊搜索引擎

编辑部 2026-05-04T09:45:28.384536 21914 阅读 tech

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：我的帖子已经打上开源推广标签：是我的开源项目完整开源，无未开源部分：是我的开源项目已链接认可 LINUX DO 社区：是我帖子内的项目介绍，AI生成、润色内容部分已截图发出：是以上选择我承诺是永久有效的，接受社...

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出
我承诺以下正文中的每一个字都是我手工打的，无任何AI内容

DanbooruSearchOnline 项目介绍

这是一个专用于Danbooru数据库（以下简称D站）标签的搜索引擎。Danbooru数据库是一个二次元图片数据库，常用于二次元风格文生图模型的训练，当然，你也可以用它来自己看图。

该数据库通过「标签」来检索图片。其中的标签多为格式化的英文甚至日语罗马音，这导致我们中国用户在检索标签时存在困难。目前，市面上存在的搜索引擎主要有以下几点问题：

跨语言障碍： 该数据库中标签多为英语或日语罗马音标签，传统机器翻译很难在语境中获得正确结果。例如，机器翻译很可能将「水手服」翻译为「sailor suit」，而用户实际上想要的标签大概是「serafuku」。
反向查询需求： 现存的搜索引擎往往是需要用户输入准确的标签，然后搜索引擎告诉用户这个标签的相关信息。然而，在实践中，用户脑中有一个模糊的概念，希望知道准确的标签名称，才是更迫切的需求。例如，用户希望画出「紧身衣勒紧皮肤产生的凹陷」，但是很可能并不知道这有一个专用标签。
概念扩展和头脑风暴： 现有的检索方案往往只有粗略分类。用户可能想要搜索关于「中国风古装」或者「天空」的大量标签，以进行头脑风暴辅助绘图。或者，用户想要在绘图时根据标签的相关性提升绘图质量。
大语言模型打标辅助： 有时用户可能会利用大语言模型辅助书写标签。然而大语言模型对D站数据库的知识有限，很可能出现幻觉而提供虚假的标签。

针对以上四个需求，我开发了这款 DanbooruOnlineSearch 搜索引擎，并提供了GUI、REST API、MCP、Comfy-UI四种使用方式。

适用场景： 你知道某个标签的大概写法，但不确定拼写是否准确，或者只记得部分写法。
建议参数： Top K: 10 | 结果上限: 10 | 热度权重: 0.15 | 关闭智能分词

系统会告诉你「水手服」对应的准确标签。

适用场景： 你脑中有一个模糊的概念或风格意象，但不知道在 Danbooru 里对应哪些标签，希望系统帮你"发散"出相关的候选标签。

建议参数： Top K: 80~160 | 结果上限: 80 | 热度权重: 0.15

输入「中国风古装」，返回汉服、旗袍、各朝代服制等细分标签，帮助你快速了解这一风格下的标签体系。

适用场景： 你能描述某个具体的事物、角色、场景，但不知道 Danbooru 的对应标签。可以使用中文或英文自然语言描述，也可以通过 IP 名称、角色外号来查找角色标签。

建议参数： Top K: 20 | 结果上限: 20 | 热度权重: 0.15 | 关闭智能分词

适用场景： 你脑中已经有了一幅完整的画面，希望一次性把整段描述转换成尽可能多的 Danbooru 标签，用于 AI 绘画的完整 Prompt。

建议参数： Top K: 5 | 结果上限: 80 | 热度权重: 0.15 | 开启智能分词

开启智能分词：系统会自动拆分你的长句，提取其中的关键概念分别检索，再合并去重，覆盖尽可能多的画面元素。

本项目提供MCP接入。MCP服务地址为

https://sakizuki-danboorusearch.hf.space/mcp/mcp

类型为Streamable HTTP。你可以将MCP接入大模型客户端，调用搜索功能。

我提供了一个免费试用MCP的空间，无需任何部署，开箱即用，点进去以后选择「搜标签」即可。使用的模型是deepseek-v4-flash。API额度有限，仅供试用。

在我设计的一组对比实验中，共有17组测试样例。其中，A组为deepseek-v4-flash+MCP，B组为deepseek-v4-flash，把tags.csv直接塞入其上下文窗口。最终实验的结果如下，显示MCP方案全面优于直接向大模型提供所有标签的方案。

2 个帖子 - 2 位参与者

来源: linux.do查看原文

开源推广更好 Danbooru 标签一个现在帖子