AI 搜索能力自测报告：KIMI

编辑部 2026-05-22T12:48:26.457521 7027 阅读 tech

总结帖： AI 搜索能力自测报告：豆包、Kimi、EXA+GLM对比 - LINUX DO 挠头.jpg 第一类是技术类问题，例如： “请对比 OSPF 和 IS-IS 在大型运营商网络中的适用场景，并给出权威来源” kimi.com Kimi | 运营商网络 OSPF/IS-IS Kimi K2....

总结帖： AI 搜索能力自测报告：豆包、Kimi、EXA+GLM对比 - LINUX DO

挠头.jpg

第一类是技术类问题，例如：

“请对比 OSPF 和 IS-IS 在大型运营商网络中的适用场景，并给出权威来源”

kimi.com

Kimi | 运营商网络 OSPF/IS-IS

Kimi K2.6 模型发布！全新建站功能可生成极具设计感的网站，支持轻量后端模块；Agent 集群全面升级，Office 文档一键转可复用技能。Claw 群组同步开启内测，探索多 Agent 协作的全新可能。

第二类是时效类问题，例如：

“请查询Grok当前最新版本、发布时间和主要能力变化”

kimi.com

Kimi | 大观园济南动物园公交

结合一类二类的评价：

对象来源专业性准确性时效性可验证性简评 Kimi 3.4 3.0 3.2 3.1 比豆包更重视引用和来源标注，标准类问题表现较好；但在 Grok 版本、公交实时路线这类强时效问题上仍会混入错误或未联动信息

Kimi 的问题：
同样会在强时效问题上失误。它知道天桥施工和 14 条公交线路调整，但在“大观园到动物园公交”里仍推荐 K15、K58、K5 等线路，没把施工影响合并进去，但是最起码KIMI误打误撞的推荐对了（指主推K15），但是下面的列表里还是出现了受天桥维修影响而无法到达动物园的线路

Grok 版本题里还出现“200 万 token”“Grok 5 6 万亿参数”等高风险细节，和豆包一样有“看起来很具体但未必可靠”的问题
公交路线问题，GPT回答得更好：

第三类是争议类问题，例如：

“请分析 AI 搜索和传统搜索引擎在信息可信度上的差异，并引用可靠来源”

kimi.com

Kimi | “linux.do这个网站主要是做什么的”

对象来源专业性准确性时效性可验证性简评 Kimi 3.4 3.0 3.2 3.1 Kimi 整体略强于豆包，尤其在技术资料、协议标准、来源标注上更稳；但它也不是事实核验工具。豆包的问题是“爱补”，Kimi 的问题是“爱展开”，两者都需要你再用官方源兜底。

第四类是事实核查类问题，例如：

“DeepSeek-V4.1 是多模态模型”

kimi.com

Kimi | “DeepSeek-V4.1 是多模态模型”

“RIP、OSPF、BGP、Radius一样，如果要支持IPV6的话，就要彻底重写网络协议”

kimi.com

Kimi | IPv6协议重写

“BGP 是否存在名为 RFC 4271bis 的正式标准版本，如果存在，请给出 RFC 编号或 IETF 官方来源；如果不存在，请说明目前 BGP-4 的主要正式标准来源是什么”

kimi.com

Kimi | BGP4271bis

“OSPFv3 是否只能用于 IPv6 网络，是否支持 IPv4 地址族”

kimi.com

Kimi | OSPFv3 支持 IPv4 吗

这 4 个新样本加进去后，Kimi 的分数可以稍微上调一点，但 DeepSeek 那题明显拉低可信度

测试问题 Kimi评分评价 OSPFv3 是否支持 IPv4 4.2 / 5 基础 OSPFv3 面向 IPv6，RFC 5838 地址族扩展后可支持 IPv4，这点和 RFC 5838 一致 (RFC 编辑器) BGP 4271bis 4.5 / 5 明确指出 RFC 4271bis 不是正式 RFC，而是 IETF draft；当前正式核心仍是 RFC 4271 (IETF Datatracker) IPv6 是否要彻底重写 RIP/OSPF/BGP/RADIUS 4.0 / 5 BGP、RADIUS 是扩展；OSPFv3、RIPng 是新版本/演进，不是“彻底重写” DeepSeek-V4.1 是否多模态 1.5 / 5 彻底翻车：它把未确认信息当事实。官方公开的 DeepSeek V4 是 V4-Pro / V4-Flash，当前主要标注为文本模型，没有官方确认 V4.1 多模态正式存在或 6 月发布 (DeepSeek API 文档)

更新后的总评分：

对象搜索覆盖来源专业性准确性时效联动可验证性综合分豆包 3.8 3.0 2.8 2.2 2.4 2.8 / 5 Kimi 3.7 3.6 3.2 2.6 3.3 3.2 / 5

Kimi 比豆包更适合查技术标准；豆包更适合快速写汇报框架。但两者面对 AI 新模型、实时交通、未发布产品时都不能直接信（调用的信源、准确性时效性都不行）
Kimi 当前综合略高，大概 3.2 分；豆包约 2.8 分

关于信源：
这部分对比豆包我觉得可以单独拿出来说，豆包作为背拥字节的模型，搜索信源还不如KIMI

但是 Kimi 的信源质量是两极分化：查 RFC/网络协议时挺靠谱，查 AI 新模型和实时公交时明显不够硬

问题信源质量评价 BGP 4271bis 4.3 / 5 很好。IETF Datatracker、IETF 会议纪要、IDR GitHub 都是相关源，能支撑“4271bis 只是 draft，不是正式 RFC”这个结论。缺点是重复引用偏多，GovInfo、RFC4278 关联度一般 OSPFv3 支持 IPv4 3.3 / 5 中等偏好。华为、Juniper 是可靠厂商源，但缺少最关键的一手 RFC 5340 / RFC 5838；NetworkLessons、OneUptime 属于教程源，只能辅助 DeepSeek V4.1 多模态 1.2 / 5 很差。主要是 ZOL、站长之家、自媒体/博客，没有 DeepSeek 官方 API 文档、模型卡、公告。这个信源组合不该支撑“V4.1 已确认多模态、6 月发布”这种结论 VLESS 安全/纠纷 2.6 / 5 中等偏低。HackMag、GitHub issue、Habr 可作为“社区披露/安全讨论”来源，但不是协议官方标准；Proxy Poland 更偏教程/商业站，封锁率等数字不能直接当权威 OSPF vs IS-IS 4.0 / 5 较好。Cisco、Cisco Live、NSRC 都是网络工程领域比较硬的来源，适合支撑运营商 IGP 设计结论济南公交路线 1.8 / 5 较差。Moovit、hc12306、e23 都不能替代济南公交官网；实时出行应优先用济南公交官方公告、实时公交 App、地图实时线路

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

AI 搜索能力自测报告一个最近帖子

AI 搜索能力自测报告：KIMI

Kimi | 运营商网络 OSPF/IS-IS

Kimi | Grok版本查询

Kimi | “济南天桥在维修吗”

Kimi | 大观园济南动物园公交

Kimi | AI搜索与传统可信度

Kimi | Vless协议纠纷与安全

Kimi | “linux.do这个网站主要是做什么的”

Kimi | “DeepSeek-V4.1 是多模态模型”

Kimi | IPv6协议重写

Kimi | BGP4271bis

Kimi | OSPFv3 支持 IPv4 吗

AI 搜索能力自测报告：KIMI

[推广] ChatGPT plus/Claude pro 正版正价官方代充值，欢迎 V 友咨询

outlook别名邮箱是怎么搞的

相关推荐