AI 搜索能力自测报告：豆包

编辑部 2026-05-22T12:48:27.358184 49650 阅读 tech

总结帖： AI 搜索能力自测报告：豆包、Kimi、EXA+GLM对比 - LINUX DO 第一类是技术类问题，例如： “请对比 OSPF 和 IS-IS 在大型运营商网络中的适用场景，并给出权威来源” https://www.doubao.com/thread/we6eda85c5d9d9a6e ...

总结帖： AI 搜索能力自测报告：豆包、Kimi、EXA+GLM对比 - LINUX DO

第一类是技术类问题，例如：

“请对比 OSPF 和 IS-IS 在大型运营商网络中的适用场景，并给出权威来源”

https://www.doubao.com/thread/we6eda85c5d9d9a6e

测试对象来源专业性准确性时效性可验证性豆包网页端 3.5 3.0 3.0 2.5

简评：大方向基本正确，运营商骨干网偏 IS-IS（现代更偏BGP）、OSPF 常见于企业/城域/接入和复杂策略场景。
但标准编号、IPv6/双栈描述、部分协议机制和规模表述有硬伤；更像“入门汇总/汇报草稿”，不适合直接当权威技术结论引用
另外，给出的信源里混有 RFC、Cisco、Juniper 这类高可信来源，也有 51CTO、CSDN、抖音等二手/培训/博客类来源，整体信源层级比较杂，所以“来源专业性”不能给满分
可以看到参考优先级，一些CSDN\51CTO优先级要高：

给领导、下属、学生做技术汇报、讲课的时候，尽量不要用豆包

第二类是时效类问题，例如：

“请查询Grok当前最新版本、发布时间和主要能力变化”
https://www.doubao.com/thread/w273d4f6b24d04a3e
“济南天桥在维修吗”
https://www.doubao.com/thread/w6422c3adf5f64e96
“我从大观园坐公交车去济南市动物园，应该坐几路车”
https://www.doubao.com/thread/w28bafbb535ed83f3

测试对象来源专业性准确性时效性可验证性豆包网页端 3.0 2.5 3.0 2.0

X的文档、信源太多了，我让GPT帮我核对一下（我的号体验不到4.3呜呜呜）

第二个“济南天桥维修”回答基本属实；但公交路线回答没有联动施工绕行信息，导致 K5、K58、K15 等线路描述存在明显时效错误。尤其是它一边说 2026年05月22日推荐这些路线，一边又知道5月10日起纬二路跨铁路天桥全封闭，这是典型的“查了资料但是不想用”（跨会话问答了，要么是时效、信源没跟上，要么就是记忆同步没跟上）

济南公交官网公告明确说，因纬二路跨铁路天桥全封闭施工，自 2026 年 5 月 10 日起，K5、K15、58 路等 14 条公交线路调整运行路段。K5 调整后撤销大观园、天桥南、制革街等站点；58 路调整后撤销长途汽车站、工人新村、动物园等站点；K15 调整后也撤销天桥南等站点

其中58更是我天天上下班要坐的车次，调整后路线直接少三分之一，正好不走我家了，豆包害人不浅奥

理论上他是可以调用最新数据的（有高德地图的调用能力），但是来的全是老数据

第三类是争议类问题，例如：

“请分析 AI 搜索和传统搜索引擎在信息可信度上的差异，并引用可靠来源”
https://www.doubao.com/thread/w7415c0cb0c0ae24a
“Vless代理协议近期有什么纠纷，我继续使用的话安全吗”
https://www.doubao.com/thread/w94ae455d97f3d211
“linux.do这个网站主要是做什么的”
https://www.doubao.com/thread/wa01e0f2cbbeeed9d

测试对象来源专业性准确性时效性可验证性简评 linux.do 网站功能 3.5 3.5 3.0 3.0 linux.do 确实偏 AI、大模型、开发、资源交流；但注册量、日活、月访问量、“超过 V2EX”等数据需要独立来源，不能直接信（也就是说没证据，虽然始皇发过很多次帖子和图了，但是豆包似乎不知道就瞎说） AI 搜索 vs 传统搜索 2.0 2.0 2.5 1.5 回答里大量百分比、表格数值、所谓研究结论疑似拼接或编造，可信度最低 VLESS 代理协议 2.5 2.8 3.0 2.0 “没有公开可利用漏洞”“2026 最新最安全”“俄罗斯大规模封禁细节”等说法太绝对，且混有政策/绕审查场景，不适合照单全收，不适合技术讨论说是

第四类是事实核查类问题，例如：

“DeepSeek-V4.1 是多模态模型”
https://www.doubao.com/thread/wb1e0125084104d55
“RIP、OSPF、BGP、Radius一样，如果要支持IPV6的话，就要彻底重写网络协议”（未自动启用搜索）
https://www.doubao.com/thread/wb3ccb699fa58625e
“BGP 是否存在名为 RFC 4271bis 的正式标准版本，如果存在，请给出 RFC 编号或 IETF 官方来源；如果不存在，请说明目前 BGP-4 的主要正式标准来源是什么”
https://www.doubao.com/thread/w4de84a75322f8612
“OSPFv3 是否只能用于 IPv6 网络，是否支持 IPv4 地址族”（未自动启用搜索）
https://www.doubao.com/thread/w90edcd3d34998788

测试问题来源专业性准确性时效性可验证性简评 DeepSeek V4.1 是否多模态 3.5 3.2 3.5 3.0 基本对：官方目前可见的是 DeepSeek-V4-Pro / V4-Flash，没有 V4.1 官方版本；V4 当前模型卡也写的是 Text 模态。但它说“架构原生支持多模态、灰度测试识图模式”这类内容没有可靠信源 RFC 4271bis 是否正式标准 4.5 4.2 4.0 4.5 不存在正式 RFC 4271bis；draft-ietf-idr-bgp4-rfc4271bis 是 Internet-Draft，不是正式 RFC。唯一需要补充的是：IETF 页面显示该 draft 当前是 Expired / archived，这属于扯细节了 IPv6 下 RIP / OSPF / BGP / RADIUS 是否重写 4.0 3.8 3.5 4.0 大方向靠谱：RIPng 与 OSPFv3 可以视为新协议/大改；BGP 主要靠 MP-BGP 扩展；RADIUS 主要加 IPv6 属性，但第一次提问没有启用网络搜索且给出的内容巨少，不适合作为学习、科普使用 OSPFv3 是否只支持 IPv6 3.5 3.0 3.5 3.5 OSPFv3 基础规范面向 IPv6，后来通过 RFC 5838 地址族扩展支持 IPv4，这是一种向下兼容而不是原生支持

关于deepseek v4：

DeepSeek V4 预览版 |DeepSeek API 文档
官方文档里没提多模态的事

总结：

总体来看：

维度评分 / 5 评价搜索覆盖 3.8 能搜到不少相关资料，关键词命中能力还可以结构整理 4.2 表达清楚，汇报感强，适合快速看大概来源专业性 3.0 有时能找到官方源，但经常混入博客、百科、论坛、媒体稿准确性 2.8 大方向常常能抓住，但细节容易漂时效性 3.0 能搜到新资料，但不一定能正确应用到最终结论里可验证性 2.4 很多精确数字、日期、性能指标没有可靠出处跨资料推理 2.2 最大短板，容易“两个事实都查到了，但没合并” 最终可信度 2.8 适合做初筛，不适合直接当最终答案

豆包像一个手脚很快的资料助理，能帮你把信息摊开，但不能完全信它的判断。它适合找线索、搭框架、做初稿；不适合直接用于技术标准、实时出行、模型版本、安全协议、价格性能、法规政策这类需要严谨核验的场景

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文

AI 搜索能力自测报告一个最近帖子

AI 搜索能力自测报告：豆包

[推广] ChatGPT plus/Claude pro 正版正价官方代充值，欢迎 V 友咨询

outlook别名邮箱是怎么搞的

相关推荐