挠头.jpg
第一类是技术类问题,例如:
“请对比 OSPF 和 IS-IS 在大型运营商网络中的适用场景,并给出权威来源”
kimi.com
Kimi | 运营商网络 OSPF/IS-IS
Kimi K2.6 模型发布!全新建站功能可生成极具设计感的网站,支持轻量后端模块;Agent 集群全面升级,Office 文档一键转可复用技能。Claw 群组同步开启内测,探索多 Agent 协作的全新可能。
第二类是时效类问题,例如:
“请查询Grok当前最新版本、发布时间和主要能力变化”
kimi.com
Kimi | Grok版本查询
Kimi K2.6 模型发布!全新建站功能可生成极具设计感的网站,支持轻量后端模块;Agent 集群全面升级,Office 文档一键转可复用技能。Claw 群组同步开启内测,探索多 Agent 协作的全新可能。
“济南天桥在维修吗”
kimi.com
Kimi | “济南天桥在维修吗”
Kimi K2.6 模型发布!全新建站功能可生成极具设计感的网站,支持轻量后端模块;Agent 集群全面升级,Office 文档一键转可复用技能。Claw 群组同步开启内测,探索多 Agent 协作的全新可能。
“我从大观园坐公交车去济南市动物园,应该坐几路车”
kimi.com
Kimi | 大观园济南动物园公交
Kimi K2.6 模型发布!全新建站功能可生成极具设计感的网站,支持轻量后端模块;Agent 集群全面升级,Office 文档一键转可复用技能。Claw 群组同步开启内测,探索多 Agent 协作的全新可能。
结合一类二类的评价:
对象 来源专业性 准确性 时效性 可验证性 简评 Kimi 3.4 3.0 3.2 3.1 比豆包更重视引用和来源标注,标准类问题表现较好;但在 Grok 版本、公交实时路线这类强时效问题上仍会混入错误或未联动信息Kimi 的问题:
同样会在强时效问题上失误。它知道天桥施工和 14 条公交线路调整,但在“大观园到动物园公交”里仍推荐 K15、K58、K5 等线路,没把施工影响合并进去,但是最起码KIMI误打误撞的推荐对了(指主推K15),但是下面的列表里还是出现了受天桥维修影响而无法到达动物园的线路
Grok 版本题里还出现“200 万 token”“Grok 5 6 万亿参数”等高风险细节,和豆包一样有“看起来很具体但未必可靠”的问题
公交路线问题,GPT回答得更好:
第三类是争议类问题,例如:
“请分析 AI 搜索和传统搜索引擎在信息可信度上的差异,并引用可靠来源”
kimi.com
Kimi | AI搜索与传统可信度
Kimi K2.6 模型发布!全新建站功能可生成极具设计感的网站,支持轻量后端模块;Agent 集群全面升级,Office 文档一键转可复用技能。Claw 群组同步开启内测,探索多 Agent 协作的全新可能。
“Vless代理协议近期有什么纠纷,我继续使用的话安全吗”
kimi.com
Kimi | Vless协议纠纷与安全
Kimi K2.6 模型发布!全新建站功能可生成极具设计感的网站,支持轻量后端模块;Agent 集群全面升级,Office 文档一键转可复用技能。Claw 群组同步开启内测,探索多 Agent 协作的全新可能。
“linux.do这个网站主要是做什么的”
kimi.com
Kimi | “linux.do这个网站主要是做什么的”
Kimi K2.6 模型发布!全新建站功能可生成极具设计感的网站,支持轻量后端模块;Agent 集群全面升级,Office 文档一键转可复用技能。Claw 群组同步开启内测,探索多 Agent 协作的全新可能。
对象 来源专业性 准确性 时效性 可验证性 简评 Kimi 3.4 3.0 3.2 3.1 Kimi 整体略强于豆包,尤其在技术资料、协议标准、来源标注上更稳;但它也不是事实核验工具。豆包的问题是“爱补”,Kimi 的问题是“爱展开”,两者都需要你再用官方源兜底。第四类是事实核查类问题,例如:
“DeepSeek-V4.1 是多模态模型”
kimi.com
Kimi | “DeepSeek-V4.1 是多模态模型”
Kimi K2.6 模型发布!全新建站功能可生成极具设计感的网站,支持轻量后端模块;Agent 集群全面升级,Office 文档一键转可复用技能。Claw 群组同步开启内测,探索多 Agent 协作的全新可能。
“RIP、OSPF、BGP、Radius一样,如果要支持IPV6的话,就要彻底重写网络协议”
kimi.com
Kimi | IPv6协议重写
Kimi K2.6 模型发布!全新建站功能可生成极具设计感的网站,支持轻量后端模块;Agent 集群全面升级,Office 文档一键转可复用技能。Claw 群组同步开启内测,探索多 Agent 协作的全新可能。
“BGP 是否存在名为 RFC 4271bis 的正式标准版本,如果存在,请给出 RFC 编号或 IETF 官方来源;如果不存在,请说明目前 BGP-4 的主要正式标准来源是什么”
kimi.com
Kimi | BGP4271bis
Kimi K2.6 模型发布!全新建站功能可生成极具设计感的网站,支持轻量后端模块;Agent 集群全面升级,Office 文档一键转可复用技能。Claw 群组同步开启内测,探索多 Agent 协作的全新可能。
“OSPFv3 是否只能用于 IPv6 网络,是否支持 IPv4 地址族”
kimi.com
Kimi | OSPFv3 支持 IPv4 吗
Kimi K2.6 模型发布!全新建站功能可生成极具设计感的网站,支持轻量后端模块;Agent 集群全面升级,Office 文档一键转可复用技能。Claw 群组同步开启内测,探索多 Agent 协作的全新可能。
这 4 个新样本加进去后,Kimi 的分数可以稍微上调一点,但 DeepSeek 那题明显拉低可信度
测试问题 Kimi评分 评价 OSPFv3 是否支持 IPv4 4.2 / 5 基础 OSPFv3 面向 IPv6,RFC 5838 地址族扩展后可支持 IPv4,这点和 RFC 5838 一致 (RFC 编辑器) BGP 4271bis 4.5 / 5 明确指出 RFC 4271bis 不是正式 RFC,而是 IETF draft;当前正式核心仍是 RFC 4271 (IETF Datatracker) IPv6 是否要彻底重写 RIP/OSPF/BGP/RADIUS 4.0 / 5 BGP、RADIUS 是扩展;OSPFv3、RIPng 是新版本/演进,不是“彻底重写” DeepSeek-V4.1 是否多模态 1.5 / 5 彻底翻车:它把未确认信息当事实。官方公开的 DeepSeek V4 是 V4-Pro / V4-Flash,当前主要标注为文本模型,没有官方确认 V4.1 多模态正式存在或 6 月发布 (DeepSeek API 文档)更新后的总评分:
对象 搜索覆盖 来源专业性 准确性 时效联动 可验证性 综合分 豆包 3.8 3.0 2.8 2.2 2.4 2.8 / 5 Kimi 3.7 3.6 3.2 2.6 3.3 3.2 / 5Kimi 比豆包更适合查技术标准;豆包更适合快速写汇报框架。但两者面对 AI 新模型、实时交通、未发布产品时都不能直接信(调用的信源、准确性时效性都不行)
Kimi 当前综合略高,大概 3.2 分;豆包约 2.8 分
关于信源:
这部分对比豆包我觉得可以单独拿出来说,豆包作为背拥字节的模型,搜索信源还不如KIMI
但是 Kimi 的信源质量是两极分化:查 RFC/网络协议时挺靠谱,查 AI 新模型和实时公交时明显不够硬
问题 信源质量 评价 BGP 4271bis 4.3 / 5 很好。IETF Datatracker、IETF 会议纪要、IDR GitHub 都是相关源,能支撑“4271bis 只是 draft,不是正式 RFC”这个结论。缺点是重复引用偏多,GovInfo、RFC4278 关联度一般 OSPFv3 支持 IPv4 3.3 / 5 中等偏好。华为、Juniper 是可靠厂商源,但缺少最关键的一手 RFC 5340 / RFC 5838;NetworkLessons、OneUptime 属于教程源,只能辅助 DeepSeek V4.1 多模态 1.2 / 5 很差。主要是 ZOL、站长之家、自媒体/博客,没有 DeepSeek 官方 API 文档、模型卡、公告。这个信源组合不该支撑“V4.1 已确认多模态、6 月发布”这种结论 VLESS 安全/纠纷 2.6 / 5 中等偏低。HackMag、GitHub issue、Habr 可作为“社区披露/安全讨论”来源,但不是协议官方标准;Proxy Poland 更偏教程/商业站,封锁率等数字不能直接当权威 OSPF vs IS-IS 4.0 / 5 较好。Cisco、Cisco Live、NSRC 都是网络工程领域比较硬的来源,适合支撑运营商 IGP 设计结论 济南公交路线 1.8 / 5 较差。Moovit、hc12306、e23 都不能替代济南公交官网;实时出行应优先用济南公交官方公告、实时公交 App、地图实时线路1 个帖子 - 1 位参与者