AA-Omniscience Benchmark 是否公正？deepseek幻觉率特别高！

编辑部 2026-05-05T01:24:32.205028 7604 阅读 tech

由于Artificial Analysis benchmark的多模态科学幻觉这个benchmark中，deepseek得分非常低，另外小米mimo，glm，qwen，grok这几个模型得分异常高。社区中有人开始对此提出质疑？第一眼看上去确实有刷分的可能，毕竟这个benchmark完全是AA平台自己...

AA-Omniscience Benchmark 是否公正？deepseek幻觉率特别高！

由于Artificial Analysis benchmark的多模态科学幻觉这个benchmark中，deepseek得分非常低，另外小米mimo，glm，qwen，grok这几个模型得分异常高。社区中有人开始对此提出质疑？第一眼看上去确实有刷分的可能，毕竟这个benchmark完全是AA平台自己的数据集。

这里我出了一道物理学的前沿科学题目

在量子引力理论的前沿研究中，‘哈特尔-霍金-彭罗斯纠缠熵’ (Hartle-Hawking-Penrose Entanglement Entropy) 主要是用来解决黑洞的哪一个具体信息悖论？它的数学推导公式中，边界条件引入了什么常数？

结论是，deepseek在这类问题上确实有着超过其他模型的幻觉。

9 个帖子 - 5 位参与者

阅读完整话题

来源: linux.do查看原文

AA Omniscience Benchmark 是否公正一个问与答帖子

AA-Omniscience Benchmark 是否公正？deepseek幻觉率特别高！

[问与答] 吐槽一下外卖不送货上门，怎么就成众矢之的了？

有没有NFT盲盒推荐？

相关推荐