AA-Omniscience Benchmark 是否公正？deepseek幻觉率特别高！

编辑部 2026-05-05T00:47:02.170672 29644 阅读综合

由于Artificial Analysis benchmark的多模态科学幻觉这个benchmark中，deepseek得分非常低，另外小米mimo，glm，qwen，grok这几个模型得分异常高。社区中有人开始对此提出质疑？第一眼看上去确实有刷分的可能，毕竟这个benchmark完全是AA平台自己...

AA-Omniscience Benchmark 是否公正？deepseek幻觉率特别高！

由于Artificial Analysis benchmark的多模态科学幻觉这个benchmark中，deepseek得分非常低，另外小米mimo，glm，qwen，grok这几个模型得分异常高。社区中有人开始对此提出质疑？第一眼看上去确实有刷分的可能，毕竟这个benchmark完全是AA平台自己的数据集。

这里我出了一道物理学的前沿科学题目

在量子引力理论的前沿研究中，‘哈特尔-霍金-彭罗斯纠缠熵’ (Hartle-Hawking-Penrose Entanglement Entropy) 主要是用来解决黑洞的哪一个具体信息悖论？它的数学推导公式中，边界条件引入了什么常数？

结论是，deepseek在这类问题上确实有着超过其他模型的幻觉。

4 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文

AA Omniscience Benchmark 是否公正一个问与答帖子

AA-Omniscience Benchmark 是否公正？deepseek幻觉率特别高！

买的api额度多了，出每天100刀一个月60每天2块

这几天使用DeepSeek有感

相关推荐