公正 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn

公正 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 3 篇相关文章

AA-Omniscience Benchmark 是否公正？deepseek幻觉率特别高！

由于Artificial Analysis benchmark的多模态科学幻觉这个benchmark中，deepseek得分非常低，另外小米mimo，glm，qwen，grok这几个模型得分异常高。社区中有人开始对此提出质疑？第一眼看上去确实有刷分的可能，毕竟这个benchmar

tech linux.do 2026-05-05 00:10:26+08:00

一群普通人，甚至可能对人工智能知之甚少，很快将决定 OpenAI 的未来走向。埃隆・马斯克起诉 ChatGPT 开发商 OpenAI 及其高管（含首席执行官山姆・奥尔特曼）的诉讼，于周一正式开庭。一众科技巨头高管预计将出庭作证，核心争议为：OpenAI 管理层是否欺骗马斯克、背弃

tech plink.anyfeeder.com 2026-04-27 19:35:08+08:00

现在大模型跑分有可能是被注水的，也就是提前只针对题库特别训练或者搞一些特调的模型去跑分刷榜，也有各种野榜或者是那种商业平台刷榜花钱定制冠军，让人难以分辨，有没有公认比较公正无商业化的测评平台 4 个帖子 - 4 位参与者阅读完整话题

tech linux.do 2026-04-26 00:57:15+08:00