AA-Omniscience Benchmark 是否公正?deepseek幻觉率特别高!
由于Artificial Analysis benchmark的多模态科学幻觉这个benchmark中,deepseek得分非常低,另外小米mimo,glm,qwen,grok这几个模型得分异常高。社区中有人开始对此提出质疑?第一眼看上去确实有刷分的可能,毕竟这个benchmar
bench - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 22 篇相关文章 · 第 1 / 2 页
由于Artificial Analysis benchmark的多模态科学幻觉这个benchmark中,deepseek得分非常低,另外小米mimo,glm,qwen,grok这几个模型得分异常高。社区中有人开始对此提出质疑?第一眼看上去确实有刷分的可能,毕竟这个benchmar
livebench出deepseek v4 pro的评分了,现阶段开源模型第一名(第二是kimi 2.6),除了coding略差。 9 个帖子 - 8 位参与者 阅读完整话题
甲骨文开了台4h24g 装了个爱马仕,对话:“跑cpu 4线程 sysbench 看一下性能” 这台 ARM VPS:5181 events/s 5181 events/s 性能相当于i5 3570左右 比我家pve vps性能还强一点(AMD Ryzen 7 5700U 一半核
在 ollama discord 看到一位老哥发的项目可以查看部分模型的 tps, ttft 指标。感觉不错,给想要买这两家服务的佬做一个参考。 aipi.jaroslawjanas.dev AIPI Bench — AI Model Performance Monitor Mo
livebench.ai LiveBench 7 个帖子 - 5 位参与者 阅读完整话题
手机端刷到的,排版不方便截图见谅 省流:Deepseek V4 Pro 总分73.58,大致相当于GPT 5.3 Codex High,Deepseek V4 Flash 67.25分,大致相当于Claude 4.5 Sonnet Thinking livebench.ai Li
最近在看 Gemini 3.1 Pro,但对官方 benchmark 有点不太信任,想问问大家真实使用体验。 主要关心它作为 coding agent 的表现,比如这些场景: 日常 Q&A / 查资料 方案设计 / 架构思考 任务拆解 / 规划 实际写代码 debug /
flash版本也很能打 llm2014.github.io LLM Benchmark Dashboard 18 个帖子 - 16 位参与者 阅读完整话题
加粗 为该行最高分。 类别 基准测试 指标 测什么 DS-V4-Pro Max DS-V4-Flash Max Kimi K2.6 GLM-5.1 Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro High 知识与推理 MMLU-Pro EM 5
IT之家 4 月 24 日消息,荣耀 600e 手机目前已悄悄现身 Geekbench 跑分库,该机具体型号为 LNA-NX3,单核跑分为 985 分,多核跑分为 2983 分。综合跑分信息,该机预计将搭载联发科天玑 7100 芯片,匹配 8GB RAM,搭载安卓 16 系统。
先放私有bench GPT 5.5涨价了一倍,根据官方说法推理效率更高了。确实如此,5.4时期需要700甚至1000+秒思考的题目,现在400秒就写完了。但代价就是质量并不如5.4思考1000秒写出来的 或多或少都存在一些缺陷,整体质量不如5.4。 据传参数量也变大了,是oai目
依旧先放私有bench 这个模型吧,他的思考效率极低,,经常思考个600-1000秒 但是呢,人家GPT思考这么久真能把活干好,v4p就只能达到中游水平了 写出来的很多东西只能说想法很好,但能力不足 在审美这一块呢,不像任何一个模型,基本都有自己的理解,说明代码蒸的不多, 不像某
在 Kimi-K2.6技术报告 中和 DeepSeek-v4技术报告 中,Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同(Gemini和Calude是相同的),引用值分别为65.4和75.1,这是有什么讲究吗? Kimi-K2.6技术报告截图
来自知乎toyama佬 网站: LLM Benchmark Dashboard 附:其他未测完的国模 1 个帖子 - 1 位参与者 阅读完整话题
和 GPT 5.5、Claude Opus 4.7 比 6 个帖子 - 6 位参与者 阅读完整话题
来源未知,参考一下。 2 个帖子 - 2 位参与者 阅读完整话题
放私有bench mimo 2.0 pro测评 米÷来袭,学习先进的GLM工艺,Mimo v2 Pro正式版依旧大砍 开发调优 [image] 比较匿名时期的Hunter-alpha能力差了一大截,代码基本不可用,全部都要返工修小bug。从小巧思还能看出hunter的影子,但是能
这个是纯视觉的 极其困难 的测试:使用如下图片询问AI: 告诉我这是什么品种的鸭子 目前我测试下来全军覆没,唯一一个成功辨认的只有去年的网页版Gemini 3.0 Pro,今年的3.1Pro也寄了 错误答案:这是一只(野生)绿头鸭 半对答案:这是一只家养绿头鸭,辨识方式:体态较为
官方的benchmark很全面,但是有点看不清楚,我换成排名的方式感觉更清楚点。 生成表格的代码是AI写的。。想了想还是截图吧 官方原始的benchmark: kimi.com Kimi K2.6 Tech Blog: Advancing Open-Source Coding K
写了个benchmark想看看实际的速率区别。 测试-1 (点击了解更多详细信息) bench代码 (点击了解更多详细信息) config.json (点击了解更多详细信息) 2.7-highspeed在代码生成类别速度比文字快一点,而且如果涉及到中文tps就会变低。在设定max