Bench - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第3页 - 钛刻科技 | TCTI.cn

Bench - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第3页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 53 篇相关文章 · 第 3 / 3 页

GPT 5.5测评:高效的推理和搞笑的能力

先放私有bench GPT 5.5涨价了一倍,根据官方说法推理效率更高了。确实如此,5.4时期需要700甚至1000+秒思考的题目,现在400秒就写完了。但代价就是质量并不如5.4思考1000秒写出来的 或多或少都存在一些缺陷,整体质量不如5.4。 据传参数量也变大了,是oai目

tech linux.do 2026-04-24 12:52:49+08:00

DeepSeek V4 Pro测评:抱歉没能让GLM大人尽兴

依旧先放私有bench 这个模型吧,他的思考效率极低,,经常思考个600-1000秒 但是呢,人家GPT思考这么久真能把活干好,v4p就只能达到中游水平了 写出来的很多东西只能说想法很好,但能力不足 在审美这一块呢,不像任何一个模型,基本都有自己的理解,说明代码蒸的不多, 不像某

tech linux.do 2026-04-24 12:40:17+08:00

GPT-5.4跑分在K2.6和DeepSeek-v4技术报告中不同

在 Kimi-K2.6技术报告 中和 DeepSeek-v4技术报告 中,Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同(Gemini和Calude是相同的),引用值分别为65.4和75.1,这是有什么讲究吗? Kimi-K2.6技术报告截图

tech linux.do 2026-04-24 12:09:04+08:00

DeepseekV4Pro的私有Coding测试集评测结果

来自知乎toyama佬 网站: LLM Benchmark Dashboard 附:其他未测完的国模 1 个帖子 - 1 位参与者 阅读完整话题

tech linux.do 2026-04-24 11:52:40+08:00

从 benchmark 上来看,DeepSeek V4 怎么样?

和 GPT 5.5、Claude Opus 4.7 比 6 个帖子 - 6 位参与者 阅读完整话题

tech linux.do 2026-04-24 11:06:33+08:00

deepseek v4模型能力bench

来源未知,参考一下。 2 个帖子 - 2 位参与者 阅读完整话题

tech linux.do 2026-04-24 11:02:03+08:00

Mimo v2.5 Pro测评:进步不错,问题也大

放私有bench mimo 2.0 pro测评 米÷来袭,学习先进的GLM工艺,Mimo v2 Pro正式版依旧大砍 开发调优 [image] 比较匿名时期的Hunter-alpha能力差了一大截,代码基本不可用,全部都要返工修小bug。从小巧思还能看出hunter的影子,但是能

tech linux.do 2026-04-23 10:59:01+08:00

来个DuckBenchmark

这个是纯视觉的 极其困难 的测试:使用如下图片询问AI: 告诉我这是什么品种的鸭子 目前我测试下来全军覆没,唯一一个成功辨认的只有去年的网页版Gemini 3.0 Pro,今年的3.1Pro也寄了 错误答案:这是一只(野生)绿头鸭 半对答案:这是一只家养绿头鸭,辨识方式:体态较为

tech linux.do 2026-04-22 23:53:27+08:00

kimi k2.6 benchmark分析(换成排名)

官方的benchmark很全面,但是有点看不清楚,我换成排名的方式感觉更清楚点。 生成表格的代码是AI写的。。想了想还是截图吧 官方原始的benchmark: kimi.com Kimi K2.6 Tech Blog: Advancing Open-Source Coding K

tech linux.do 2026-04-21 13:47:23+08:00

minimax highspeed实际速率

写了个benchmark想看看实际的速率区别。 测试-1 (点击了解更多详细信息) bench代码 (点击了解更多详细信息) config.json (点击了解更多详细信息) 2.7-highspeed在代码生成类别速度比文字快一点,而且如果涉及到中文tps就会变低。在设定max

tech linux.do 2026-04-17 22:42:47+08:00

有没有佬友想要共建一个agent项目呀

如题,很想寻找一个佬友一起共建一个agent,包括benchmark建立等等,个人还没有什么想法,想先找想要一起合作的佬友! 个人的一些介绍:获得过国家奖学金,华为杯国家级二等奖,蓝桥杯国家级三等奖。此前有一段多模态大模型方向和安全智能体的实习经历,目前同时有两篇 A 类会议论文

tech linux.do 2026-04-17 20:53:36+08:00

Deepseek x上传出来的,各位佬友分析下

帖子内容: 疑似 DeepSeek V4 技术报告的 benchmark泄露! 图中 的“DeepSeek-V4 技术报告”基准测试(Benchmark)数据,为我们揭示了当前顶尖 AI 大模型的最新竞争格局。从这份涵盖通用能力、推理数学、代码以及智能体(Agent)四大维度的成

tech linux.do 2026-04-17 20:18:19+08:00

百度搭子DuMate登顶PinchBench

36氪获悉,5月8日凌晨,百度搭子DuMate登顶智能体评测基准PinchBench榜首,并在前5位中占据3席。据了解,在另外一项DeepResearch深度研究榜单中,DuMate同样位列第一。

tech 36氪