Bench - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第2页 - 钛刻科技 | TCTI.cn

Bench - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 第2页 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。

共 53 篇相关文章 · 第 2 / 3 页

DeepSeek V4 Pro:处于前沿的首个中文模型

https://foodtruckbench.com/blog/deepseek-v4-pro 5 次运行全部成功。中位数投资回报率( ROI )高达 +1,257%。中位数净资产达 $27,142 。 首个跻身 Opus 4.6 、GPT-5.2 和 Grok 4.3 (最新版

tech V2EX - 技术 2026-05-09 12:47:45+08:00

DeepSeek V4 Pro:处于前沿的首个中文模型

https://foodtruckbench.com/blog/deepseek-v4-pro 5 次运行全部成功。中位数投资回报率( ROI )高达 +1,257%。中位数净资产达 $27,142 。 首个跻身 Opus 4.6 、GPT-5.2 和 Grok 4.3 (最新版

tech V2EX - 技术 2026-05-09 11:59:33+08:00

DeepSeek V4 Pro:处于前沿的首个中文模型

https://foodtruckbench.com/blog/deepseek-v4-pro 5 次运行全部成功。中位数投资回报率( ROI )高达 +1,257%。中位数净资产达 $27,142 。 首个跻身 Opus 4.6 、GPT-5.2 和 Grok 4.3 (最新版

tech V2EX - 技术 2026-05-09 11:09:12+08:00

DeepSeek V4 Pro:处于前沿的首个中文模型

https://foodtruckbench.com/blog/deepseek-v4-pro 5 次运行全部成功。中位数投资回报率( ROI )高达 +1,257%。中位数净资产达 $27,142 。 首个跻身 Opus 4.6 、GPT-5.2 和 Grok 4.3 (最新版

tech V2EX - 技术 2026-05-09 10:26:23+08:00

DeepSeek V4 Pro:处于前沿的首个中文模型

https://foodtruckbench.com/blog/deepseek-v4-pro 5 次运行全部成功。中位数投资回报率( ROI )高达 +1,257%。中位数净资产达 $27,142 。 首个跻身 Opus 4.6 、GPT-5.2 和 Grok 4.3 (最新版

tech V2EX - 技术 2026-05-09 09:52:55+08:00

DeepSeek V4 Pro:处于前沿的首个中文模型

https://foodtruckbench.com/blog/deepseek-v4-pro 5 次运行全部成功。中位数投资回报率( ROI )高达 +1,257%。中位数净资产达 $27,142 。 首个跻身 Opus 4.6 、GPT-5.2 和 Grok 4.3 (最新版

tech V2EX - 技术 2026-05-09 09:48:07+08:00

DeepSeek V4 Pro:处于前沿的首个中文模型

https://foodtruckbench.com/blog/deepseek-v4-pro 5 次运行全部成功。中位数投资回报率( ROI )高达 +1,257%。中位数净资产达 $27,142 。 首个跻身 Opus 4.6 、GPT-5.2 和 Grok 4.3 (最新版

tech V2EX - 技术 2026-05-09 09:34:27+08:00

BridgeBench 测试代码重构工具,Qwen 3.6 Plus排第二,GPT 5.5 找不到踪迹。

Claude Opus 4.7 是 BridgeBench 测试中排名第一的代码重构工具。 GPT 5.5 在排行榜上根本找不到踪迹。 GPT 5.5 是目前市场上最智能的模型。但在重构现有代码方面,Claude Opus 4.7 则无人能及。 这是重构的,还有其他榜单,参考 h

tech LinuxDo 最新话题 2026-05-09 09:05:53+08:00

ProgramBench,模型得分个位数

ProgramBench现阶段模型得分个位数,堪称地狱级难度了,未来是啥样谁知道呢。 1 个帖子 - 1 位参与者 阅读完整话题

tech LinuxDo 最新话题 2026-05-07 13:56:15+08:00

哈维律师事务所 发布 长期法律Agent基准测试

Harvey Introducing Harvey’s Legal Agent Benchmark Harvey’s Legal Agent Benchmark is an open-source benchmark built to evaluate and improve a

tech LinuxDo 最新话题 2026-05-07 09:55:48+08:00

AA-Omniscience Benchmark 是否公正?deepseek幻觉率特别高!

由于Artificial Analysis benchmark的多模态科学幻觉这个benchmark中,deepseek得分非常低,另外小米mimo,glm,qwen,grok这几个模型得分异常高。社区中有人开始对此提出质疑?第一眼看上去确实有刷分的可能,毕竟这个benchmar

tech linux.do 2026-05-05 00:10:26+08:00

deepseek v4 pro评分

livebench出deepseek v4 pro的评分了,现阶段开源模型第一名(第二是kimi 2.6),除了coding略差。 9 个帖子 - 8 位参与者 阅读完整话题

tech linux.do 2026-05-04 12:56:13+08:00

甲骨文的四核ARM性能相当于三代i5四核哦

甲骨文开了台4h24g 装了个爱马仕,对话:“跑cpu 4线程 sysbench 看一下性能” 这台 ARM VPS:5181 events/s 5181 events/s 性能相当于i5 3570左右 比我家pve vps性能还强一点(AMD Ryzen 7 5700U 一半核

tech linux.do 2026-05-01 17:47:18+08:00

ollama cloud/opencode go api bench - 查看模型性能

在 ollama discord 看到一位老哥发的项目可以查看部分模型的 tps, ttft 指标。感觉不错,给想要买这两家服务的佬做一个参考。 aipi.jaroslawjanas.dev AIPI Bench — AI Model Performance Monitor Mo

tech linux.do 2026-04-28 15:57:57+08:00

DeepSeek V4的LiveBench分数出来了

livebench.ai LiveBench 7 个帖子 - 5 位参与者 阅读完整话题

tech linux.do 2026-04-28 12:37:51+08:00

Livebench.ai更新Deepseek V4 Pro&Flash成绩

手机端刷到的,排版不方便截图见谅 省流:Deepseek V4 Pro 总分73.58,大致相当于GPT 5.3 Codex High,Deepseek V4 Flash 67.25分,大致相当于Claude 4.5 Sonnet Thinking livebench.ai Li

tech linux.do 2026-04-28 11:09:03+08:00

有人用过 Gemini 3.1 Pro 做 coding agent 吗?和 GPT / Claude / 国产模型对比如何?

最近在看 Gemini 3.1 Pro,但对官方 benchmark 有点不太信任,想问问大家真实使用体验。 主要关心它作为 coding agent 的表现,比如这些场景: 日常 Q&A / 查资料 方案设计 / 架构思考 任务拆解 / 规划 实际写代码 debug /

tech linux.do 2026-04-24 22:14:30+08:00

Nao佬的Deepseek V4 评测出来了 国模第一!

flash版本也很能打 llm2014.github.io LLM Benchmark Dashboard 18 个帖子 - 16 位参与者 阅读完整话题

tech linux.do 2026-04-24 20:26:07+08:00

DeepSeek-V4-Pro Benchmark简单解读

加粗 为该行最高分。 类别 基准测试 指标 测什么 DS-V4-Pro Max DS-V4-Flash Max Kimi K2.6 GLM-5.1 Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro High 知识与推理 MMLU-Pro EM 5

tech linux.do 2026-04-24 16:54:54+08:00

荣耀 600e 手机现身 Geekbench 跑分库:有望搭天玑 7100 + 8GB RAM

IT之家 4 月 24 日消息,荣耀 600e 手机目前已悄悄现身 Geekbench 跑分库,该机具体型号为 LNA-NX3,单核跑分为 985 分,多核跑分为 2983 分。综合跑分信息,该机预计将搭载联发科天玑 7100 芯片,匹配 8GB RAM,搭载安卓 16 系统。

tech www.ithome.com 2026-04-24 14:45:52+08:00