bench - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技

AA-Omniscience Benchmark 是否公正？deepseek幻觉率特别高！

由于Artificial Analysis benchmark的多模态科学幻觉这个benchmark中，deepseek得分非常低，另外小米mimo，glm，qwen，grok这几个模型得分异常高。社区中有人开始对此提出质疑？第一眼看上去确实有刷分的可能，毕竟这个benchmar

相关专题

tech linux.do 2026-05-05 00:10:26+08:00

deepseek v4 pro评分

livebench出deepseek v4 pro的评分了，现阶段开源模型第一名（第二是kimi 2.6），除了coding略差。 9 个帖子 - 8 位参与者阅读完整话题

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-05-04 12:56:13+08:00

甲骨文的四核ARM性能相当于三代i5四核哦

甲骨文开了台4h24g 装了个爱马仕，对话：“跑cpu 4线程 sysbench 看一下性能” 这台 ARM VPS：5181 events/s 5181 events/s 性能相当于i5 3570左右比我家pve vps性能还强一点（AMD Ryzen 7 5700U 一半核

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-05-01 17:47:18+08:00

ollama cloud/opencode go api bench - 查看模型性能

在 ollama discord 看到一位老哥发的项目可以查看部分模型的 tps, ttft 指标。感觉不错，给想要买这两家服务的佬做一个参考。 aipi.jaroslawjanas.dev AIPI Bench — AI Model Performance Monitor Mo

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-28 15:57:57+08:00

DeepSeek V4的LiveBench分数出来了

livebench.ai LiveBench 7 个帖子 - 5 位参与者阅读完整话题

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-28 12:37:51+08:00

Livebench.ai更新Deepseek V4 Pro&Flash成绩

手机端刷到的，排版不方便截图见谅省流：Deepseek V4 Pro 总分73.58，大致相当于GPT 5.3 Codex High，Deepseek V4 Flash 67.25分，大致相当于Claude 4.5 Sonnet Thinking livebench.ai Li

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-28 11:09:03+08:00

有人用过 Gemini 3.1 Pro 做 coding agent 吗？和 GPT / Claude / 国产模型对比如何？

最近在看 Gemini 3.1 Pro，但对官方 benchmark 有点不太信任，想问问大家真实使用体验。主要关心它作为 coding agent 的表现，比如这些场景：日常 Q&A / 查资料方案设计 / 架构思考任务拆解 / 规划实际写代码 debug /

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-24 22:14:30+08:00

Nao佬的Deepseek V4 评测出来了国模第一!

flash版本也很能打 llm2014.github.io LLM Benchmark Dashboard 18 个帖子 - 16 位参与者阅读完整话题

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-24 20:26:07+08:00

DeepSeek-V4-Pro Benchmark简单解读

加粗为该行最高分。类别基准测试指标测什么 DS-V4-Pro Max DS-V4-Flash Max Kimi K2.6 GLM-5.1 Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro High 知识与推理 MMLU-Pro EM 5

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-24 16:54:54+08:00

荣耀 600e 手机现身 Geekbench 跑分库：有望搭天玑 7100 + 8GB RAM

IT之家 4 月 24 日消息，荣耀 600e 手机目前已悄悄现身 Geekbench 跑分库，该机具体型号为 LNA-NX3，单核跑分为 985 分，多核跑分为 2983 分。综合跑分信息，该机预计将搭载联发科天玑 7100 芯片，匹配 8GB RAM，搭载安卓 16 系统。

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech www.ithome.com 2026-04-24 14:45:52+08:00

GPT 5.5测评：高效的推理和搞笑的能力

先放私有bench GPT 5.5涨价了一倍，根据官方说法推理效率更高了。确实如此，5.4时期需要700甚至1000+秒思考的题目，现在400秒就写完了。但代价就是质量并不如5.4思考1000秒写出来的或多或少都存在一些缺陷，整体质量不如5.4。据传参数量也变大了，是oai目

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-24 12:52:49+08:00

DeepSeek V4 Pro测评：抱歉没能让GLM大人尽兴

依旧先放私有bench 这个模型吧，他的思考效率极低，，经常思考个600-1000秒但是呢，人家GPT思考这么久真能把活干好，v4p就只能达到中游水平了写出来的很多东西只能说想法很好，但能力不足在审美这一块呢，不像任何一个模型，基本都有自己的理解，说明代码蒸的不多，不像某

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-24 12:40:17+08:00

GPT-5.4跑分在K2.6和DeepSeek-v4技术报告中不同

在 Kimi-K2.6技术报告中和 DeepSeek-v4技术报告中，Terminal Bench 2.0测试结果引用的GPT-5.4 xHigh跑分不同（Gemini和Calude是相同的），引用值分别为65.4和75.1，这是有什么讲究吗？ Kimi-K2.6技术报告截图

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-24 12:09:04+08:00

DeepseekV4Pro的私有Coding测试集评测结果

来自知乎toyama佬网站： LLM Benchmark Dashboard 附：其他未测完的国模 1 个帖子 - 1 位参与者阅读完整话题

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-24 11:52:40+08:00

从 benchmark 上来看，DeepSeek V4 怎么样？

和 GPT 5.5、Claude Opus 4.7 比 6 个帖子 - 6 位参与者阅读完整话题

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-24 11:06:33+08:00

deepseek v4模型能力bench

来源未知，参考一下。 2 个帖子 - 2 位参与者阅读完整话题

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-24 11:02:03+08:00

Mimo v2.5 Pro测评：进步不错，问题也大

放私有bench mimo 2.0 pro测评米÷来袭，学习先进的GLM工艺，Mimo v2 Pro正式版依旧大砍开发调优 [image] 比较匿名时期的Hunter-alpha能力差了一大截，代码基本不可用，全部都要返工修小bug。从小巧思还能看出hunter的影子，但是能

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-23 10:59:01+08:00

来个DuckBenchmark

这个是纯视觉的极其困难的测试：使用如下图片询问AI：告诉我这是什么品种的鸭子目前我测试下来全军覆没，唯一一个成功辨认的只有去年的网页版Gemini 3.0 Pro，今年的3.1Pro也寄了错误答案：这是一只（野生）绿头鸭半对答案：这是一只家养绿头鸭，辨识方式：体态较为

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-22 23:53:27+08:00

kimi k2.6 benchmark分析（换成排名）

官方的benchmark很全面，但是有点看不清楚，我换成排名的方式感觉更清楚点。生成表格的代码是AI写的。。想了想还是截图吧官方原始的benchmark： kimi.com Kimi K2.6 Tech Blog: Advancing Open-Source Coding K

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-21 13:47:23+08:00

minimax highspeed实际速率

写了个benchmark想看看实际的速率区别。测试-1 （点击了解更多详细信息） bench代码（点击了解更多详细信息） config.json （点击了解更多详细信息） 2.7-highspeed在代码生成类别速度比文字快一点，而且如果涉及到中文tps就会变低。在设定max

相关专题

Calendar Module Premium 专题内容 Resource Conference Coupon Database Funnel Layout Course 专题内容 Learning 专题内容 Notification Conversion Security Interface App Training Price...Tcti 相关页面 Screen Lesson Resource Services Promotion Social 专题内容 Collaborate Course Technology Tactic Discount Restaurant Webs...Traffic Like Data Lesson About 专题内容 Communication Saving Shopping Performance Social 专题内容 Dashboard Internet Unsubscribe Campaign Objective Careers App...Deadline Upload Creative Partner Lead Integration 专题内容 Management Guide Dashboard Resolution Calendar Objective 专题内容 Profile Promotion Document Contact Project Value Form 专题内容 Analytics Review Quality 专题内容 Project 专题内容 Expensive 专题内容 Tool Screen 专题内容 Health Vacation Reminder 专题内容 Calendar Products Change Photo 专题内容 Investment Notification Products 视频专题内容

tech linux.do 2026-04-17 22:42:47+08:00

bench - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn

相关标签