Benchmark - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技

有人用过 Gemini 3.1 Pro 做 coding agent 吗？和 GPT / Claude / 国产模型对比如何？

最近在看 Gemini 3.1 Pro，但对官方 benchmark 有点不太信任，想问问大家真实使用体验。主要关心它作为 coding agent 的表现，比如这些场景：日常 Q&A / 查资料方案设计 / 架构思考任务拆解 / 规划实际写代码 debug /

相关专题

tech linux.do 2026-04-24 22:14:30+08:00

Nao佬的Deepseek V4 评测出来了国模第一!

flash版本也很能打 llm2014.github.io LLM Benchmark Dashboard 18 个帖子 - 16 位参与者阅读完整话题

相关专题

About 专题内容 Rating Economy Analytics Cost Budget 专题内容 Screen Roi Consulting Machine Beauty Privacy Guide API 专题内容 Blog Profile Research Retention Domain Version Partner Loyalt...Goal Cloud Subject 专题内容 Careers Milestone Image Success 专题内容 Tracking Download Loyalty Keyword Restore 视频 Efficiency Resea...Version Audience 专题内容 Event Business Reporting Task Notification Resource Investmen...Cloud Feedback Customization Conference Sync 专题内容 Cheap Event 专题内容 Sync Browser Internet Landing App 专题内容 Rating Affordable Budget Profile Health Website Resolution 专题内容 Price Management Economy Email Machine Policy Vacation Alert...Webinar Promotion Project Sales Analytics 专题内容 Guide Podcast Version Excellence Navigation Ebook Identity Us...Task Networking Subject Engagement Success Download Beauty In...Form Study Status 专题内容 Status Ranking 专题内容 Analytics Shopping Settings Trading Travel Keyword Segment Lo...

tech linux.do 2026-04-24 20:26:07+08:00

DeepSeek-V4-Pro Benchmark简单解读

加粗为该行最高分。类别基准测试指标测什么 DS-V4-Pro Max DS-V4-Flash Max Kimi K2.6 GLM-5.1 Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro High 知识与推理 MMLU-Pro EM 5

相关专题

About 专题内容 Rating Economy Analytics Cost Budget 专题内容 Screen Roi Consulting Machine Beauty Privacy Guide API 专题内容 Blog Profile Research Retention Domain Version Partner Loyalt...Goal Cloud Subject 专题内容 Careers Milestone Image Success 专题内容 Tracking Download Loyalty Keyword Restore 视频 Efficiency Resea...Version Audience 专题内容 Event Business Reporting Task Notification Resource Investmen...Cloud Feedback Customization Conference Sync 专题内容 Cheap Event 专题内容 Sync Browser Internet Landing App 专题内容 Rating Affordable Budget Profile Health Website Resolution 专题内容 Price Management Economy Email Machine Policy Vacation Alert...Webinar Promotion Project Sales Analytics 专题内容 Guide Podcast Version Excellence Navigation Ebook Identity Us...Task Networking Subject Engagement Success Download Beauty In...Form Study Status 专题内容 Status Ranking 专题内容 Analytics Shopping Settings Trading Travel Keyword Segment Lo...

tech linux.do 2026-04-24 16:54:54+08:00

DeepseekV4Pro的私有Coding测试集评测结果

来自知乎toyama佬网站： LLM Benchmark Dashboard 附：其他未测完的国模 1 个帖子 - 1 位参与者阅读完整话题

相关专题

About 专题内容 Rating Economy Analytics Cost Budget 专题内容 Screen Roi Consulting Machine Beauty Privacy Guide API 专题内容 Blog Profile Research Retention Domain Version Partner Loyalt...Goal Cloud Subject 专题内容 Careers Milestone Image Success 专题内容 Tracking Download Loyalty Keyword Restore 视频 Efficiency Resea...Version Audience 专题内容 Event Business Reporting Task Notification Resource Investmen...Cloud Feedback Customization Conference Sync 专题内容 Cheap Event 专题内容 Sync Browser Internet Landing App 专题内容 Rating Affordable Budget Profile Health Website Resolution 专题内容 Price Management Economy Email Machine Policy Vacation Alert...Webinar Promotion Project Sales Analytics 专题内容 Guide Podcast Version Excellence Navigation Ebook Identity Us...Task Networking Subject Engagement Success Download Beauty In...Form Study Status 专题内容 Status Ranking 专题内容 Analytics Shopping Settings Trading Travel Keyword Segment Lo...

tech linux.do 2026-04-24 11:52:40+08:00

从 benchmark 上来看，DeepSeek V4 怎么样？

和 GPT 5.5、Claude Opus 4.7 比 6 个帖子 - 6 位参与者阅读完整话题

相关专题

About 专题内容 Rating Economy Analytics Cost Budget 专题内容 Screen Roi Consulting Machine Beauty Privacy Guide API 专题内容 Blog Profile Research Retention Domain Version Partner Loyalt...Goal Cloud Subject 专题内容 Careers Milestone Image Success 专题内容 Tracking Download Loyalty Keyword Restore 视频 Efficiency Resea...Version Audience 专题内容 Event Business Reporting Task Notification Resource Investmen...Cloud Feedback Customization Conference Sync 专题内容 Cheap Event 专题内容 Sync Browser Internet Landing App 专题内容 Rating Affordable Budget Profile Health Website Resolution 专题内容 Price Management Economy Email Machine Policy Vacation Alert...Webinar Promotion Project Sales Analytics 专题内容 Guide Podcast Version Excellence Navigation Ebook Identity Us...Task Networking Subject Engagement Success Download Beauty In...Form Study Status 专题内容 Status Ranking 专题内容 Analytics Shopping Settings Trading Travel Keyword Segment Lo...

tech linux.do 2026-04-24 11:06:33+08:00

来个DuckBenchmark

这个是纯视觉的极其困难的测试：使用如下图片询问AI：告诉我这是什么品种的鸭子目前我测试下来全军覆没，唯一一个成功辨认的只有去年的网页版Gemini 3.0 Pro，今年的3.1Pro也寄了错误答案：这是一只（野生）绿头鸭半对答案：这是一只家养绿头鸭，辨识方式：体态较为

相关专题

About 专题内容 Rating Economy Analytics Cost Budget 专题内容 Screen Roi Consulting Machine Beauty Privacy Guide API 专题内容 Blog Profile Research Retention Domain Version Partner Loyalt...Goal Cloud Subject 专题内容 Careers Milestone Image Success 专题内容 Tracking Download Loyalty Keyword Restore 视频 Efficiency Resea...Version Audience 专题内容 Event Business Reporting Task Notification Resource Investmen...Cloud Feedback Customization Conference Sync 专题内容 Cheap Event 专题内容 Sync Browser Internet Landing App 专题内容 Rating Affordable Budget Profile Health Website Resolution 专题内容 Price Management Economy Email Machine Policy Vacation Alert...Webinar Promotion Project Sales Analytics 专题内容 Guide Podcast Version Excellence Navigation Ebook Identity Us...Task Networking Subject Engagement Success Download Beauty In...Form Study Status 专题内容 Status Ranking 专题内容 Analytics Shopping Settings Trading Travel Keyword Segment Lo...

tech linux.do 2026-04-22 23:53:27+08:00

kimi k2.6 benchmark分析（换成排名）

官方的benchmark很全面，但是有点看不清楚，我换成排名的方式感觉更清楚点。生成表格的代码是AI写的。。想了想还是截图吧官方原始的benchmark： kimi.com Kimi K2.6 Tech Blog: Advancing Open-Source Coding K

相关专题

About 专题内容 Rating Economy Analytics Cost Budget 专题内容 Screen Roi Consulting Machine Beauty Privacy Guide API 专题内容 Blog Profile Research Retention Domain Version Partner Loyalt...Goal Cloud Subject 专题内容 Careers Milestone Image Success 专题内容 Tracking Download Loyalty Keyword Restore 视频 Efficiency Resea...Version Audience 专题内容 Event Business Reporting Task Notification Resource Investmen...Cloud Feedback Customization Conference Sync 专题内容 Cheap Event 专题内容 Sync Browser Internet Landing App 专题内容 Rating Affordable Budget Profile Health Website Resolution 专题内容 Price Management Economy Email Machine Policy Vacation Alert...Webinar Promotion Project Sales Analytics 专题内容 Guide Podcast Version Excellence Navigation Ebook Identity Us...Task Networking Subject Engagement Success Download Beauty In...Form Study Status 专题内容 Status Ranking 专题内容 Analytics Shopping Settings Trading Travel Keyword Segment Lo...

tech linux.do 2026-04-21 13:47:23+08:00

minimax highspeed实际速率

写了个benchmark想看看实际的速率区别。测试-1 （点击了解更多详细信息） bench代码（点击了解更多详细信息） config.json （点击了解更多详细信息） 2.7-highspeed在代码生成类别速度比文字快一点，而且如果涉及到中文tps就会变低。在设定max

相关专题

About 专题内容 Rating Economy Analytics Cost Budget 专题内容 Screen Roi Consulting Machine Beauty Privacy Guide API 专题内容 Blog Profile Research Retention Domain Version Partner Loyalt...Goal Cloud Subject 专题内容 Careers Milestone Image Success 专题内容 Tracking Download Loyalty Keyword Restore 视频 Efficiency Resea...Version Audience 专题内容 Event Business Reporting Task Notification Resource Investmen...Cloud Feedback Customization Conference Sync 专题内容 Cheap Event 专题内容 Sync Browser Internet Landing App 专题内容 Rating Affordable Budget Profile Health Website Resolution 专题内容 Price Management Economy Email Machine Policy Vacation Alert...Webinar Promotion Project Sales Analytics 专题内容 Guide Podcast Version Excellence Navigation Ebook Identity Us...Task Networking Subject Engagement Success Download Beauty In...Form Study Status 专题内容 Status Ranking 专题内容 Analytics Shopping Settings Trading Travel Keyword Segment Lo...

tech linux.do 2026-04-17 22:42:47+08:00

有没有佬友想要共建一个agent项目呀

如题，很想寻找一个佬友一起共建一个agent，包括benchmark建立等等，个人还没有什么想法，想先找想要一起合作的佬友！个人的一些介绍：获得过国家奖学金，华为杯国家级二等奖，蓝桥杯国家级三等奖。此前有一段多模态大模型方向和安全智能体的实习经历，目前同时有两篇 A 类会议论文

相关专题

About 专题内容 Rating Economy Analytics Cost Budget 专题内容 Screen Roi Consulting Machine Beauty Privacy Guide API 专题内容 Blog Profile Research Retention Domain Version Partner Loyalt...Goal Cloud Subject 专题内容 Careers Milestone Image Success 专题内容 Tracking Download Loyalty Keyword Restore 视频 Efficiency Resea...Version Audience 专题内容 Event Business Reporting Task Notification Resource Investmen...Cloud Feedback Customization Conference Sync 专题内容 Cheap Event 专题内容 Sync Browser Internet Landing App 专题内容 Rating Affordable Budget Profile Health Website Resolution 专题内容 Price Management Economy Email Machine Policy Vacation Alert...Webinar Promotion Project Sales Analytics 专题内容 Guide Podcast Version Excellence Navigation Ebook Identity Us...Task Networking Subject Engagement Success Download Beauty In...Form Study Status 专题内容 Status Ranking 专题内容 Analytics Shopping Settings Trading Travel Keyword Segment Lo...

tech linux.do 2026-04-17 20:53:36+08:00

Deepseek x上传出来的，各位佬友分析下

帖子内容：疑似 DeepSeek V4 技术报告的 benchmark泄露！图中的“DeepSeek-V4 技术报告”基准测试（Benchmark）数据，为我们揭示了当前顶尖 AI 大模型的最新竞争格局。从这份涵盖通用能力、推理数学、代码以及智能体（Agent）四大维度的成

相关专题

About 专题内容 Rating Economy Analytics Cost Budget 专题内容 Screen Roi Consulting Machine Beauty Privacy Guide API 专题内容 Blog Profile Research Retention Domain Version Partner Loyalt...Goal Cloud Subject 专题内容 Careers Milestone Image Success 专题内容 Tracking Download Loyalty Keyword Restore 视频 Efficiency Resea...Version Audience 专题内容 Event Business Reporting Task Notification Resource Investmen...Cloud Feedback Customization Conference Sync 专题内容 Cheap Event 专题内容 Sync Browser Internet Landing App 专题内容 Rating Affordable Budget Profile Health Website Resolution 专题内容 Price Management Economy Email Machine Policy Vacation Alert...Webinar Promotion Project Sales Analytics 专题内容 Guide Podcast Version Excellence Navigation Ebook Identity Us...Task Networking Subject Engagement Success Download Beauty In...Form Study Status 专题内容 Status Ranking 专题内容 Analytics Shopping Settings Trading Travel Keyword Segment Lo...

tech linux.do 2026-04-17 20:18:19+08:00

Benchmark - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn

相关标签