有人用过 Gemini 3.1 Pro 做 coding agent 吗?和 GPT / Claude / 国产模型对比如何?
最近在看 Gemini 3.1 Pro,但对官方 benchmark 有点不太信任,想问问大家真实使用体验。 主要关心它作为 coding agent 的表现,比如这些场景: 日常 Q&A / 查资料 方案设计 / 架构思考 任务拆解 / 规划 实际写代码 debug /
Benchmark - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 10 篇相关文章
最近在看 Gemini 3.1 Pro,但对官方 benchmark 有点不太信任,想问问大家真实使用体验。 主要关心它作为 coding agent 的表现,比如这些场景: 日常 Q&A / 查资料 方案设计 / 架构思考 任务拆解 / 规划 实际写代码 debug /
flash版本也很能打 llm2014.github.io LLM Benchmark Dashboard 18 个帖子 - 16 位参与者 阅读完整话题
加粗 为该行最高分。 类别 基准测试 指标 测什么 DS-V4-Pro Max DS-V4-Flash Max Kimi K2.6 GLM-5.1 Opus 4.6 Max GPT-5.4 xHigh Gemini 3.1 Pro High 知识与推理 MMLU-Pro EM 5
来自知乎toyama佬 网站: LLM Benchmark Dashboard 附:其他未测完的国模 1 个帖子 - 1 位参与者 阅读完整话题
和 GPT 5.5、Claude Opus 4.7 比 6 个帖子 - 6 位参与者 阅读完整话题
这个是纯视觉的 极其困难 的测试:使用如下图片询问AI: 告诉我这是什么品种的鸭子 目前我测试下来全军覆没,唯一一个成功辨认的只有去年的网页版Gemini 3.0 Pro,今年的3.1Pro也寄了 错误答案:这是一只(野生)绿头鸭 半对答案:这是一只家养绿头鸭,辨识方式:体态较为
官方的benchmark很全面,但是有点看不清楚,我换成排名的方式感觉更清楚点。 生成表格的代码是AI写的。。想了想还是截图吧 官方原始的benchmark: kimi.com Kimi K2.6 Tech Blog: Advancing Open-Source Coding K
写了个benchmark想看看实际的速率区别。 测试-1 (点击了解更多详细信息) bench代码 (点击了解更多详细信息) config.json (点击了解更多详细信息) 2.7-highspeed在代码生成类别速度比文字快一点,而且如果涉及到中文tps就会变低。在设定max
如题,很想寻找一个佬友一起共建一个agent,包括benchmark建立等等,个人还没有什么想法,想先找想要一起合作的佬友! 个人的一些介绍:获得过国家奖学金,华为杯国家级二等奖,蓝桥杯国家级三等奖。此前有一段多模态大模型方向和安全智能体的实习经历,目前同时有两篇 A 类会议论文
帖子内容: 疑似 DeepSeek V4 技术报告的 benchmark泄露! 图中 的“DeepSeek-V4 技术报告”基准测试(Benchmark)数据,为我们揭示了当前顶尖 AI 大模型的最新竞争格局。从这份涵盖通用能力、推理数学、代码以及智能体(Agent)四大维度的成