[分享发现] NIST 的测试要比各家自己吹的口径靠谱吧
https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro
各家 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 72 篇相关文章 · 第 1 / 4 页
https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro
https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro
https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro
https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro
https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro
https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro
https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro
自己项目实际跑的测试,agent基座是pi sdk 一个单次分析规划子agent,涉及大量工具调用形成结构化文档 测试使用实际的pi workspace和上游文件, 结构分是测试文件自己生成,内容分是gpt5.5逐个读取生成内容打分。 API来源:kimi minimax glm
首先,说一下本人用ai的情况: Gemini的学生Pro DeepseekV4的api 自己本地部署的Qwen 27B & 35BA3B q4km 破甲版本 以前用的是GPT GROK提供“情趣”价值(普通账户 主用4.2 fast) Gemini 网页版 网页版的Gem
比如调各家api分析公司私有的源码或文档,如果里边有一些比较有价值的,会被模型厂商识别出来并仔细分析吗? 2 个帖子 - 2 位参与者 阅读完整话题
rt,昨天用同一张图片扔进了各家 C 端,然后发现 ChatGPT 和 Gemini 好像会压画质,我让他们做文字识别的时候 ChatGPT 会说图太糊了认不出来,Gemini 会直接乱编。 然后试了一下国内的,无论是 Qwen Studio 还是豆包都不会有压画质的情况,文字都
佬友们好,本人是通信工程大一学生,目前用的ChatGPT Plus + 京东云Coding Plan ,感觉京东云的Coding Plan 性价比不是很高,也没有GLM 5.1或者 Deepseek V 4,在考虑要不要把京东云的Coding Plan 换成 Deepseek 官
最近迷上了用Zcode来开发,发现此类AI 编辑器很是方便,内置了codex cli、cc cli、opencode cli等,都不需要通过cc-switch配置后再去打开终端; 但最近Zcode新版本还在起步阶段,非常容易卡死、卡顿,官方飞书群也是天天反馈个不停。 想发个帖子看
copilot cursor claude code codex antigravity 其他国内 coding plan 大家会选择哪家订阅, 为啥
copilot cursor claude code codex antigravity 其他国内 coding plan 大家会选择哪家订阅, 为啥
copilot cursor claude code codex antigravity 其他国内 coding plan 大家会选择哪家订阅, 为啥
我看各家cli或者编辑器都没上线DeepSeekv4pro呢?codingplan也没有 12 个帖子 - 12 位参与者 阅读完整话题
国内目前各家套餐,只看调用次数的CodingPlan有哪些? 就是小字不搞乱七八糟的隐藏倍率的,页面写多少次,就是多少次的。 有哪些? 1 个帖子 - 1 位参与者 阅读完整话题
RT,之前一直用的是各家中转,服务质量参差不齐,很是心累,遂一咬牙一跺脚上了两家的订阅,不过都是入门级的(codex plus + claude pro),封号的风险应该也小点(截止 04.28 codex 存活 2 天,claude 存活 1 天)。 自己平时业余在家只用来做做
今年各家发了各种MiniPad,佬友们会选择入手吗? 个人感觉小巧便携,使用还是很方便的,就是高配置和大pad价格相差无几了。 17 个帖子 - 8 位参与者 阅读完整话题