各家顶级模型agent能力横向测评
自己项目实际跑的测试,agent基座是pi sdk 一个单次分析规划子agent,涉及大量工具调用形成结构化文档 测试使用实际的pi workspace和上游文件, 结构分是测试文件自己生成,内容分是gpt5.5逐个读取生成内容打分。 API来源:kimi minimax glm
各家 - 钛刻 - 科技风向旗 - 深度刻画技术趋势,引领数字未来 - 钛刻科技 | TCTI.cn - 钛刻 (TCTI.cn) 为您提供最前沿的硬核科技资讯、深度评测和未来技术趋势分析。
共 65 篇相关文章 · 第 1 / 4 页
自己项目实际跑的测试,agent基座是pi sdk 一个单次分析规划子agent,涉及大量工具调用形成结构化文档 测试使用实际的pi workspace和上游文件, 结构分是测试文件自己生成,内容分是gpt5.5逐个读取生成内容打分。 API来源:kimi minimax glm
首先,说一下本人用ai的情况: Gemini的学生Pro DeepseekV4的api 自己本地部署的Qwen 27B & 35BA3B q4km 破甲版本 以前用的是GPT GROK提供“情趣”价值(普通账户 主用4.2 fast) Gemini 网页版 网页版的Gem
比如调各家api分析公司私有的源码或文档,如果里边有一些比较有价值的,会被模型厂商识别出来并仔细分析吗? 2 个帖子 - 2 位参与者 阅读完整话题
rt,昨天用同一张图片扔进了各家 C 端,然后发现 ChatGPT 和 Gemini 好像会压画质,我让他们做文字识别的时候 ChatGPT 会说图太糊了认不出来,Gemini 会直接乱编。 然后试了一下国内的,无论是 Qwen Studio 还是豆包都不会有压画质的情况,文字都
佬友们好,本人是通信工程大一学生,目前用的ChatGPT Plus + 京东云Coding Plan ,感觉京东云的Coding Plan 性价比不是很高,也没有GLM 5.1或者 Deepseek V 4,在考虑要不要把京东云的Coding Plan 换成 Deepseek 官
最近迷上了用Zcode来开发,发现此类AI 编辑器很是方便,内置了codex cli、cc cli、opencode cli等,都不需要通过cc-switch配置后再去打开终端; 但最近Zcode新版本还在起步阶段,非常容易卡死、卡顿,官方飞书群也是天天反馈个不停。 想发个帖子看
copilot cursor claude code codex antigravity 其他国内 coding plan 大家会选择哪家订阅, 为啥
copilot cursor claude code codex antigravity 其他国内 coding plan 大家会选择哪家订阅, 为啥
copilot cursor claude code codex antigravity 其他国内 coding plan 大家会选择哪家订阅, 为啥
我看各家cli或者编辑器都没上线DeepSeekv4pro呢?codingplan也没有 12 个帖子 - 12 位参与者 阅读完整话题
国内目前各家套餐,只看调用次数的CodingPlan有哪些? 就是小字不搞乱七八糟的隐藏倍率的,页面写多少次,就是多少次的。 有哪些? 1 个帖子 - 1 位参与者 阅读完整话题
RT,之前一直用的是各家中转,服务质量参差不齐,很是心累,遂一咬牙一跺脚上了两家的订阅,不过都是入门级的(codex plus + claude pro),封号的风险应该也小点(截止 04.28 codex 存活 2 天,claude 存活 1 天)。 自己平时业余在家只用来做做
今年各家发了各种MiniPad,佬友们会选择入手吗? 个人感觉小巧便携,使用还是很方便的,就是高配置和大pad价格相差无几了。 17 个帖子 - 8 位参与者 阅读完整话题
前言 龙虾 爆火后,各家都在推自己的龙虾 但我实在想不出有什么作用,甚至也问过各种ai,给出的用法跟我毫无关系,或者很鸡肋。 最终在服务器上的龙虾只做一件事:就是搜集新闻,然后发给我。 自启动项 然后近期我灵机一动,windows的【启动项】藏得很深,有些在注册表里,有些在文件夹
现在各家都在降额度,那是不是cursor反而显得划算了?各位佬友怎么看,建议订阅cursor嘛? 10 个帖子 - 6 位参与者 阅读完整话题
6 个帖子 - 3 位参与者 阅读完整话题
看到一段很有趣的话和评论,然后尝试让各个模型进行了续写。 OpenAI: 我们还能把模型能力再抬上去一些 DeepSeek: 我们还能把模型价格再打下来一些 达里奥: 这东西太危险了,只有像我们这种极度重视安全、有顶级技术的大厂,才知道怎么控制它 Google: 用的人太多了,我
从docx转markdown的长文本提炼数据, 数据txt形式100多k,测试是通过各家网页.. 对比千问max3(3.6),小米mimo 2.5pro,要求保留格式 ds是唯一把多个\n保留的,使用flash快速效果比带思考的好一些(带思考的会过度思考多出来超出预期的) qwe
现在使用的cherry,但是限制打开数量为3个,想找一个平替的,只要能打开网页版就行,别的不需要。 2 个帖子 - 2 位参与者 阅读完整话题
especially国模,也算是对提高国模水平的一种帮助了(? 10 个帖子 - 9 位参与者 阅读完整话题