各家顶级模型agent能力横向测评

编辑部 2026-05-04T09:50:24.715986 30363 阅读 tech

自己项目实际跑的测试，agent基座是pi sdk 一个单次分析规划子agent，涉及大量工具调用形成结构化文档测试使用实际的pi workspace和上游文件，结构分是测试文件自己生成，内容分是gpt5.5逐个读取生成内容打分。 API来源：kimi minimax glm 来自firewor...

自己项目实际跑的测试，agent基座是pi sdk

一个单次分析规划子agent，涉及大量工具调用形成结构化文档

测试使用实际的pi workspace和上游文件，

结构分是测试文件自己生成，内容分是gpt5.5逐个读取生成内容打分。

API来源：kimi minimax glm 来自fireworks AI，其他均为官方订阅，或官方api

测试文件prompt：和打分脚本

全部由codex自己策划实施。

测试文件prompt：和打分脚本：

归档.zip (24.3 KB)

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文

各家顶级模型 agent 能力一个现在帖子

各家顶级模型agent能力横向测评

douyin上的这种也能搞土区plus吗

有没有适合surface触屏的linux系统？

相关推荐