自己项目实际跑的测试,agent基座是pi sdk
一个单次分析规划子agent,涉及大量工具调用形成结构化文档
测试使用实际的pi workspace和上游文件,
结构分是测试文件自己生成,内容分是gpt5.5逐个读取生成内容打分。
API来源:kimi minimax glm 来自fireworks AI,其他均为官方订阅,或官方api
测试文件prompt:和打分脚本
全部由codex自己策划实施。
测试文件prompt:和打分脚本:
归档.zip (24.3 KB)
1 个帖子 - 1 位参与者