如何测试和对比Harness的有效性?

问题是这样的: 我们最近在测试时候发现一个问题,在Dify中通过Prompt构建一个了一个agent,Prompt做了角色定义,行为,工作流程,输出的相关约束,但是又一次偶然的机会对接错了API,发现不加这些prompt,模型也可以很好的按预期进行输出。这样就带来了一个问题,我们以为可以有效约束模型...
如何测试和对比Harness的有效性?
如何测试对比Harness的有效性?

问题是这样的:
我们最近在测试时候发现一个问题,在Dify中通过Prompt构建一个了一个agent,Prompt做了角色定义,行为,工作流程,输出的相关约束,但是又一次偶然的机会对接错了API,发现不加这些prompt,模型也可以很好的按预期进行输出。这样就带来了一个问题,我们以为可以有效约束模型输出的各类手段,怎么能确定其哪些部分是真的有用,哪些是过度工程化或主观的感觉。有没有一个这样的可以对包括Prompt和Skill这些手段有效性进行benchmark和测试评估的手段。

3 个帖子 - 3 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文