发现大模型编程体验上两个很实用的指标

大模型有各种测试、评分,看的眼花缭乱。 对于 Vibing Coding 来说,这两个指标感觉很重要: 召回率:大模型对前面的信息还能记住多少 指令遵循:大模型能不能按要求办事 我找到了这两个网站: 召回率: https://contextarena.ai/ 指令遵循: https://livebe...
发现大模型编程体验上两个很实用的指标
发现大模型编程体验上两个很实用的指标

模型有各种测试、评分,看的眼花缭乱。

对于 Vibing Coding 来说,这两个指标感觉很重要:

  1. 召回率:大模型对前面的信息还能记住多少
  2. 指令遵循:大模型能不能按要求办事

我找到了这两个网站:
召回率:https://contextarena.ai/
指令遵循:https://livebench.ai/ 表格中“IF Average”那一列

各位佬可以看看这两个指标与自己的体验相不相符。

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文