发现大模型编程体验上两个很实用的指标

编辑部 2026-05-04T15:07:27.772749 34847 阅读 tech

大模型有各种测试、评分，看的眼花缭乱。对于 Vibing Coding 来说，这两个指标感觉很重要：召回率：大模型对前面的信息还能记住多少指令遵循：大模型能不能按要求办事我找到了这两个网站：召回率： https://contextarena.ai/ 指令遵循： https://livebe...

发现大模型编程体验上两个很实用的指标

大模型有各种测试、评分，看的眼花缭乱。

对于 Vibing Coding 来说，这两个指标感觉很重要：

召回率：大模型对前面的信息还能记住多少
指令遵循：大模型能不能按要求办事

我找到了这两个网站：
召回率：https://contextarena.ai/
指令遵循：https://livebench.ai/ 表格中“IF Average”那一列

各位佬可以看看这两个指标与自己的体验相不相符。

1 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文

发现模型编程体验两个一个帖子使用