大海捞针测试模型上下文,这种方法是否存在严重的局限性?

用的grok-4.20和grok-4.30测试。 用于大海捞针的文本是codex生成的,实际大小4668kb,估算token量1.5m,上传到grok,测试大海捞针问题,都能准确的答对。 但是我上传一部百万字小说,3047kb ,openai的分词网站估算token是0.89m,问grok里面某个配...
大海捞针测试模型上下文,这种方法是否存在严重的局限性?
大海捞针测试模型上下文,这种方法是否存在严重的局限性?

用的grok-4.20和grok-4.30测试
用于大海捞针的文本是codex生成的,实际大小4668kb,估算token量1.5m,上传到grok,测试大海捞针问题,都能准确的答对。
但是我上传一部百万字小说,3047kb ,openai的分词网站估算token是0.89m,问grok里面某个配角和主角的关系,要求不联网搜索,结果第一次直接瞎编了人物关系,后续强调禁止编造,试了两个模型,5次全都告诉我不存在这个配角。
大海捞针的情况来看,上下文确实没被阉割,但从实际上来说,这个上下文并不能算有效上下文。

10 个帖子 - 7 位参与者

阅读完整话题

来源: linux.do查看原文