大海捞针测试模型上下文，这种方法是否存在严重的局限性？

编辑部 2026-05-04T17:28:28.009587 5612 阅读 tech

用的grok-4.20和grok-4.30测试。用于大海捞针的文本是codex生成的，实际大小4668kb，估算token量1.5m，上传到grok，测试大海捞针问题，都能准确的答对。但是我上传一部百万字小说，3047kb ，openai的分词网站估算token是0.89m，问grok里面某个配...

用的grok-4.20和grok-4.30测试。
用于大海捞针的文本是codex生成的，实际大小4668kb，估算token量1.5m，上传到grok，测试大海捞针问题，都能准确的答对。
但是我上传一部百万字小说，3047kb ，openai的分词网站估算token是0.89m，问grok里面某个配角和主角的关系，要求不联网搜索，结果第一次直接瞎编了人物关系，后续强调禁止编造，试了两个模型，5次全都告诉我不存在这个配角。
从大海捞针的情况来看，上下文确实没被阉割，但从实际上来说，这个上下文并不能算有效上下文。

10 个帖子 - 7 位参与者

阅读完整话题

来源: linux.do查看原文

大海捞针测试模型上下文这种一个帖子使用

大海捞针测试模型上下文，这种方法是否存在严重的局限性？

[问与答] 大疆 Pocket 4 好难抢，是饥饿营销还是真缺货？

佬们，有没有win上轻量好用的卸载软件的应用推荐

相关推荐