首页
/
科技 / 大海捞针测试模型上下文,这种方法是否存在严重的局限性?…
大海捞针测试模型上下文,这种方法是否存在严重的局限性?
编辑部
2026-05-04T17:28:28.009587
5612 阅读 tech
用的grok-4.20和grok-4.30测试。 用于大海捞针的文本是codex生成的,实际大小4668kb,估算token量1.5m,上传到grok,测试大海捞针问题,都能准确的答对。 但是我上传一部百万字小说,3047kb ,openai的分词网站估算token是0.89m,问grok里面某个配...
大海捞针测试模型上下文,这种方法是否存在严重的局限性?
用的grok-4.20和grok-4.30测试。
用于大海捞针的文本是codex生成的,实际大小4668kb,估算token量1.5m,上传到grok,测试大海捞针问题,都能准确的答对。
但是我上传一部百万字小说,3047kb ,openai的分词网站估算token是0.89m,问grok里面某个配角和主角的关系,要求不联网搜索,结果第一次直接瞎编了人物关系,后续强调禁止编造,试了两个模型,5次全都告诉我不存在这个配角。
从大海捞针的情况来看,上下文确实没被阉割,但从实际上来说,这个上下文并不能算有效上下文。
10 个帖子 - 7 位参与者
阅读完整话题