opus4.7和gpt5.5分词器的巨大差异

看到有帖子说测试opus4.7的中文token占用比gpt系列高60%,刚才顺手做了一个实测 项目有CLAUDE.md、PROJECT_STATE.md、VISION.md三个主文档,主要是vibe的时候掌控整个项目用的,归档内容单独放按需加载,刚才用这三个文档做了一个简单测试,首先是三个文档的字符...
opus4.7和gpt5.5分词器的巨大差异
opus4.7和gpt5.5分词器的巨大差异

看到有帖子说测试opus4.7的中文token占用比gpt系列高60%,刚才顺手做了一个实测
项目有CLAUDE.md、PROJECT_STATE.md、VISION.md三个主文档,主要是vibe的时候掌控整个项目用的,归档内容单独放按需加载,刚才用这三个文档做了一个简单测试,首先是三个文档的字符数:

类别 CLAUDE.md PROJECT_STATE.md VISION.md 合计
中文(含标点) 1,122 (23.3%) 2,190 (23.7%) 3,572 (44.6%) 6,884
英文 3,685 (76.5%) 7,040 (76.2%) 4,271 (53.3%) 15,012
emoji/其他 10 13 171 194
总字符 4,817 9,243 8,014 22,074

新开一个CLAUDE会话,发送hi加载全局CLAUDE.md+系统提示词,显示上下文占用33.4K,发送指令读取三个文档,上下文占用55.3K,实际消耗21.9K,去除read工具之类可能的占用,大概占用20K左右的上下文

同样的测试方法,Codex使用gpt5.5,发送hi后6%的上下文使用,读取3个文件后11%上下文占用,258*0.05 = 12.9K,不过期间gpt自己写了2个python脚本计算token(o200k_base)得出10767的token,应该和实际差不多。

也就是说在opus4.7下,3个文档的token使用是gpt5.5的一倍,测试比较粗糙也没专门拿文档做测试,不过这个结果挺惊人。

我的工作流新会话必读3文档,然后还有claude-mem的新会话注入,轻松60K起步,4.6的时候我还一直没开1M上下文,现在不开感觉完全不行

2 个帖子 - 1 位参与者

阅读完整话题

来源: linux.do查看原文