【对比测试】让模型自己计算 Base64 编码是否可以估测模型能力?

最近试了下,让各模型开推理但不调用任何工具,纯算 Base64 编码。似乎表现和模型能力有关系?不知道是否可以帮助鉴别掺水。 以下测试海外模型都走 Openrouter,内地是直连。拿到结果后手工用 Base64 转回文字便于对比。 测试 提示词: 不借助任何其它工具,完全凭你自己的能力,尽力而为,...
【对比测试】让模型自己计算 Base64 编码是否可以估测模型能力?
对比测试】让模型自己计算 Base64 编码是否可以估测模型能力?

最近试了下,让各模型开推理但不调用任何工具,纯算 Base64 编码。似乎表现和模型能力有关系?不知道是否可以帮助鉴别掺水。

以下测试海外模型都走 Openrouter,内地是直连。拿到结果后手工用 Base64 转回文字便于对比

测试

提示词:

不借助任何其它工具,完全凭你自己的能力,尽力而为,将以下内容转换为 base64 :

综合路透社、“政客”新闻网欧洲版(POLITICO.eu)等多家媒体报道,德国反对党绿党表示,这场“令人尴尬的失败”要归咎于默茨和瓦德富尔。

anthropic/claude-haiku-4:

zJ3I6LevyYCP56S+44CB4oCc5pS/5a6i4oCd5pam6Ze7572R6rqn6tSo6Gmor+PCIUB9MSS1USQ0PL211+PCJ6r2J5pGa5rm25qmS5P0T6oCl6gGT+PCM5vm35mP95j+N5r+55hWa6vv/5hWa6hao6hS6+PCM6v8Z5nS64oCc5H0k5H265sC05sCs6moE5pSn6tSl4oCd6paB5v0S5loO5OgO6u4Y6Mmo5ljM6c6m5vm35r/M5sCU44CC
̝Ȩɀ社、“政客”斦闻网꺧ꔨ詨ァ@}1$Q$4<ף§'Fk曚KOOコ柙7瘖k￘VkZR룂3gҫs뛂ӛRRwZaKh;;c&c3:柚3S

anthropic/claude-sonnet-4.6:
全场唯一一个因为思维链条超长被截断的。重试后得到结果。

57u85ZCI6Lev6YCP56S+44CB4oCc5pS/5a6i4oCd5paw6Ze7572R5qyn5rSy
54mI77yIUE9MSVRJQ08uZXXvvInnrYnlpJrlrrblqpLkvZPmiqXpgZPvvIzl
vrflm73lj43lr7nlhZrnu7/lhZrooajnpLrvvIzov5nlnLrigJzku6Tkurrls
LTlsKznmoTlpLHotKXigJ3opoHlvZLlko7kuo7pu5jojKjlkoznk6blvrflr
4zlsJTjgII=
综合路透社、“政客”新闻网欧洲版(POLITICO.eu)等多家媒体报道,德国反对党绿党表示,这场“令人尴尬的失败”要归咎于默茨和瓦德富尔。

anthropic/claude-opus-4.7

57u85ZCI6Lev6YCP56S+44CB4oCc5pS/5a6i4oCd5paw6Ze7572R5qyn5rSy54mI77yIUE9MSVRJQ08uZXXvvInnrYnlpJrlrrblqpLkvZPmiqXpgZPvvIzlvrflm73lj43lr7nlhZrnu7/lhZrooajnpLrvvIzov5nlnLrigJzku6TkurrlsLTlsKznmoTlpLHotKXigJ3opoHlvZLlko7kuo7pu5jojKjlkoznk6blvrflr4zlsJTjgII=
综合路透社、“政客”新闻网欧洲版(POLITICO.eu)等多家媒体报道,德国反对党绿党表示,这场“令人尴尬的失败”要归咎于默茨和瓦德富尔。

google/gemini-3.1-flash-lite-preview:

57yW5ZCD6Lev56Kk44CB4oCc5pKt5a2m4oCd5paw6ZW/5pyq5q2M54iG77yPUE9MSVRJQ08uZXXvvI3nmoTlvq7nmoTkvJrmqbvkuIDnmoTnjq/nmoTnu4TlpJrlupTvvIxk6ZqG5Y+W5a6a5bqU57yW5bqU6K6w56eR77yM6L+R5a6a4oCc5LqM5LqA5pyN5o+Q5b6X6KKL55qE5a+56LW34oCd6KaB5pys5Z2a5LqU6buR5o6o5ZKM55Wq5b6t5a6j5YWl44CC
编吃路碤、“播学”新长未歌爆/POLITICO.eu-的微的会橻一的环的组多应,d隆取定应编应记科,近定“二亀服提得袋的对起”要本坚五黑推和番徭宣入。

google/gemini-3-flash-preview:

57u85ZCI6Lev6YCP56S+44CB4oCc5pS/5a6i4oCd5paw6Ze7572R5qyX5rSy54mIKFBPTElUSUNPLmV1KeetieWkmuWutuaomeS9k+aKpemBk++8jOW+tOWbv+WPjeWvueWFlue7v+WFlukooOeku++8jOi_meaZy+KAnOS7pOS6uuWCtOWCrueahOWkuei0peKAnOimgeW9kuWSmOS6jum7mOiMiOWSjOeVpOW+tOWvjOWwlOOAgA==
综合路透社、“政客”新闻网欗洲版(POLITICO.eu)等多家標体报道,徴囿反对兖绿兖騠礻,覹r'9.鹮`9`桹i.z-)x':)yodd9.n溣"9d9婹o9k㹬%8ࠀ

google/gemini-3.1-pro-preview:

57u85ZCI6Lev6YCP56S+44CB4oCc5pS/5a6i4oCd5paw6Ze7572R5qyn5rSy54mI77yIUE9MSVZJQ08uZXUvvInnrYnlpJrlrrblqpLkvZPmiqXpgZPvvIzlvrflm73lj43lr7nlhZrnu7/lhZrooajnpLrvvIzov5nlnLrigJzku6TkurrlsLTlsKznmoTlpLHotKXigJ3opoHlvZLlko7kuo7pu5jojKjkoznk6blvrflr4zlsJTjgII=
综合路透社、“政客”新闻网欧洲版(POLIVICO.eu/等多家媒体报道,德国反对党绿党表示,这场“令人尴尬的失败”要归咎于默茨䣹䩹ok㹬%8ࠀ

google/gemini-3.5-flash:

57u85ZCI6Lev6YAP56S+44CB4occ5pS/5a6i4ocd5paw6Ze7572R5qyn5rsy54mI7+yIUE9MSUpJQ08uZXXvvInnrYnlpJvlrrblqpLkvZPmiqXpgZPvvIzlvrflm73j83lr7nlhZvnu7/lhZvoajnpLrvvIzov5nlnLrigJzku6Tkurrlu5DlsKznmoTlpLHotKfigJ3opoHlvZLlko7kuo7pu5jojKjlkoznk6blvrflr4zlsJTjgII=
综合路透社、⇜政客⇝新闻网欧滲版﬈POLIJICO.eu)等夛家媒体报道,德国㳹kfafzKȎYˮ(	΋NK[[
ιNZKJ~(	ފh[ٮY(ʎY(ι:n[뾚Λ	N8

openai/gpt-5.4-mini:

57u85ZCI6Lev6YCP56S+44CB4oCc5pS/5a6i4oCd5paw6Ze7572R5qyn5rSy54mI77yIUE9MSVRJQ08uZXXvvInnrYnlpJrlrrblqpLkvZPmiqXpgZPvvIzlvrflm73lj43lr7nlhZrnu7/lhZrooajnpLrvvIzov5nlnLrigJzku6TkurrlsLTlsKfnmoTlpLHotqXigJ3opoHlvZLlko7kuo7pu5jojqjlkoznk6blvrflr4zlsJTjgII=
综合路透社、“政客”新闻网欧洲版(POLITICO.eu)等多家媒体报道,德国反对党绿党表示,这场“令人尴尧的失趥”要归咎于默莨和瓦德富尔。

openai/gpt-5.5:

57u85ZCI6Lev6YCP56S+44CB4oCc5pS/5a6i4oCd5paw6Ze7572R5qyn5rSy54mI77yIUE9MSVRJQ08uZXXvvInnrYnlpJrlrrblqpLkvZPmiqXpgZPvvIzlvrflm73lj43lr7nlhZrnu7/lhZrooajnpLrvvIzov5nlnLrigJzku6TkurrlsLTlsKznmoTlpLHotKXigJ3opoHlvZLlko7kuo7pu5jojKjlkoznk6blvrflr4zlsJTjgII=
综合路透社、“政客”新闻网欧洲版(POLITICO.eu)等多家媒体报道,德国反对党绿党表示,这场“令人尴尬的失败”要归咎于默茨和瓦德富尔。

x-ai/grok-4.3:

5Y+v6Kej6K665LiL56S+55qE55yL5aSH57O757uf77yM5Zu96ZmF5Yqe6Kej6K665LiL5LiA6Kej5paH77yM5aSW5Yqe6Kej6K665LiL5LiA6Kej5paH77yM5aSW5Yqe6Kej6K665LiL5LiA6Kej5paH77yM5aSW5Yqe6Kej6K665LiL5LiA6Kej5paH77yM5aSW5Yqe6Kej6K665LiL5LiA6Kej5paH
可解论下社的看备系统,国际办解论下一解文,外办解论下一解文,外办解论下一解文,外办解论下一解文,外办解论下一解文

deepseek-v4-flash:

53u85ZCI6Lev6YCP56S+44CB4oCc5lK/5XWE4oCd5paw5ZCM5Lit5LqR5Y2c6Iy2CuaVsOW3t+W8gOWFjeaWueaYjuaXtuWKoQrlrp7mlbTlr4bmlbTlr4blpKfmlbTov5DkupHmlbTov5DkupHmlbTov5DkuqTmlbTov5Dml7bkuqTmlbTov5Dplb/lj5HnlJ/mlbTml7bplb/lj5HnlJ/mlbTlj5HmlbTlj5HnlJ/nlJ/mlbTml7bplb/lj5HnlJ/lj5HmlbTlj5HnlJ/kuqTmlbTlj5HnlJ/lj5HnlJ/mlbTlj5HnlJ/plb/lj5HnlJ/mlbTml7bplb/lj5HnlJ/lj5HmlbTlj5HnlJ/lj5HnlJ/mlbTlj5HnlJ/lj5HnlJ/lj5HnlJ/lj5HmlbTlj5HnlJ/lj5HnlJ/mlbTlj5HnlJ8=
综合路透社、“撿嵄”新同中云卜茶
数巷开免方明时务
实整密整密大整运云整运云整运交整运时交整运长发生整时长发生整发整发生生整时长发生发整发生交整发生发生整发生长发生整时长发生发整发生发生整发生发生发生发整发生发生整发生

deepseek-v4-pro:

57u85ZCI6Lev6YCP56S+44CB4oCc5pS/5a6i4oCd5paw6Ze7572R5qyn5rSy54mI77yIUE9MSVRJQ08uZXXvVInnrYnlpJrlrrblqpLkvZPmiqXpgZPvvIzlvrflm73lj43lr7nlhZrnu7/lhZrooajnpLrvvIzov5nlnLrigJzku6TkurrlsLTlsKznmoTlpLHotKXigJ3opoHlvZLlko7kuo7pu5jojKjlkoznk6blvrflr4zlsJTjgII=
综合路透社、“政客”新闻网欧洲版(POLITICO.eu等多家媒体报道,德国反对党绿党表示,这场“令人尴尬的失败”要归咎于默茨和瓦德富尔。

分析

这个测试或许能从三个方面测出模型能力:

  1. 知识储备:需要知道汉字的UTF编码。比如 gemini-3.1-flash-lite-preview ,汉字全乱套了,但英文都是对的,可能是参数量太小记不住。
  2. 稳定性:就算知道正确的UTF编码,但需要能正确拼装,不能中途搞错。比如 deepseek-v4-pro 差一点就全对了,就是错在一个大小写。
  3. 推理效率:对于基本答对的模型, claude-sonnet-4.6 用了 54,935 tokens, deepseek-v4-pro 用了 42,238 tokens,claude-opus-4.7 用了 24,595 tokens, gpt-5.5 用了 9,506 tokens。效率的高低可能也会影响用户的帐单。(直接对比不严谨,还需把各家不同推理档位都测一遍才能判断)

而且,测试的长度还可以随意延长。从很多模型也可以看出,有些一开头还是能对的,但是到后来就开始崩溃了。“崩溃”的边界或许一定程度上也显示了模型能力的上限。

需要指出的是,Base64 不是通用能力,不能简单作为总体能力的度量。由于开销不小,也没有大量复测。只是觉得或许可以用此来识别模型或评估能力。

1 个帖子 - 1 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文