AI 模型 iOS 26 天气卡片生成能力对比测试报告
测试日期:2026 年 5 月 13 日
测试工具:Claude Code
测试模型:共 9 个
本来正文打算直接贴源码但是内容长度受限发不出去
只能集中打包了
web源码.zip (59.0 KB)
统一提示词
以 iOS 26 的设计风格做一个带有动画效果的天气卡片,要求是使用 HTML、CSS 和基础 JavaScript,使用横板天气页面(拥有 4 个天气卡片 (晴天,大风,暴雨,暴雪))。应足够美观,实现一定的交互效果。
前置条件:除了模型其它完全统一。
1. GLM-5.1

-
** 思考阶段 **:Worked for 15s,会自主识别 skills 技能并推荐使用 xx 技能以及推荐原因并提示方案选择以及确认(默认选模型推荐的)
-
** 完成耗时 **:21m 28s,过程中会调用工具对代码页面进行审查等全程无主动引导
2. Kimi-K2.6

-
** 思考阶段 **:无特殊思考阶段
-
** 完成耗时 **:3m 5s,未主动调用相关工具 skills 等
3. DeepSeek-V4-Pro

-
** 思考阶段 **:Cogitated for 17s,会自主识别 skills 技能并推荐使用 xx 技能以及推荐原因并提示方案选择以及确认(推荐的技能正好和 GLM5.1 一样但是建议选择模型恰好相反,这里选择了模型推荐的)
-
** 完成耗时 **:12m 22s,过程中会调用工具对网页进行查看模型看了后表现的很满意
4. DeepSeek-V4-Flash

-
** 思考阶段 **:Brewed for 9s,会自主识别 skills 技能并推荐使用 xx 技能以及推荐原因并提示方案选择以及确认(推荐的和 v4pro 一致)
-
** 完成耗时 **:4m 11s,没有调用相关工具等直接给你产出
5. Qwen3.6-Plus

-
** 思考阶段 **:Baked for 10s,会自主识别 skills 技能并推荐使用 xx 技能以及推荐原因并提示方案选择以及确认(和 d4pro、d4flash 推荐一致)
-
** 完成耗时 **:3m 18s,直接产出,多了个帮你打开了生成好的代码页面这一行为
6. Qwen3.6-Flash

-
** 思考阶段 **:Churned for 3s,直接推荐了一个技能给出了理由然后询问你是否调用(和 deepseek-v4-pro 最终建议选择的技能一致)
-
** 完成耗时 **:56s,直接产出,多了个帮你打开了生成好的代码页面这一行为
7. MiMo-V2.5-Pro

-
** 完成耗时 **:4m 57s,自主识别相关 skills 并直接调用然后开始执行,没给选择的机会,给出了最终产物准备调用工具对效果查看的时候中断了
-
** 报错 **:There’s an issue with the selected model (claude-opus-4-7). It may not exist or you may not have access to it. Run /model to pick a different model.
-
** 备注 **:尝试了无论怎么改都没办法继续了,一直提示这个报错,之前没出现过
8. MiniMax M2.7

-
** 思考阶段 **:Worked for 18s,会自主识别 skills 技能并推荐使用 xx 技能以及推荐原因并提示方案选择以及确认(和 d4pro、d4flash 推荐一致)
-
** 完成耗时 **:2m 43s,直接给出了最终产物,无其它工具链调用
9. Codex GPT5.5(思考模式高)
ImgBB
GPT5 5 hosted at ImgBB
图片 GPT5 5 托管于 ImgBB
-
** 步骤 1**:同时调用了多个 skill,然后思考了一大堆流程,还联网查了些东西(应该是 iOS 26 规范),自己跟自己确认了些内容,然后直接开始写代码了
-
** 步骤 2**:代码完成后又进行了一轮思考,然后调用了工具进行 web 页面查看,然后补了个 favicon.ico
-
** 步骤 3**:检查了是否有报错,检查了不同尺寸下的布局自己确认了卡片不会挤压或文字重叠
-
** 步骤 4**:检查了交互流程,又检查一遍控制台是否报错
-
** 步骤 5**:又检查了几组不同尺寸下的布局响应式效果
-
** 步骤 6**:自主删除了调试过程中出现的产物
-
** 完成耗时 **:14m 45s
天气动画 HTML 生成任务 · 多模型综合对比报告
综合对比表(基于代码客观指标)
以下数据均通过脚本分析各模型生成的 HTML 文件得出,不包含主观评分。
行为记录表(来自测试观察)
模型 完成耗时 Skills 调用 工具链调用 验证步骤 GLM-5.1 21m 28s 推荐并确认 页面审查等 无主动引导 Kimi-K2.6 3m 5s 无 无 无 DeepSeek-V4-Pro 12m 22s 推荐并确认 网页查看 查看后满意 DeepSeek-V4-Flash 4m 11s 推荐并确认 无 无 Qwen3.6-Plus 3m 18s 推荐并确认 打开页面 无 Qwen3.6-Flash 56s 推荐技能 打开页面 无 MiMo-V2.5-Pro 4m 57s 直接调用 中断报错 中断无法继续 MiniMax M2.7 2m 43s 推荐并确认 无 无 Codex GPT5.5 14m 45s 多技能调用 全面验证 6 步验证代码客观指标对比
模型 代码规模 @keyframes backdrop-filter 毛玻璃边框 粒子系统 SVG图标 交互功能数 响应式断点 CSS变量 外部字体 DOM创建 GLM-5.1 981行 30KB 2 2 0 Canvas 4 9 3 26 — 0 Kimi-K2.6 629行 20KB 8 2 0 CSS/DOM 0 5 1 5 — 2 DeepSeek-V4-Pro 871行 24KB 12 2 0 CSS/DOM 0 7 2 17 — 6 DeepSeek-V4-Flash 952行 30KB 16 4 2 Canvas 6 7 1 0 — 2 Qwen3.6-Plus 903行 24KB 9 5 0 CSS/DOM 0 5 2 10 ✓ 13 Qwen3.6-Flash 805行 24KB 7 2 0 Canvas 5 6 3 5 ✓ 1 MiMo-V2.5-Pro 1237行 40KB 14 6 3 CSS/DOM 12 8 2 22 ✓ 5 MiniMax M2.7 904行 34KB 9 2 0 CSS/DOM 0 3 2 12 ✓ 2 Codex GPT5.5 1044行 30KB 8 5 3 CSS/DOM 0 7 3 36 — 1交互功能明细
模型 3D倾斜 透视变换 点击展开 场景切换 时钟 °C/°F 闪电 涟漪 动画开关 键盘 懒加载 rAF resize GLM-5.1 ✓ ✓ ✓ ✓ — — ✓ — — ✓ — ✓ ✓ Kimi-K2.6 ✓ ✓ — ✓ — — — ✓ — — — — — DeepSeek-V4-Pro ✓ ✓ ✓ ✓ ✓ — ✓ — — — — — — DeepSeek-V4-Flash — — — ✓ ✓ — ✓ — — ✓ — ✓ ✓ Qwen3.6-Plus ✓ ✓ — ✓ ✓ — — — — — — — — Qwen3.6-Flash ✓ ✓ — — — — — — — — ✓ ✓ ✓ MiMo-V2.5-Pro ✓ ✓ ✓ ✓ — — ✓ ✓ — ✓ — — — MiniMax M2.7 ✓ ✓ — — — — — — — — — — ✓ Codex GPT5.5 ✓ — — ✓ — ✓ ✓ — ✓ ✓ — — ✓天气动画明细
模型 晴天动画 大风动画 暴雨动画 暴雪动画 动画总数 GLM-5.1 有 风线流动 雨滴下落 有 2 Kimi-K2.6 太阳脉冲、光芒旋转 风线流动 雨滴下落 雪花飘落 5 DeepSeek-V4-Pro 太阳脉冲、光线淡入、光粒浮动 风线流动、风粒子 雨滴下落、闪电闪烁 雪花飘落、冰霜覆盖 9 DeepSeek-V4-Flash 太阳脉冲 风线流动 雨滴下落、云层漂移、闪电闪烁 雪花飘落、雪云漂移 7 Qwen3.6-Plus 太阳脉冲、光芒旋转、光粒浮动 风线流动、树叶飘飞 雨滴下落、溅射效果 雪花飘落、积雪地面 9 Qwen3.6-Flash 太阳脉冲、光芒旋转 风线流动 雨滴下落 雪花飘落 5 MiMo-V2.5-Pro 太阳脉冲、光线淡入、光环扩散 风线流动、风曲线动画 雨滴下落、闪电闪烁 雪花飘落、冰霜覆盖、雪花旋转 10 MiniMax M2.7 太阳脉冲、光芒旋转、悬停增强 风线流动、漩涡旋转 雨滴下落 雪花飘落、冰霜覆盖 8 Codex GPT5.5 太阳脉冲、光环旋转 风线急流 云层漂移、闪电闪烁 — 5关键发现
- Skills 推荐一致性:DeepSeek-V4-Pro、DeepSeek-V4-Flash、Qwen3.6-Plus、MiniMax M2.7 推荐的技能一致,GLM-5.1 推荐相同技能但建议选择相反
- 代码规模最重:MiMo-V2.5-Pro(1237行/40KB),最轻:Kimi-K2.6(629行/20KB)
- @keyframes 动画最多:DeepSeek-V4-Flash(16个),最少:GLM-5.1(2个,动画由 Canvas rAF 循环驱动)
- 毛玻璃边框最完善:MiMo-V2.5-Pro 和 Codex GPT5.5 各有 3 处
rgba(255,255,255)玻璃边框,GLM-5.1 和 Kimi-K2.6 无 - CSS 变量体系:Codex GPT5.5 36 个变量(设计系统最完整),DeepSeek-V4-Flash 0 个(无设计系统)
- 交互功能最丰富:GLM-5.1 和 Codex GPT5.5 各 9 个交互功能,MiniMax M2.7 仅 3 个
- GPT5.5 最全面:联网查 iOS 26 规范、6 步验证、°C/°F 切换和动画开关是独有功能
- MiMo-V2.5-Pro 报错问题:
claude-opus-4-7模型报错无法继续,可能与模型切换机制有关 - Qwen Flash 极速:56s 完成是最快的,但交互功能(6个)和天气动画(5个)均为中等水平
- GLM5.1
- kimi-k2.6
- deepseek-v4-flash
- deepseek-v4-pro
- qwen3.6-plus
- qwen3.6-flash
- MiMo-V2.5-Pro
- MiniMax M2.7
- GPT5.5
8 个帖子 - 7 位参与者