国产大模型横评,GLM5.1、kimi-k2.6、deepseek-v4-pro、MiMo-V2.5-Pro、qwen3.6-plus等

AI 模型 iOS 26 天气卡片生成能力对比测试报告 测试日期:2026 年 5 月 13 日 测试工具:Claude Code 测试模型:共 9 个 本来正文打算直接贴源码但是内容长度受限发不出去 只能集中打包了 web源码.zip (59.0 KB) 统一提示词 以 iOS 26 的设计风格做...
国产大模型横评,GLM5.1、kimi-k2.6、deepseek-v4-pro、MiMo-V2.5-Pro、qwen3.6-plus等
国产大模型横评,GLM5.1、kimi-k2.6、deepseek-v4-pro、MiMo-V2.5-Pro、qwen3.6-plus等

AI 模型 iOS 26 天气卡片生成能力对比测试报告

测试日期:2026 年 5 月 13 日

测试工具:Claude Code

测试模型:共 9 个


本来正文打算直接贴源码但是内容长度受限发不出去
只能集中打包了
web源码.zip (59.0 KB)


统一提示词

以 iOS 26 的设计风格做一个带有动画效果的天气卡片,要求是使用 HTML、CSS 和基础 JavaScript,使用横板天气页面(拥有 4 个天气卡片 (晴天,大风,暴雨,暴雪))。应足够美观,实现一定的交互效果。

前置条件:除了模型其它完全统一。


1. GLM-5.1

GLM5.1

GLM5.1

  • ** 思考阶段 **:Worked for 15s,会自主识别 skills 技能并推荐使用 xx 技能以及推荐原因并提示方案选择以及确认(默认选模型推荐的)

  • ** 完成耗时 **:21m 28s,过程中会调用工具对代码页面进行审查等全程无主动引导

查看 GLM-5.1 生成的代码 (点击了解更多详细信息)

2. Kimi-K2.6

kimi-k2.6

截图 kimi2.6

  • ** 思考阶段 **:无特殊思考阶段

  • ** 完成耗时 **:3m 5s,未主动调用相关工具 skills 等

查看 Kimi-K2.6 生成的代码 (点击了解更多详细信息)

3. DeepSeek-V4-Pro

deepseek-v4-pro

deepseek-v4-pro

  • ** 思考阶段 **:Cogitated for 17s,会自主识别 skills 技能并推荐使用 xx 技能以及推荐原因并提示方案选择以及确认(推荐的技能正好和 GLM5.1 一样但是建议选择模型恰好相反,这里选择了模型推荐的)

  • ** 完成耗时 **:12m 22s,过程中会调用工具对网页进行查看模型看了后表现的很满意

查看 DeepSeek-V4-Pro 生成的代码 (点击了解更多详细信息)

4. DeepSeek-V4-Flash

deepseek-v4-flash

deepseek-v4-flash

  • ** 思考阶段 **:Brewed for 9s,会自主识别 skills 技能并推荐使用 xx 技能以及推荐原因并提示方案选择以及确认(推荐的和 v4pro 一致)

  • ** 完成耗时 **:4m 11s,没有调用相关工具等直接给你产出

查看 DeepSeek-V4-Flash 生成的代码 (点击了解更多详细信息)

5. Qwen3.6-Plus

qwen3.6-plus

qwen3.6-plus

  • ** 思考阶段 **:Baked for 10s,会自主识别 skills 技能并推荐使用 xx 技能以及推荐原因并提示方案选择以及确认(和 d4pro、d4flash 推荐一致)

  • ** 完成耗时 **:3m 18s,直接产出,多了个帮你打开了生成好的代码页面这一行为

查看 Qwen3.6-Plus 生成的代码 (点击了解更多详细信息)

6. Qwen3.6-Flash

qwen3.6-flash

qwen3.6-flash

  • ** 思考阶段 **:Churned for 3s,直接推荐了一个技能给出了理由然后询问你是否调用(和 deepseek-v4-pro 最终建议选择的技能一致)

  • ** 完成耗时 **:56s,直接产出,多了个帮你打开了生成好的代码页面这一行为

查看 Qwen3.6-Flash 生成的代码 (点击了解更多详细信息)

7. MiMo-V2.5-Pro

MiMo-V2.5-Pro

MiMo-V2.5-Pro

  • ** 完成耗时 **:4m 57s,自主识别相关 skills 并直接调用然后开始执行,没给选择的机会,给出了最终产物准备调用工具对效果查看的时候中断了

  • ** 报错 **:There’s an issue with the selected model (claude-opus-4-7). It may not exist or you may not have access to it. Run /model to pick a different model.

  • ** 备注 **:尝试了无论怎么改都没办法继续了,一直提示这个报错,之前没出现过

查看 MiMo-V2.5-Pro 生成的代码 (点击了解更多详细信息)

8. MiniMax M2.7

MiniMax M2.7

MiniMaxM2.7

  • ** 思考阶段 **:Worked for 18s,会自主识别 skills 技能并推荐使用 xx 技能以及推荐原因并提示方案选择以及确认(和 d4pro、d4flash 推荐一致)

  • ** 完成耗时 **:2m 43s,直接给出了最终产物,无其它工具链调用

查看 MiniMax M2.7 生成的代码 (点击了解更多详细信息)

9. Codex GPT5.5(思考模式高)

ImgBB

GPT5 5 hosted at ImgBB

图片 GPT5 5 托管于 ImgBB

GPT5.5

  • ** 步骤 1**:同时调用了多个 skill,然后思考了一大堆流程,还联网查了些东西(应该是 iOS 26 规范),自己跟自己确认了些内容,然后直接开始写代码了

  • ** 步骤 2**:代码完成后又进行了一轮思考,然后调用了工具进行 web 页面查看,然后补了个 favicon.ico

  • ** 步骤 3**:检查了是否有报错,检查了不同尺寸下的布局自己确认了卡片不会挤压或文字重叠

  • ** 步骤 4**:检查了交互流程,又检查一遍控制台是否报错

  • ** 步骤 5**:又检查了几组不同尺寸下的布局响应式效果

  • ** 步骤 6**:自主删除了调试过程中出现的产物

  • ** 完成耗时 **:14m 45s

查看 Codex GPT5.5 生成的代码 (点击了解更多详细信息)

天气动画 HTML 生成任务 · 多模型综合对比报告

综合对比表(基于代码客观指标)

以下数据均通过脚本分析各模型生成的 HTML 文件得出,不包含主观评分。

行为记录表(来自测试观察)

模型 完成耗时 Skills 调用 工具链调用 验证步骤 GLM-5.1 21m 28s 推荐并确认 页面审查等 无主动引导 Kimi-K2.6 3m 5s 无 无 无 DeepSeek-V4-Pro 12m 22s 推荐并确认 网页查看 查看后满意 DeepSeek-V4-Flash 4m 11s 推荐并确认 无 无 Qwen3.6-Plus 3m 18s 推荐并确认 打开页面 无 Qwen3.6-Flash 56s 推荐技能 打开页面 无 MiMo-V2.5-Pro 4m 57s 直接调用 中断报错 中断无法继续 MiniMax M2.7 2m 43s 推荐并确认 无 无 Codex GPT5.5 14m 45s 多技能调用 全面验证 6 步验证

代码客观指标对比

模型 代码规模 @keyframes backdrop-filter 毛玻璃边框 粒子系统 SVG图标 交互功能数 响应式断点 CSS变量 外部字体 DOM创建 GLM-5.1 981行 30KB 2 2 0 Canvas 4 9 3 26 — 0 Kimi-K2.6 629行 20KB 8 2 0 CSS/DOM 0 5 1 5 — 2 DeepSeek-V4-Pro 871行 24KB 12 2 0 CSS/DOM 0 7 2 17 — 6 DeepSeek-V4-Flash 952行 30KB 16 4 2 Canvas 6 7 1 0 — 2 Qwen3.6-Plus 903行 24KB 9 5 0 CSS/DOM 0 5 2 10 ✓ 13 Qwen3.6-Flash 805行 24KB 7 2 0 Canvas 5 6 3 5 ✓ 1 MiMo-V2.5-Pro 1237行 40KB 14 6 3 CSS/DOM 12 8 2 22 ✓ 5 MiniMax M2.7 904行 34KB 9 2 0 CSS/DOM 0 3 2 12 ✓ 2 Codex GPT5.5 1044行 30KB 8 5 3 CSS/DOM 0 7 3 36 — 1

交互功能明细

模型 3D倾斜 透视变换 点击展开 场景切换 时钟 °C/°F 闪电 涟漪 动画开关 键盘 懒加载 rAF resize GLM-5.1 ✓ ✓ ✓ ✓ — — ✓ — — ✓ — ✓ ✓ Kimi-K2.6 ✓ ✓ — ✓ — — — ✓ — — — — — DeepSeek-V4-Pro ✓ ✓ ✓ ✓ ✓ — ✓ — — — — — — DeepSeek-V4-Flash — — — ✓ ✓ — ✓ — — ✓ — ✓ ✓ Qwen3.6-Plus ✓ ✓ — ✓ ✓ — — — — — — — — Qwen3.6-Flash ✓ ✓ — — — — — — — — ✓ ✓ ✓ MiMo-V2.5-Pro ✓ ✓ ✓ ✓ — — ✓ ✓ — ✓ — — — MiniMax M2.7 ✓ ✓ — — — — — — — — — — ✓ Codex GPT5.5 ✓ — — ✓ — ✓ ✓ — ✓ ✓ — — ✓

天气动画明细

模型 晴天动画 大风动画 暴雨动画 暴雪动画 动画总数 GLM-5.1 有 风线流动 雨滴下落 有 2 Kimi-K2.6 太阳脉冲、光芒旋转 风线流动 雨滴下落 雪花飘落 5 DeepSeek-V4-Pro 太阳脉冲、光线淡入、光粒浮动 风线流动、风粒子 雨滴下落、闪电闪烁 雪花飘落、冰霜覆盖 9 DeepSeek-V4-Flash 太阳脉冲 风线流动 雨滴下落、云层漂移、闪电闪烁 雪花飘落、雪云漂移 7 Qwen3.6-Plus 太阳脉冲、光芒旋转、光粒浮动 风线流动、树叶飘飞 雨滴下落、溅射效果 雪花飘落、积雪地面 9 Qwen3.6-Flash 太阳脉冲、光芒旋转 风线流动 雨滴下落 雪花飘落 5 MiMo-V2.5-Pro 太阳脉冲、光线淡入、光环扩散 风线流动、风曲线动画 雨滴下落、闪电闪烁 雪花飘落、冰霜覆盖、雪花旋转 10 MiniMax M2.7 太阳脉冲、光芒旋转、悬停增强 风线流动、漩涡旋转 雨滴下落 雪花飘落、冰霜覆盖 8 Codex GPT5.5 太阳脉冲、光环旋转 风线急流 云层漂移、闪电闪烁 — 5

关键发现

  1. Skills 推荐一致性:DeepSeek-V4-Pro、DeepSeek-V4-Flash、Qwen3.6-Plus、MiniMax M2.7 推荐的技能一致,GLM-5.1 推荐相同技能但建议选择相反
  2. 代码规模最重:MiMo-V2.5-Pro(1237行/40KB),最轻:Kimi-K2.6(629行/20KB)
  3. @keyframes 动画最多:DeepSeek-V4-Flash(16个),最少:GLM-5.1(2个,动画由 Canvas rAF 循环驱动)
  4. 毛玻璃边框最完善:MiMo-V2.5-Pro 和 Codex GPT5.5 各有 3 处 rgba(255,255,255) 玻璃边框,GLM-5.1 和 Kimi-K2.6 无
  5. CSS 变量体系:Codex GPT5.5 36 个变量(设计系统最完整),DeepSeek-V4-Flash 0 个(无设计系统)
  6. 交互功能最丰富:GLM-5.1 和 Codex GPT5.5 各 9 个交互功能,MiniMax M2.7 仅 3 个
  7. GPT5.5 最全面:联网查 iOS 26 规范、6 步验证、°C/°F 切换和动画开关是独有功能
  8. MiMo-V2.5-Pro 报错问题claude-opus-4-7 模型报错无法继续,可能与模型切换机制有关
  9. Qwen Flash 极速:56s 完成是最快的,但交互功能(6个)和天气动画(5个)均为中等水平
  • GLM5.1
  • kimi-k2.6
  • deepseek-v4-flash
  • deepseek-v4-pro
  • qwen3.6-plus
  • qwen3.6-flash
  • MiMo-V2.5-Pro
  • MiniMax M2.7
  • GPT5.5

点击以查看投票。

8 个帖子 - 7 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文