微软发布全新 AI 模型:MAI-Thinking-1 与 MAI-Code-1-Flash 登场,接近Sonnet 4.6水平

2026年6月2日 ,微软 AI团队正式宣布推出两款全新的重磅大语言模型——中型推理模型 MAI-Thinking-1 以及专为日常开发者工作流打造的轻量高效编码模型 MAI-Code-1-Flash 。这两款模型代表了微软在构建“人文超级智能”(Humanist Superintelligence...
微软发布全新 AI 模型:MAI-Thinking-1 与 MAI-Code-1-Flash 登场,接近Sonnet 4.6水平
微软发布全新 AI 模型:MAI-Thinking-1 与 MAI-Code-1-Flash 登场,接近Sonnet 4.6水平

2026年6月2日微软 AI团队正式宣布推出两款全新的重磅大语言模型——中型推理模型 MAI-Thinking-1 以及专为日常开发者工作流打造的轻量高效编码模型 MAI-Code-1-Flash。这两款模型代表了微软在构建“人文超级智能”(Humanist Superintelligence)道路上的重要进展,旨在服务并赋能人类与企业,而非取代他们。

MAI-Thinking-1 是一款稀疏混合专家(MoE)模型(激活参数 35B,总参数量约 1T)。尽管它的推理占用空间比超大型模型更小,但在同量级模型中展现出了最顶尖的性能。该模型没有使用任何第三方模型的蒸馏(Distillation)技术。微软完全基于合规、干净且获得商业授权的企业级数据从零开始对其进行训练,迫使其真正“学会”各项任务。

Screenshot20260603081118Chrome

17804452088666051865609965039761

AIME 2025 达到 97.0%,在 AIME 2026 达到 94.5% 的极高正确率,展示出强悍的科学推理能力。並在 SWE-Bench Pro 软件工程基准测试中,其表现与 Claude Opus 4.6 旗鼓相当。在盲测人类偏好胜过 Sonnet 4.6**:在与 Surge 合作开展的包含 1,276 项跨领域任务的盲测(Blind Side-by-Side)评估中,专业裁判在单轮和多轮对话中都更倾向于选择 MAI-Thinking-1,而非 Claude Sonnet 4.6。

支持 256k 的上下文窗口 ,

MAI-Code-1-Flash 则是针对速度与高效率打造的全新编码模型,目前已面向 Visual Studio Code 中的 GitHub Copilot 个人用户 陆续推出,用户无需额外设置即可在模型选择器中体验。
该模型直接基于 GitHub Copilot 实际生产中的测试框架(Harness)进行训练,使其能完美地与周围的开发工具和系统互动,在阅读代码、编辑文件和运行测试等实际的智能代理任务中表现更优。

Screenshot20260603081304Chrome

Screenshot20260603081427Chrome

模型引入了自适应解决方案长度控制。在面对简单请求时保持精简,在面对复杂难题时则投入更多推理算力。在解决困难问题时,它能减少高达 60% 的 Token 消耗,显著降低了延迟与成本。

在各项核心编码与推理基准测试中,MAI-Code-1-Flash 的准确率和性价比均完胜 Claude Haiku 4.5。在 SWE-Bench Pro 的真实世界任务中,它以 51.2% 对 35.2% 的巨大优势领先了 16 个百分点。並在精确指令遵循测试(IF Bench)中,它更是取得了 +28.9 的领先优势。

Microsoft AI

Introducing MAI-Thinking-1 | Microsoft AI

Microsoft AI

Introducing MAI-Code-1-Flash  | Microsoft AI

Mustafa Suleyman向媒体承认,Anthropic目前仍领先数月,但强调微软正在快速缩小差距:

“我们现在已经处于绝对前沿位置。” “六个月内,我们缩小了一个巨大的差距。”

12 个帖子 - 12 位参与者

阅读完整话题

来源: LinuxDo 最新话题查看原文