字节跳动升级Doubao-Seed-2.0-lite,支持全模态理解

今天,Doubao-Seed-2.0-lite 升级新版本,这是豆包大模型家族首款全模态理解模型,支持视频、图像、音频、文本原生统一理解,Agent、Coding 与 GUI 能力同步升级。在同等算力成本下,是企业大规模、批量化部署全模态推理任务的更优性价比选择。 Doubao-Seed-2.0-l...
字节跳动升级Doubao-Seed-2.0-lite,支持全模态理解
字节跳动升级Doubao-Seed-2.0-lite,支持全模态理解

今天,Doubao-Seed-2.0-lite 升级新版本,这是豆包大模型家族首款全模态理解模型,支持视频、图像、音频、文本原生统一理解,Agent、Coding 与 GUI 能力同步升级。在同等算力成本下,是企业大规模、批量化部署全模态推理任务的更优性价比选择。

640

17780709893605252882435632443352

Doubao-Seed-2.0-lite 全新版本已在火山方舟上线,点击文末【阅读原文】即可调用体验。更多模型信息可访问模型主页:https://seed.bytedance.com/seed2。

新版本的 Doubao-Seed-2.0-lite 继续在视觉理解能力上大幅提升,在物理(HiPhO)、医疗(MedXpertQA)等高阶学科推理上,表现大幅超越2月发布的 Doubao-Seed-2.0-pro。在细粒度感知(BabyVision、WorldVQA)与具身理解(ERQA)等关键领域达到 SOTA 水平,更适合企业在高价值场景规模化部署。

融入语音理解后,新版本的 Doubao-Seed-2.0-lite 可同时理解多种输入模态,并完成跨模态联合推理,直接处理必须“音画结合”才能判断的复杂业务需求。

在视频理解场景下,模型能够联合分析视频中的画面与音频信息,精准辨析视频中的视听一致性,判断“看到的”与“听到的”是否一致。

同时支持根据自然语言指令,在视频中精准定位特定事件发生的时间点;更能跨越多个时间段提取关键线索,持续追踪人物与事件发展,并基于画面进行多步逻辑推理,还原事件关系与行为脉络。

1778071012854350447459673304472
1778071012854350447459673304472

在音频上,模型支持19个语种的精准语音转写、中英文与其他14个语种互译,还能深度捕捉语音中的情绪变化、环境背景声与音乐细节,输出更完整、更接近人类认知的语义信息。根据公开评测集,Doubao-Seed-2.0-lite 在语音识别、翻译等多项音频理解基准上优于 Gemini-3.1-Pro。

17780710484624326530092707817348

Doubao-Seed-2.0-lite 对多轮、多步、多约束的用户指令遵循度显著提升;继续增强任务反思推理与多 Agent 协同调度能力,让 Agent 在长程任务中自我拆解、自我校验,不偏题、不遗漏。

Doubao-Seed-2.0-lite 深度适配 OpenClaw、Hermes Agent 等框架,强化深度搜索与 Skill 动态调用,可边执行、边沉淀经验,越用越聪明。

模型的 Coding 能力全面覆盖前端页面、3D 场景与游戏开发,交付产物在视觉美观度与工程完整度上进一步提升,胜任从原型到上线的前后端深度开发。

基于升级的 GUI 能力,Doubao-Seed-2.0-lite 将“看懂界面”与“动手操作”打通为一条闭环:既能精准识别按钮、菜单、表单、弹窗等界面元素及其状态,也能稳定完成点击、输入、右键、滚动、拖拽等 Browser Use 与 Computer Use 操作。

17780710622554296061868632318792

从读懂一张网页,到跨应用、跨窗口连续执行一整套业务流程,让 Agent 真正具备“端到端把活干完”的交付力。

全模态理解结合持续增强的 Agent、Coding和GUI 能力,可以帮助各领域企业用户解锁更多商业化应用场景。

以电竞游戏场景为例,在下面的AI电竞教练比赛例子中,模型联合分析比赛画面与语音指挥,围绕准星、身法、道具、经济、对枪、声音反应等游戏中的多维信息做切片点评;基于视频深度解构能力,跨越整场比赛的多个回合追踪同一选手的走位与决策轨迹,赛后生成高光/失误图谱与时间轴复盘。

依托 Agent Harness 框架,模型可连续执行跨越25小时的长程任务,像真人教练一样精准指出玩家的提升建议。

此外,AI电竞教练的整套交互界面也由 Doubao-Seed-2.0-lite 模型直接生成——从战况图谱到时间轴复盘卡片,排版整洁、层级清晰,视觉美观度与工程完整度均达到可上线的水准。

此外,Doubao-Seed-2.0-mini 全新版也已同步上线,同样支持全模态理解,对比上一版本,思考长度大幅缩短,Tokens 效率更高。

https://mp.weixin.qq.com/s/nWOSnTKD07ORQGf54LQqKQ

12 个帖子 - 10 位参与者

阅读完整话题

来源: linux.do查看原文