IT之家 5 月 22 日消息,美团技术团队今日正式开源了其数字人视频生成模型 LongCat-Video-Avatar 1.5。

官方介绍称,该版本在唇形同步、物理合理性、长视频稳定性、多人互动及推理效率方面均实现了升级,旨在推动数字人视频生成从“高拟真”走向“真可用”的商业化场景。该版本在 1.0 版本的基础上完成全面升级,定位从“开源 SOTA”走向“商业级应用”。
据介绍,这一版本在基础体验上进行了强化,能够应对长句、快语速、歌唱等复杂语音输入,使唇部运动更精准平滑,同时面部表情、头部姿态与肢体动作也更为协调。
在场景支持方面,借助高质量数据体系,模型可稳定处理真人、动漫、动物等多种主体,并在多人对话场景中自然区分说话者与聆听者。
推理部署方面,LongCat-Video-Avatar 1.5 采用 DMD 蒸馏技术,将生成步数从 50 步压缩至 8 步,推理效率提升约 15 倍,生成一段 10 秒视频仅需约 1 分钟。

从技术架构来看,1.5 版本主要在三方面实现升级。首先是基础体验的商用化,模型将音频特征提取编码器从 Wav2Vec2 升级为 Whisper-large,凭借更大的参数量和更丰富的多语言先验,能够更细致地捕捉音素变化与发音节奏,从而提升唇形同步与全身时序稳定性,减少长视频中的抖动、跳帧和身份漂移。

龙猫团队还构建了一套多阶段数据处理流程,包括离线标注和在线验证,并专门增加了多人数据、静默数据和情绪数据三类增强数据,以应对虚拟人生成的典型难点。

此外,通过逐帧级的 GRPO(Group Relative Policy Optimization)偏好对齐,模型针对手部稳定性和动作连续性进行优化,缓解了手部畸变和动作不连贯等问题。

在性能评测方面,美团基于 EvalTalker 构建了覆盖新闻、教育、娱乐等场景的综合基准。由 770 名评估者完成的 13,240 条主观评分及 10 名专家的结构化分析显示,在物理合理性、时间稳定性、身份一致性和音视频协调性四个维度上,LongCat-Video-Avatar 1.5 的雷达图面积处于领先水平。
用户偏好对比中,该模型相比 Kling Avatar 2.0 胜率为 65.9%,相比 OmniHuman-1.5 胜率为 61.1%,相比 HeyGen 胜率为 54.3%。
在多人场景中,其得分大幅领先 InfiniteTalk;主体变形问题率仅为 23.1%,跳帧问题率低至 0.8%,均优于对比模型。


美团方面表示,数字人视频生成正在从展示效果走向真实使用,希望此次开源能成为一个可验证、可改进、可共建的技术基座,让开发者和创作者基于此探索更多应用边界。

开源链接:
Github:https://github.com/meituan-longcat/LongCat-Video
HuggingFace:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
Tech Report:https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf
Project Page:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
Modelscope:https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary