[优惠信息] 商汤这次的开源文生图模型 Sense Nova U1 的技术报告出来了，量大管饱，还有免费的 token 可以领

编辑部 2026-05-14T19:46:56.555344 2274 阅读 tech

之前刷推老看见有 KOL 在转发他们的产品，这次技术报告一出来，还挺有意思的原文： https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/pdf/SenseNOVA_U1.pdf 先放架构图：熟悉文生图模型的老友们都知道，过去的...

[优惠信息] 商汤这次的开源文生图模型 Sense Nova U1 的技术报告出来了，量大管饱，还有免费的 token 可以领

原文： https://github.com/OpenSenseNova/SenseNova-U1/blob/main/docs/pdf/SenseNOVA_U1.pdf

先放架构图：

熟悉文生图模型的老友们都知道，过去的模型都是先将像素的 RGB 数值转化为向量，放在潜空间里（ VAE 层）
这次他们的统一架构 NEO-Unify 完全摒弃了这个做法，采取的是像素输入，像素输出，让模型直接理解图片，而不是一堆潜空间里的数据

在训练数据上，理解类和生成类数据分别用了：

1. 理解类数据
- 预训练混合比例：包含图文对 (32%)、纯文本 (37%)、详细描述 (17%) 以及信息图表 (14%)。
- 中期训练：采用 SenseNova V6.5 数据集，并通过多维度过滤（采样平衡 + 提示词增强 + 模型自动化评分）进行精炼。
2. 生成类数据
- VLM 重标注 (Re-captioning)：所有图像（涵盖自然、设计、人像、合成类）都去重和 VLM 重标注流水线，确保文本与像素之间的语义对齐
- 交错逻辑：数据分布包括生活方式 (44%)、信息图表 (29%) 和推理 (8%)
- 生成式 CoT (思维链)：每一个推理样本都包含思维链过程，在渲染像素之前，先教会模型理解场景背后的逻辑。

过去我们觉得 VAE 导致的文字模糊和纹理丢失是“必要代价”，但 U1 证明了：只要架构选得对，原生像素生成比潜空间（ Latent Space ）更强。同时在训练方法上，也和其他传统的扩散模型不太一样：

核心方法：

- 无 VAE 视觉接口（ VAE-Free Visual Interface ）：采用 2 层卷积实现 32 倍的图像压缩编码，并使用 MLP （多层感知机）头部直接预测像素。引入了动态噪声缩放（ DNS ）技术，确保从 512px 到 2048px 分辨率下的信噪比（ SNR ）保持一致。
- 原生 MoT （ Mixture-of-Transformers ）：构建了一个统一的主干网络，使理解与生成流共享自注意力层（ Self-Attention ），但使用解耦的 FFN （前馈网络）和 Norm （归一化）层，并根据 Token 类型进行动态路由。
- 联合训练与部署：通过结合自回归（ Auto-regressive ）和流匹配（ Flow Matching ）损失函数进行优化。模型经历了从预热（ Warm-up ）、指令微调（ SFT ）到 8 步蒸馏（ 8-step Distillation ）的 6 阶段训练流水线。部署方面，利用 LightLLM/LightX2V 实现了独立并行调度。

最后放上他们现在可以免费领的 token plan： https://www.sensenova.cn/token-plan
（每 5 小时 1500 次免费调用，Token 消耗比别的模型低 60%）

一些 ShowCase：

来源: v2ex查看原文

优惠信息商汤这次开源一个帖子 IT

[优惠信息] 商汤这次的开源文生图模型 Sense Nova U1 的技术报告出来了，量大管饱，还有免费的 token 可以领

Anthropic 调整 Claude 订阅方案编程独立额度用完将以 API 计费

gpt plus过期还能当plus蹬？这是啥情况

相关推荐