中国首个自研视频大模型Vidu发布

一辆越野车行驶在森林中，阳光透过树叶的缝隙，形成一道道斑驳的光束，洒在越野车的车身上，闪烁着金属般的光泽……4月27日，在2024中关村论坛年会“人工智能主题日”主论坛——未来人工智能先锋论坛上，生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。

该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辦率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。

根据现场演示的效果，Vidu能够模拟真实的物理世界，能够生成细节复杂、并且符合真实物理规律的场景，例如合理的光影效果、细腻的人物表情等。它还具有丰富的想象力，能够生成真实世界不存在的虚构画面，创造出具有深度和复杂性的超现实主义内容，例如“画室里的一艘船正在海浪中驶向镜头”这样的场景。清华大学人工智能研究院副院长、生数科技首席科学家朱军表示：“作为中国自研视频大模型，Vidu还能理解中国元素，能够在视频中生成例如熊猫、龙等特有的中国元素。”

此外，Vidu能够生成复杂的动态镜头，不再局限于简单的推、拉、移等固定镜头，而是能够围绕统一主体在一段画面里实现远景、近景、中景、特写等不同镜头的切换，包括能直接生成长镜头、追焦、转场等效果，给视频注入镜头语言。

值得一提的是，会场上播放的短片中的片段都是从头到尾连续生成，没有明显的插帧现象，从这种“一镜到底”的表现能够推测出，Vidu采用的是“一步到位”的生成方式，从文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其它多步骤的处理。

“在今年2月，文生视频大模型Sora发布后，我们发现其刚好和我们的技术路线高度一致，这也让我们坚定地进一步推进了自己的研究。”朱军说。据悉，Sora发布推出后，Vidu团队基于对U-ViT架构的深入理解及长期积累的工程与数据经验，在短短两个月进一步突破长视频表示与处理关键技术，研发推出Vidu视频大模型，显著提升视频的连贯性与动态性。

从图文任务的统一到融合视频能力，作为通用视觉模型，Vidu能够支持生成更加多样化、更长时长的视频内容，同时面向未来，灵活架构也将能够兼容更广泛的模态，进一步拓展多模态通用能力的边界。

Vidu的问世，不仅是U-ViT融合架构在大规模视觉任务中的又一次成功验证，也代表了生数科技在多模态原生大模型领域的持续创新能力和领先性。朱军表示，大模型的突破是一个多维度、跨领域的综合性过程，需要技术与产业应用的深度融合。因此在发布之际，生数科技正式推出“Vidu大模型合作伙伴计划”，诚邀产业链上下游企业、研究机构加入，共同构建合作生态。（记者魏颖郭思岐）