当前位置: > pg娱乐电子游戏 >

《视频世界模型》新成就:AI持续生成5分钟不掉屏

发布者:365bet网址
来源:未知 日期:2026-01-02 11:09 浏览()
当Sora让世界看到人工智能生成视频的惊人效果时,一个更深层次的问题出现了:如何让生成的视频不仅仅是“看起来”,而是真正理解并遵守物理世界的规律?这是视频世界模型旨在解决的主要挑战。当生成时间从秒延长到分钟时,模型不仅必须是真实的,而且还必须在长时间内保持结构、行为和物理定律的一致性。然而,错误积累和语义漂移往往会导致长视频中的图像质量下降和逻辑崩溃——这已成为衡量现实世界模型能力的主要瓶颈。针对这一挑战,上海人工智能实验室联合复旦大学、南京大学、南洋理工大学S-Lab等单位,推出了LongVie 2——一个世界模型框架,可以生成长达5分钟的高保真、可控视频。 LongVie 2 可以自回归生成3-5分钟的超长可控视频论文:https://arxiv.org/pdf/2512.13604 项目主页:https://vchitect.github.io/LongVie2-project/GitHub:https://github.com/Vchitect/LongVie 视频演示 https://www.youtube.com/watch?v=ln1kMNYj50Y https://mp.weixin.qq.com/s/oMWv6P6mm21XMk9bpZtKXg 什么是完美的视频世界模型?理想的视频世界模型不应“发展得更长”,而应同时具备以下三大能力: 综合控制:在长期发展过程中稳定响应各种控制信号的能力,保持场景结构和运动意图不漂移;持久的视觉保真度(Long-term Fidelity):随着时间的推移,图像质量不会明显下降、纹理崩溃或细节丢失;长上下文一致性:保持语义、身份和物理定律在各个片段和时间之间保持一致,以避免“改变世界”的中断。现有的瓶颈是什么ng 世界模型?本文系统地研究了当前视频世界的基本模型,发现了一个共同的问题:随着开发时间的增加,模型的可控性、视觉保真度和时间一致性会同时下降。 LongVie 2:长期开发时打破现有模型的问题:三阶段渐进训练为了系统地解决上述挑战,LongVie 2设计了一套从控制、稳定性到提高时间一致性循序渐进的三阶段训练方法: LongVie 2 三阶段训练过程第一阶段:密集稀疏多模态控制通过引入密集信号(如深度图)和稀疏信号(如关键点轨迹)为模型提供鲁棒且可解释的世界约束。这使得生成过程不再完全依赖于内隐记忆,从源头上提高长期控制力。第 2 阶段:退化-aw正在训练 在长视频开发中,质量下降几乎是不可避免的。 LongVie 2的主要创新在于:在训练阶段主动“制造困难”—— 使用多个VAE编解码模拟重建误差的退化感知训练示意图;退化图像是通过添加噪声+扩散去噪来构建的。将此作为训练信号,使模型能够学习在不完美的输入下保持稳定的生成,从而显着提高长期视觉保真度。第三阶段:历史上下文建模在生成过程中隐式引入历史片段信息,并通过有针对性的损失来防止相邻片段的连接,使跨片段过渡更加自然和平滑,有效缓解长视频中的语义断裂和逻辑跳转问题。 比较一张图片上三个阶段的训练效果,了解LongVie 2的框架。通过协作LongVie 2通过多模态控制、退化感知训练和历史上下文建模的独特设计,将长视频生成从“片段拼接”升级为不断变化的世界建模过程: LongVie 2的总体框架 从左到右,LongVie 2是世界上第一个将密集(深度)和稀疏(关键点)控制视频归一化为片段,并对所有片段使用统一的噪声初始化。然后,在生成每个片段时,将全局归一化的控制信号、前一个片段的最后一帧以及文本提示输入到模型中,逐渐生成完整的长视频。 LongVie 2 功能演示 这项研究将 LongVie 2 与 Go-With-The-Flow 和 Diffusion As Shader 进行了比较。结果表明,LongVie 2 在控制方面明显优于现有方法: LongVGenBench Ablation Experiment Results,第一个nakokontrol超长视频评估基准,目前缺乏标准化评估用于可控长视频生成。为此,本文提出LongVGenBench,第一个专门为超长视频生成设计的基准数据集。它包含100个时长超过1分钟的高分辨率视频,涵盖各种现实世界场景和合成环境,旨在促进该方向的系统研究和公正分析。定量评价和用户主观评价表明,LongVie 2在多项指标上达到了SOTA水平,获得了最高的用户偏好: 特别声明:本文由网易自媒体平台“网易号”作者上传发布,仅代表作者观点。网易仅提供p信息发布平台。 注:以上内容(如有,包括照片和视频)由网易号用户上传发布,网易号为社交媒体平台,仅提供信息存储服务。
分享到