微软研究院推出 Mirage 视频生成模型:搭载长效空间记忆,镜头流转场景不 “失忆”

2026年06月15日 由 alex 发表 3481 0

Mirage 是一款全新的视频世界模型,摒弃了基于像素存储的高开销方案,不仅提升了视频生成速度,即便镜头大幅移动,也能始终保持场景空间结构稳定。该模型由多所高校联合微软研究院(Microsoft Research)共同研发。


视频世界模型能够根据初始画面与镜头运动轨迹,生成连贯自然的动态影像,可应用于场景模拟、虚拟环境搭建等领域。但多数主流生成模型缺乏记忆能力,随着镜头推移,空间信息会逐渐错乱:当镜头转回此前扫过的房间角落时,景物样貌会发生改变,家具位置偏移、画面纹理也出现失真。


Voyager、WonderWorld、Spatia 等现有模型,试图借助持续录入色彩数据的三维点云来解决该问题。但模型每完成一轮生成,都需要先渲染点云,再将结果转换回模型内部特征空间。微软在相关论文中将此称为双重性能瓶颈:不仅消耗大量算力,数据在像素空间流转的过程中还会出现信息损耗。


Mirage 则采用了全新思路。它不再存储可视色彩像素,而是直接留存扩散模型原生的图像内部特征,并为每一组特征匹配三维空间坐标,以此构建空间记忆库。


mirage-01-concept


生成新视角画面时,模型会直接将记忆库数据映射至目标镜头视角,再交由生成模块处理,省去了点云渲染与二次编码的步骤。研究人员表示,由于数据以模型精简的内部分辨率存储,而非完整图像尺寸,该方案还大幅降低了内存占用。


记忆机制:逐段迭代扩容


Mirage 采用分段式生成视频,以初始画面为基础初始化空间记忆。生成后续片段时,模型先从记忆库调取相关数据、生成新帧,再将新画面信息回存至缓存,记忆库也随之不断扩充。


mirage-02-architecture


系统还配备了过滤机制:数据存入长期记忆前,会自动剔除移动物体与天空区域,仅保留稳定的空间结构,避免画面生成出现错乱。该模型基于阿里开源视频模型 Wan2.2 改造而成,研发团队新增小型功能模块以实现全新记忆机制,并结合 LoRA 适配器完成整体微调。


性能表现:速度更快、资源占用更低


在 WorldScore 评测基准中,Mirage 性能超越了同类型采用色彩点云记忆的 Spatia 模型,同时大幅领先 Wan2.1、CogVideoX 等通用视频生成模型。它在维持长帧画面的空间结构与表面纹理一致性上表现尤为突出。


在 RealEstate10K 数据集的闭环测试(镜头最终回到初始位置,全程误差会不断累积,测试难度极高)中,Mirage 在三项核心指标里有两项位列第一。


mirage-03-efficiency


高效性是 Mirage 最核心的优势。基于色彩存储的模型在生成长视频时,资源开销会持续攀升,显存占用不断增加;而 Mirage 在完成首个视频片段后,单帧算力消耗基本不再波动。实测数据显示,相比传统色彩存储方案,Mirage 生成速度最高提升10.57 倍,内存占用最多减少55 倍。


该模型目前仍存在一处局限:由于移动物体的空间位置不稳定,过滤机制会在片段衔接处将其剔除。因此,元素繁杂的动态场景,从这套空间记忆机制中获得的提升有限。研发团队表示,下一步将重点攻克动态内容存储难题。


微软也已在 GitHub 上线隐空间记忆(Latent Spatial Memory) 相关代码库。


当下,视频世界模型是 AI 视频领域的热门研究方向。Veo 这类模型大多只能生成单段内容统一的视频片段,而世界模型旨在打造可自由漫游、长时间保持画面一致的虚拟场景。Google Deepmind近期推出的 Genie 3 便可实时构建交互式虚拟环境,且场景状态能维持数分钟。在谷歌开发者大会上,Gemini 全模态模型也被定位为新一代世界模型,有望接替文生视频模型 Veo。

文章来源:https://the-decoder.com/microsoft-researchs-mirage-gives-video-generation-a-persistent-spatial-memory-that-doesnt-forget-whats-around-the-corner/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消