微软研究院推出 Mirage 视频生成模型：搭载长效空间记忆，镜头流转场景不 “失忆”

2026年06月15日由 alex 发表 3481 0

Mirage 是一款全新的视频世界模型，摒弃了基于像素存储的高开销方案，不仅提升了视频生成速度，即便镜头大幅移动，也能始终保持场景空间结构稳定。该模型由多所高校联合微软研究院（Microsoft Research）共同研发。

视频世界模型能够根据初始画面与镜头运动轨迹，生成连贯自然的动态影像，可应用于场景模拟、虚拟环境搭建等领域。但多数主流生成模型缺乏记忆能力，随着镜头推移，空间信息会逐渐错乱：当镜头转回此前扫过的房间角落时，景物样貌会发生改变，家具位置偏移、画面纹理也出现失真。

Voyager、WonderWorld、Spatia 等现有模型，试图借助持续录入色彩数据的三维点云来解决该问题。但模型每完成一轮生成，都需要先渲染点云，再将结果转换回模型内部特征空间。微软在相关论文中将此称为双重性能瓶颈：不仅消耗大量算力，数据在像素空间流转的过程中还会出现信息损耗。

Mirage 则采用了全新思路。它不再存储可视色彩像素，而是直接留存扩散模型原生的图像内部特征，并为每一组特征匹配三维空间坐标，以此构建空间记忆库。

mirage-01-concept

生成新视角画面时，模型会直接将记忆库数据映射至目标镜头视角，再交由生成模块处理，省去了点云渲染与二次编码的步骤。研究人员表示，由于数据以模型精简的内部分辨率存储，而非完整图像尺寸，该方案还大幅降低了内存占用。

记忆机制：逐段迭代扩容

Mirage 采用分段式生成视频，以初始画面为基础初始化空间记忆。生成后续片段时，模型先从记忆库调取相关数据、生成新帧，再将新画面信息回存至缓存，记忆库也随之不断扩充。

mirage-02-architecture

系统还配备了过滤机制：数据存入长期记忆前，会自动剔除移动物体与天空区域，仅保留稳定的空间结构，避免画面生成出现错乱。该模型基于阿里开源视频模型 Wan2.2 改造而成，研发团队新增小型功能模块以实现全新记忆机制，并结合 LoRA 适配器完成整体微调。

性能表现：速度更快、资源占用更低

在 WorldScore 评测基准中，Mirage 性能超越了同类型采用色彩点云记忆的 Spatia 模型，同时大幅领先 Wan2.1、CogVideoX 等通用视频生成模型。它在维持长帧画面的空间结构与表面纹理一致性上表现尤为突出。

在 RealEstate10K 数据集的闭环测试（镜头最终回到初始位置，全程误差会不断累积，测试难度极高）中，Mirage 在三项核心指标里有两项位列第一。

mirage-03-efficiency

高效性是 Mirage 最核心的优势。基于色彩存储的模型在生成长视频时，资源开销会持续攀升，显存占用不断增加；而 Mirage 在完成首个视频片段后，单帧算力消耗基本不再波动。实测数据显示，相比传统色彩存储方案，Mirage 生成速度最高提升10.57 倍，内存占用最多减少55 倍。

该模型目前仍存在一处局限：由于移动物体的空间位置不稳定，过滤机制会在片段衔接处将其剔除。因此，元素繁杂的动态场景，从这套空间记忆机制中获得的提升有限。研发团队表示，下一步将重点攻克动态内容存储难题。

微软也已在 GitHub 上线隐空间记忆（Latent Spatial Memory）相关代码库。

当下，视频世界模型是 AI 视频领域的热门研究方向。Veo 这类模型大多只能生成单段内容统一的视频片段，而世界模型旨在打造可自由漫游、长时间保持画面一致的虚拟场景。Google Deepmind近期推出的 Genie 3 便可实时构建交互式虚拟环境，且场景状态能维持数分钟。在谷歌开发者大会上，Gemini 全模态模型也被定位为新一代世界模型，有望接替文生视频模型 Veo。

文章来源：https://the-decoder.com/microsoft-researchs-mirage-gives-video-generation-a-persistent-spatial-memory-that-doesnt-forget-whats-around-the-corner/

标签：

微软

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Mistral AI拟融资 30 亿欧元，估值有望达 200 亿欧元

下一篇 Claude Fable 5 在前沿数学难题测试中，得分超越 GPT-5.5 达 13 分

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术