
Shawn Shen认为,AI需要具备记忆其所见事物的能力,才能在现实世界中取得成功。Shen的公司Memories.ai正在利用Nvidia的AI工具,为可穿戴设备和机器人构建能够记忆和回忆视觉信息的基础设施。
Memories.ai在周一的GTC大会上宣布与半导体巨头Nvidia合作。通过这次合作,Memories.ai使用Nvidia的Cosmos-Reason 2,一个推理视觉语言模型,以及Nvidia Metropolis,一个用于视频搜索和总结的应用程序,继续开发其视觉记忆技术。
Shen(上图左)告诉TechCrunch,他和他的联合创始人兼CTO Ben Zhou(上图右)在构建Meta的Ray-Ban眼镜背后的AI系统时萌生了创办这家公司的想法。开发AI眼镜让他们思考,如果用户无法回忆起他们录制的视频数据,人们在现实生活中会如何实际使用这项技术。
他们环顾四周,看看是否有人已经在为AI开发这种类型的视觉记忆解决方案。当他们找不到时,他们决定从Meta分拆出来,自己进行开发。
“AI在数字世界中已经表现得非常出色。那么在现实世界中呢?”Shen说。“AI可穿戴设备和机器人也需要记忆。……最终,你需要AI拥有视觉记忆。我们相信这样的未来。”
AI系统具备记忆能力总体上是一个相对较新的领域。OpenAI在2024年更新了ChatGPT,使其开始记住过去的对话并且在2025年对该功能进行了微调。Elon Musk的xAI和Google Gemini也在过去两年中推出了他们自己的记忆工具。
但这些进展主要集中在基于文本的记忆上,Shen说。文本记忆更具结构性,更容易索引,但对于主要通过视觉与世界互动的物理AI应用来说并不那么有用。
Memories.ai于2024年成立,到目前为止已筹集了1600万美元,通过2025年7月的800万美元种子轮和800万美元的扩展轮。该轮由Susa Ventures领投,包括Seedcamp、Fusion Fund和Crane Venture Partners等。
Shen说,成功构建这个视觉记忆层需要两件事:构建嵌入和索引视频所需的基础设施,以便将其存储和回忆的数据格式,以及捕获训练模型所需的数据。
公司推出了其大型视觉记忆模型(LVMM)于2025年7月。Shen说,它可以与本月早些时候发布的Gemini Embedding 2,一个多模态索引和检索模型相比。
为了数据收集,公司创建了LUCI,一种由公司的“数据采集者”佩戴的硬件设备,用于录制训练模型的视频。Shen说,他们不打算成为一家硬件公司,也不打算出售这些设备,而是因为他们对现有的视频记录器不满意,这些记录器专注于高清和耗电的视频格式。
公司发布了这一LVMM的第二代,并签署了与高通的合作伙伴关系,将在今年晚些时候开始在高通的处理器上运行。
Shen说,Memories.ai也已经在与一些大型可穿戴设备公司合作,但拒绝透露具体是哪几家。尽管现在有一些需求,Shen认为在可穿戴设备和机器人领域还有更大的机会。
“在商业化方面,我们更专注于模型和基础设施,因为最终我们认为可穿戴设备和机器人市场会到来,但可能还不是现在,”Shen说。
