认识Seal：基于2D视觉模型的大规模3D点云自监督学习框架

2023年06月21日由 Camellia 发表 332497 0

Seal是一种利用2D视觉基础模型在大规模3D点云上进行自监督学习，追求“分割任何点云序列”的人工智能框架。

大型语言模型（LLM）席卷了人工智能界。它们最近的影响和惊人的性能显示为医疗保健、金融、娱乐等各行各业做出了巨大贡献。像GPT-3.5、GPT 4、DALLE 2和BERT这样的众所周知的LLM，也被称为基础模型，通过生成独特的自然语言提示内容，执行非凡的任务，简化我们的生活。

最近的视觉基础模型（VFM）如SAM、X-Decoder和SEEM在计算机视觉领域取得了许多进展。虽然VFM在2D感知任务上取得了巨大进步，但3D VFM研究仍需要改进。研究人员建议扩展当前的2D VFM以应对3D感知任务。关键的3D感知任务之一是通过LiDAR传感器捕获的点云的分割，这对于自动驾驶车辆的安全运行至关重要。

现有的点云分割技术主要依赖于经过标注的大规模数据集进行训练；然而，点云的标注非常耗时且困难。为了克服所有的挑战，一个研究团队引入了Seal，这是一个使用视觉基础模型来进行分割各种汽车点云序列的框架。受跨模式表征学习的启发，Seal从VFM中收集语义丰富的知识，以支持对汽车点云的自监督表征学习。其主要思想是利用LiDAR和相机传感器之间的2D-3D关系，为跨模式表征学习开发高质量的对比性样本。

Seal具备三个关键特性：可扩展性、一致性和通用性。

可扩展性：Seal利用VFM，仅将其转换为点云，无需在预训练阶段进行2D或3D注释。由于其可扩展性，Seal能够处理大量数据，甚至有助于消除人工注释所需的耗时过程。

一致性：该架构在相机到LiDAR和点到分割两个阶段强制执行空间和时间上的链接。Seal通过捕捉视觉（相机和LiDAR传感器之间的跨模态交互）来实现高效的交叉模态表示学习，确保学习表示融合了来自两种模态的相关和连贯的数据。

通用性：Seal能够将知识传递到涉及各种点云数据集的下游应用中。它可以推广和处理具有不同分辨率、大小、清洁程度、污染程度、实际数据和人工数据的数据集。

该研究团队提到的一些关键贡献包括：

1.提出的Seal框架是一个可扩展、可靠且具有通用性的框架，用于捕获具有语义感知的空间和时间一致性。
2.它允许从汽车点云序列中提取有用的特征。

3.该研究宣称，这是第一个在大规模3D点云上使用2D视觉基础模型进行自监督表征学习的研究。

4.在不同数据配置的11个不同点云数据集上，Seal在线性探测和下游应用的微调方面的表现均优于先前的方法。

为了评估Seal的性能，该团队在十一个不同的点云数据集上进行了测试。结果显示，Seal的性能优于现有方法。

在nuScenes数据集上，Seal在线性探测后取得了令人瞩目的平均交并比（mIoU）达到45.0%。这一性能相较于随机初始化提高了36.9%的mIoU，并且优于先前的SOTA方法6.1%的mIoU。Seal还在所有11个测试点云数据集的20个不同的少量微调任务中展示了显着的性能提升。

来源：https://www.marktechpost.com/2023/06/20/meet-seal-an-ai-framework-that-pursues-segment-any-point-cloud-sequences-by-leveraging-2d-vision-foundation-models-for-self-supervised-learning-on-large-scale-3d-point-clouds/

标签：

学习人工智能 Seal 自监督学习框架

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇如何使用Stable Diffusion AI创建令人惊叹的图像

下一篇 7种使用ChatGPT改进你编码过程的方法

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术