Obsidian是一个新的开源人工智能模型,于10月30日在Reddit帖子中宣布,它代表了在多模态人工智能可访问性方面的突破。Obsidian是第一个具有30亿参数的多模态人工智能模型,这使得它的体积足够小,可以在普通笔记本电脑上高效运行。
多模态人工智能是指能够处理和连接来自不同模态的数据的人工智能系统,例如文本、图像、音频和视频。在这种情况下,这个模型接受文本和图片作为输入,就像OpenAI的最新版本GPT-4V一样。尽管像DALL-E 3和GPT-4这样的多模态人工智能模型展示了令人印象深刻的功能,但它们庞大的体积使得运行它们需要昂贵的高端硬件,并且它们的模型都是严格保密的,所以即使你拥有必要的专用硬件,也无法运行它们。
人工智能模型Obsidian将多模态智能装入标准笔记本电脑的内存中,实现了多模态智能模型体积的突破。Obsidian在30亿参数的基础上构建了Capybara-3B模型架构,与相同体积的模型相比,实现了最先进的性能。开发者还在Reddit上宣布,基于备受赞誉的开源7B模型Mistral的多模态模型将很快推出。
Obsidian的小巧尺寸得益于从LLaMA模型架构中改进的技术。根据在Reddit上宣布Obsidian的帖子,它是在一个多样化的合成多模态数据集上进行预训练的,这个数据集包括文本与相应的图像。这种训练方法使得尽管其参数减少,Obsidian仍能够展现出强大的语言和视觉能力。
结果是,产生了一个可以放入你的背包中,具备对话技能和视觉理解能力的人工智能助手。Obsidian打破了访问人工智能的障碍,为设备上的智能开辟了新的可能性。
虽然目前还只是早期版本,但Obsidian的高效形态让人看到了令人兴奋的前景。它证明了多模态人工智能不必局限于巨大的数据中心,而可以被制作得足够小巧以广泛分布。