图像绑定:跨六种模式的整体 AI 学习

9月 2023, <>

当人类从世界吸收信息时,我们天生会使用多种感官,比如看到繁忙的街道,听到汽车发动机的声音。今天,我们引入了一种方法,使机器更接近人类同时、整体和直接从许多不同形式的信息中学习的能力,而无需明确的监督(组织和标记原始数据的过程)。我们已经构建并正在开源ImageBind,这是第一个能够绑定来自六种模式的信息的AI模型。该模型学习单个嵌入或共享表示空间,不仅适用于文本、图像/视频和音频,还适用于记录深度 (3D)、热(红外辐射)和惯性测量单元 (IMU) 的传感器,这些传感器计算运动和位置。ImageBind 为机器提供了全面的理解,将照片中的对象与它们的声音、3D 形状、暖或冷以及它们的移动方式联系起来。

ImageBind 的性能优于之前针对一种特定模态单独训练的专业模型,如我们的论文中所述。但最重要的是,它通过使机器能够更好地分析许多不同形式的信息来帮助推进人工智能。例如,使用 ImageBind,Meta 的 Make-A-Scene 可以从音频中创建图像,例如根据雨林或繁华市场的声音创建图像。其他未来的可能性包括更准确地识别、连接和审核内容,以及促进创意设计,例如更无缝地生成更丰富的媒体和创建更广泛的多模式搜索功能。

ImageBind 是 Meta 创建多模态 AI 系统的努力的一部分,这些系统可以从周围所有可能类型的数据中学习。随着模态数量的增加,ImageBind为研究人员打开了闸门,以尝试开发新的整体系统,例如结合3D和IMU传感器来设计或体验身临其境的虚拟世界。ImageBind 还可以提供一种丰富的方法来探索记忆——使用文本、音频和图像的组合来搜索图片、视频、音频文件或文本消息。

在典型的 AI 系统中,每种模态都有一个特定的嵌入(即可以表示数据及其在机器学习中的关系的数字向量)。ImageBind 表明,可以跨多个模态创建联合嵌入空间,而无需使用每种不同的模态组合对数据进行训练。这很重要,因为研究人员使用包含来自繁忙城市街道的音频数据和热数据、深度数据和海边悬崖文本描述的样本创建数据集是不可行的。

正如最近在从文本生成图像、视频和音频方面取得了令人兴奋的进展(例如 Make-A-Scene 和 Meta 的 Make-A-Video),ImageBind 的多模态功能可以让研究人员使用其他模态作为输入查询并检索其他格式的输出。ImageBind也是构建机器的重要一步,这些机器可以像人类一样全面分析不同类型的数据。

 

 

 

通过将六种模态的嵌入对齐到一个公共空间中,ImageBind 支持跨模态检索未一起观察的不同类型的内容,添加来自不同模态的嵌入以自然地组成其语义,以及通过使用我们的音频嵌入和预训练的 DALLE-2 解码器来处理 CLIP 文本嵌入来生成音频到图像。

 

 

ImageBind 是一个多模态模型,加入了 Meta 最近的一系列开源 AI 工具。这包括像 DINOv2 这样的计算机视觉模型,这是一种不需要微调训练高性能计算机视觉模型的新方法,以及 Segment Anything(SAM),这是一种通用分割模型,可以根据任何用户提示分割任何图像中的任何对象。ImageBind补充了这些模型,因为它专注于多模态表示学习。它尝试学习多种模态的单个对齐特征空间,包括但不限于图像和视频。未来,ImageBind 可以利用 DINOv2 的强大视觉功能来进一步提高其功能。

 

通过将内容与图像绑定来学习单个嵌入空间

 

人类有能力从几个例子中学习新概念。我们通常可以阅读对动物的描述,然后在现实生活中识别它。我们还可以查看一张不熟悉的汽车模型的照片,并预测其发动机的声音。这部分是因为单个图像实际上可以将整个感官体验“绑定”在一起。然而,在人工智能领域,随着模态数量的增加,缺乏多个感官数据可能会限制依赖于配对数据的标准多模态学习。理想情况下,单个联合嵌入空间 - 分布许多不同类型的数据 - 可以让模型学习视觉特征以及其他模态。

以前,为所有模态学习这样的联合嵌入空间需要收集配对数据的所有可能组合——这是一项不可行的壮举。

ImageBind通过利用最近的大规模视觉语言模型并将其零镜头功能扩展到新的模式,只需使用它们与图像的自然配对(如视频 - 音频和图像深度数据)来学习单个关节嵌入空间,从而规避了这一挑战。对于另外四种模式(音频、深度、热和 IMU 读数),我们使用自然配对的自我监督数据。

由于互联网上有大量的图像和共同出现的文本,因此训练图像文本模型已被广泛研究。ImageBind 使用图像的绑定属性,这意味着它们与各种模态共存,并且可以作为连接它们的桥梁,例如使用 Web 数据将文本链接到图像,或使用从具有 IMU 传感器的可穿戴摄像机捕获的视频数据将运动链接到视频。

从大规模 Web 数据中学习的视觉表示可以用作学习不同模态特征的目标。这允许 ImageBind 对齐与图像共同出现的任何模态,自然地将这些模态对齐。与图像高度相关的模态(如热和深度)更容易对齐。非视觉模式(如音频和 IMU)的相关性较弱。考虑到有一些特定的声音,比如婴儿的哭声,可以伴随着任何数量的视觉环境。

ImageBind 表明,图像配对数据足以将这六种模态绑定在一起。该模型可以更全面地解释内容,允许不同的模式相互“交谈”并找到链接,而无需一起观察它们。例如,ImageBind 可以关联音频和文本,而无需将它们放在一起查看。这使得其他模型能够“理解”新模式,而无需任何资源密集型培训。ImageBind 的强大缩放行为允许模型通过使许多 AI 模型能够使用其他模态来替换或增强这些模型。例如,虽然Make-A-Scene可以使用文本提示生成图像,但ImageBind可以升级它以使用音频声音(如笑声或雨声)生成图像。

 

ImageBind的性能优于

 

图像对齐的自监督学习表明,通过使用很少的训练示例,我们的模型的性能实际上可以提高。我们的模型具有新的紧急功能或缩放行为,即在较小模型中不存在但在较大版本中出现的能力。这可能包括识别哪些音频适合特定图像或从照片中预测场景的深度。

我们的分析表明,ImageBind 的缩放行为随着图像编码器的强度而改善。换句话说,ImageBind对齐模态的能力随着视觉模型的强度和大小而增加。这表明较大的视觉模型有利于非视觉任务,例如音频分类,并且训练此类模型的好处超出了计算机视觉任务。

在我们的实验中,我们使用了ImageBind的音频和深度编码器,并将它们与零镜头检索以及音频和深度分类任务的先前工作进行了比较。

 

 

 

ImageBind outperformed specialist models in audio and depth, based on benchmarks.

 

 

We discovered that ImageBind features can be used for few-shot audio and depth classification tasks and can outperform prior methods tailored for those modalities. For example, ImageBind significantly outperforms Meta’s self-supervised AudioMAE model trained on Audioset and a supervised AudioMAE model fine-tuned on audio classification, with gains of approximately 40 percent accuracy in top-1 accuracy on ≤four-shot classification.

ImageBind also achieved new state-of-the-art performance on emergent zero-shot recognition tasks across modalities, even outperforming recent models that were trained to recognize concepts for that modality.

 

The future of multimodal learning

 

With the capability to use several modalities for input queries and retrieve outputs across other modalities, ImageBind shows new possibilities for creators. Imagine that someone could take a video recording of an ocean sunset and instantly add the perfect audio clip to enhance it, while an image of a brindle Shih Tzu could yield essays or depth models of similar dogs. Or when a model like Make-A-Video produces a video of a carnival, ImageBind can suggest background noise to accompany it, creating an immersive experience.

人们甚至可以根据音频分割和识别图像中的物体。这创造了独特的机会,通过将静态图像与音频提示相结合,从静态图像中创建动画。例如,创作者可以将图像与闹钟和公鸡鸣叫相结合,并使用咆哮的音频提示来分割公鸡,或使用闹钟的声音来分割时钟并将两者动画化为视频序列。

虽然我们在目前的研究中探索了六种模式,但我们相信,引入连接尽可能多的感官的新模式——如触觉、言语、嗅觉和大脑功能磁共振成像信号——将使更丰富的以人为中心的人工智能模型成为可能。

关于多模态学习还有很多东西需要发现。人工智能研究社区尚未有效地量化仅在较大模型中出现的扩展行为并了解其应用。ImageBind是朝着以严格的方式评估它们并展示图像生成和检索中的新应用迈出的一步。

我们希望研究界能够探索ImageBind和我们随附的已发表论文,以找到评估视觉模型并导致新应用的新方法。