您现在的位置是：首页 > 要闻 > 正文

苹果开源通用视觉模型

发布时间：2025-03-05 11:01:37来源：

导读苹果在视觉模型领域进行了积极的探索，并开源了多个通用视觉模型，以下是关于苹果开源通用视觉模型的详细介绍：一、AIMv2模型简介苹果的研...

苹果在视觉模型领域进行了积极的探索，并开源了多个通用视觉模型，以下是关于苹果开源通用视觉模型的详细介绍：

一、AIMv2模型

简介

苹果的研究人员开源了最新通用多模态视觉模型AIMv2，该模型具有300M、600M、1.2B和2.7B四种参数规模，整体能耗很低，可以适用于手机、PC等不同类型的设备。

技术特点

使用了一种创新的多模态自回归预训练方法，将视觉与文本信息深度融合，为视觉模型领域带来了新的技术突破。

不再局限于仅处理视觉信息的传统模式，而是将图像和文本整合为统一的序列进行预训练。图像被划分为一系列不重叠的Patches，形成图像token序列;文本则被分解为子词令牌序列，然后将两者拼接在一起。这种独特的拼接方式使得文本令牌能够关注图像令牌，实现了视觉与文本信息的交互融合。

使用了因果多模态解码器，首先回归图像块，然后以自回归的方式解码文本标记。这种方法易于实现和训练，不需要非常大的批量大小或特殊的跨批次通信方法。

架构和预训练目标与LLM驱动的多模态应用非常吻合，可以实现无缝集成。

从每个图像块和文本标记中提取训练信号，提供了比判别目标更密集的监督。

预训练与性能

预训练过程中，AIMv2使用了大量的图像和文本配对数据集，包括公开的DFN-2B和COYO数据集，以及苹果公司的专有数据集HQITP。

在性能测试方面，AIMv2在多个领域展现出了卓越的性能。例如，在ImageNet-1k数据集上达到了89.5%的准确率(在冻结模型主干的情况下)。此外，与其他视觉语言预训练基线模型相比，AIMv2同样展现出了高度竞争的性能。

开源地址

AIMv2 GitHub开源地址

AIMv2 Huggingface地址

二、4M-21模型

简介

苹果和瑞士洛桑联邦理工学院的研究人员联合开源了大规模多模态视觉模型4M-21。该模型只有30亿参数，却可以提供图像分类、目标检测、语义分割、实例分割、深度估计、表面法线估计等数十种功能，基本相当于视觉模型界的“瑞士军刀”，功能很全面。

技术特点

使用了“离散tokens”转换技术，将各种模态的数据转换为统一格式的tokens序列数据。无论是图像类数据、神经网络特征图、向量、结构化数据(实例分割或人体姿态)，还是以文本形式表示的数据，都可以转换成模型可以理解的同一数据格式。

在训练阶段，4M-21通过掩码建模的方法来完成多模态学习，会随机遮盖输入序列中的部分tokens，然后基于剩余未遮盖的tokens预测被遮盖的部分。这种方法迫使模型学习输入数据的统计结构和潜在关系，从而捕捉到不同模态间的信息共通性和交互性。

性能与应用

研究人员将4M-21在多个测试平台中进行了综合评测，结果显示其多模态处理能力可以媲美当前最先进的模型。例如，在COCO数据集上的语义和实例分割任务上表现出色;在3DPW数据集上的3D人体姿态估计任务中也取得了显著的成绩。

开源地址与相关资源

4M-21 GitHub开源地址

4M-21论文地址

4M-21在线demo

4M-21论文主页

综上所述，苹果开源的通用视觉模型AIMv2和4M-21在技术上具有显著的创新性和实用性，为视觉模型领域的发展带来了新的突破和机遇。

标签：