苹果开源通用视觉模型
苹果在视觉模型领域进行了积极的探索,并开源了多个通用视觉模型,以下是关于苹果开源通用视觉模型的详细介绍:
一、AIMv2模型
简介
苹果的研究人员开源了最新通用多模态视觉模型AIMv2,该模型具有300M、600M、1.2B和2.7B四种参数规模,整体能耗很低,可以适用于手机、PC等不同类型的设备。
技术特点
使用了一种创新的多模态自回归预训练方法,将视觉与文本信息深度融合,为视觉模型领域带来了新的技术突破。
不再局限于仅处理视觉信息的传统模式,而是将图像和文本整合为统一的序列进行预训练。图像被划分为一系列不重叠的Patches,形成图像token序列;文本则被分解为子词令牌序列,然后将两者拼接在一起。这种独特的拼接方式使得文本令牌能够关注图像令牌,实现了视觉与文本信息的交互融合。
使用了因果多模态解码器,首先回归图像块,然后以自回归的方式解码文本标记。这种方法易于实现和训练,不需要非常大的批量大小或特殊的跨批次通信方法。
架构和预训练目标与LLM驱动的多模态应用非常吻合,可以实现无缝集成。
从每个图像块和文本标记中提取训练信号,提供了比判别目标更密集的监督。
预训练与性能
预训练过程中,AIMv2使用了大量的图像和文本配对数据集,包括公开的DFN-2B和COYO数据集,以及苹果公司的专有数据集HQITP。
在性能测试方面,AIMv2在多个领域展现出了卓越的性能。例如,在ImageNet-1k数据集上达到了89.5%的准确率(在冻结模型主干的情况下)。此外,与其他视觉语言预训练基线模型相比,AIMv2同样展现出了高度竞争的性能。
开源地址
AIMv2 GitHub开源地址
AIMv2 Huggingface地址
二、4M-21模型
简介
苹果和瑞士洛桑联邦理工学院的研究人员联合开源了大规模多模态视觉模型4M-21。该模型只有30亿参数,却可以提供图像分类、目标检测、语义分割、实例分割、深度估计、表面法线估计等数十种功能,基本相当于视觉模型界的“瑞士军刀”,功能很全面。
技术特点
使用了“离散tokens”转换技术,将各种模态的数据转换为统一格式的tokens序列数据。无论是图像类数据、神经网络特征图、向量、结构化数据(实例分割或人体姿态),还是以文本形式表示的数据,都可以转换成模型可以理解的同一数据格式。
在训练阶段,4M-21通过掩码建模的方法来完成多模态学习,会随机遮盖输入序列中的部分tokens,然后基于剩余未遮盖的tokens预测被遮盖的部分。这种方法迫使模型学习输入数据的统计结构和潜在关系,从而捕捉到不同模态间的信息共通性和交互性。
性能与应用
研究人员将4M-21在多个测试平台中进行了综合评测,结果显示其多模态处理能力可以媲美当前最先进的模型。例如,在COCO数据集上的语义和实例分割任务上表现出色;在3DPW数据集上的3D人体姿态估计任务中也取得了显著的成绩。
开源地址与相关资源
4M-21 GitHub开源地址
4M-21论文地址
4M-21在线demo
4M-21论文主页
综上所述,苹果开源的通用视觉模型AIMv2和4M-21在技术上具有显著的创新性和实用性,为视觉模型领域的发展带来了新的突破和机遇。
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
【三亚的哪家旅行社好急】在计划前往三亚旅游时,很多游客都会面临一个共同的问题:“三亚的哪家旅行社好?”...浏览全文>>
-
【三亚的房价是多少一平米】近年来,随着旅游和康养产业的快速发展,三亚作为中国著名的海滨城市,吸引了大量...浏览全文>>
-
【三亚的大学是几本】在选择大学时,许多考生和家长都会关注学校的“一本”或“二本”属性。然而,对于“三亚...浏览全文>>
-
【三亚到五指山多少公里】在计划前往海南旅游时,很多人会关心不同城市之间的距离。三亚和五指山是海南省内两...浏览全文>>
-
【qq如何设置空白名字】在使用QQ的过程中,有些用户希望将自己的昵称设置为空白,以达到更简洁或隐私保护的目...浏览全文>>
-
【qq如何设置防止别人加好友】在使用QQ的过程中,很多用户希望保护自己的隐私,避免被陌生人频繁添加为好友。...浏览全文>>
-
【QQ如何设置不显示出精选照片】在使用QQ的过程中,很多用户会发现“精选照片”功能会自动展示一些推荐或系统...浏览全文>>
-
【qq如何设置qq空间权限】在使用QQ空间时,用户往往希望对个人资料、动态、照片等信息进行更细致的权限管理,...浏览全文>>
-
【qq如何群发祝福】在日常生活中,我们经常需要向朋友、同事或家人发送祝福信息,尤其是在节日、生日或特殊场...浏览全文>>
-
【qq如何群发信息给每位好友】在日常使用QQ的过程中,很多用户希望一次性将同一信息发送给所有好友,以节省时...浏览全文>>