苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路
- 分类:行业动态
- 作者:
- 来源:
- 发布时间:2025-05-14 15:00:59
- 访问量:416
【概要描述】【导语】苹果机器学习团队于5月13日在GitHub上开源了一款名为FastVLM的视觉语言模型,提供0.5B、1.5B、7B三个版本。该模型专为Apple Silicon设备端侧AI运算优化,采用自研MLX框架和LLaVA代码库训练,实现了高分辨率图像处理的近实时响应,且计算量大幅降低。FastVLM的核心是新型混合视觉编码器FastViTHD,处理速度较同类模型提升显著,体积大幅缩小。此举标志着
苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路
【概要描述】【导语】苹果机器学习团队于5月13日在GitHub上开源了一款名为FastVLM的视觉语言模型,提供0.5B、1.5B、7B三个版本。该模型专为Apple Silicon设备端侧AI运算优化,采用自研MLX框架和LLaVA代码库训练,实现了高分辨率图像处理的近实时响应,且计算量大幅降低。FastVLM的核心是新型混合视觉编码器FastViTHD,处理速度较同类模型提升显著,体积大幅缩小。此举标志着
- 分类:行业动态
- 作者:
- 来源:
- 发布时间:2025-05-14 15:00:59
- 访问量:416
【导语】苹果机器学习团队于5月13日在GitHub上开源了一款名为FastVLM的视觉语言模型,提供0.5B、1.5B、7B三个版本。该模型专为Apple Silicon设备端侧AI运算优化,采用自研MLX框架和LLaVA代码库训练,实现了高分辨率图像处理的近实时响应,且计算量大幅降低。FastVLM的核心是新型混合视觉编码器FastViTHD,处理速度较同类模型提升显著,体积大幅缩小。此举标志着苹果在构建完整的端侧AI技术生态方面迈出重要一步,预计将在未来的智能眼镜等穿戴设备上发挥关键作用。

5 月 13 日消息,苹果机器学习团队在 GitHub 发布并开源了一款视觉语言模型 ——FastVLM,提供 0.5B、1.5B、7B 三个版本。
据介绍,该模型基于苹果自研 MLX 框架开发并借助LLaVA 代码库进行训练,专为 Apple Silicon 设备的端侧 AI 运算进行优化。
技术文档显示,FastVLM 在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计(jì)算(suàn)量(liàng)比(bǐ)同(tóng)类(lèi)模(mó)型(xíng)要(yào)少(shǎo)得(de)多(duō)。
其(qí)核(hé)心(xīn)是(shì)一(yī)个(gè)名为(wèi) FastViTHD 的(de)混(hùn)合(hé)视(shì)觉(jué)编(biān)码(mǎ)器(qì)。苹(píng)果(guǒ)团(tuán)队(duì)表(biǎo)示(shì),该(gāi)编(biān)码(mǎ)器(qì)“专(zhuān)为(wèi)在(zài)高(gāo)分辨率图像上实现高效的 VLM 性能而设计”,其处理速度较同类模型提升 3.2 倍,体积却仅有 3.6 分之一。
亮点
FastViTHD 新型混合视觉编码器:专为高分辨率图像优化设计,可减少令牌输出量并显著缩短编码时间
最小模型版本性能对比:较 LLaVA-OneVision-0.5B 模型实现首词元(Token)响应速度提升 85 倍,视觉编码器体积缩小 3.4 倍
搭配 Qwen2-7B 大语言模型版本:使用单一图像编码器即超越 Cambrian-1-8B 等近(jìn)期(qī)研(yán)究(jiū)成(chéng)果(guǒ),首(shǒu)词元(yuán)响(xiǎng)应(yīng)速(sù)度(dù)提(tí)升(shēng) 7.9 倍(bèi)
配(pèi)套(tào) iOS 演(yǎn)示(shì)应(yīng)用(yòng):实(shí)机(jī)展(zhǎn)示(shì)移(yí)动(dòng)端(duān)模(mó)型(xíng)性(xìng)能(néng)表(biǎo)现(xiàn)
苹(píng)果(guǒ)技(jì)术(shù)团(tuán)队(duì)指(zhǐ)出(chū):“基(jī)于(yú)对(duì)图(tú)像(xiàng)分(fēn)辨(biàn)率(lǜ)、视(shì)觉(jué)延(yán)迟(chí)、词元(yuán)数(shù)量与LLM 大小的综合效率分析,我们开发出 FastVLM—— 该模型在延迟、模型大小和准确性之间实现了最优权衡。”
该技术的应用场景指向苹果正在研发的智能眼镜类穿戴设备。多方信息显示,苹果计划于 2027 年推出对标 Meta Ray-Bans 的 AI 眼镜,同期或将发布搭载摄像头的 AirPods 设备。
FastVLM 的本地化处理能力可有效支持此类设备脱离云端实现实时视觉交互。IT之家查询获悉,MLX 框架允许开发者在 Apple 设备本地训练和运行模型,同时兼容主流 AI 开发语言。FastVLM 的推出证实苹果正构建完整的端侧 AI 技术生态。
扫二维码用手机看
官方网站-首页