“维修-保养-备件-检测-改造-优化-升级”一体化服务体系

您现在的位置：

苹果发布 FastVLM 视觉语言模型，为新型智能眼镜等穿戴设备铺路

分类：行业动态
作者：
来源：
发布时间：2025-05-14 15:00:59
访问量：416

【概要描述】【导语】苹果机器学习团队于5月13日在GitHub上开源了一款名为FastVLM的视觉语言模型，提供0.5B、1.5B、7B三个版本。该模型专为Apple Silicon设备端侧AI运算优化，采用自研MLX框架和LLaVA代码库训练，实现了高分辨率图像处理的近实时响应，且计算量大幅降低。FastVLM的核心是新型混合视觉编码器FastViTHD，处理速度较同类模型提升显著，体积大幅缩小。此举标志着

苹果发布 FastVLM 视觉语言模型，为新型智能眼镜等穿戴设备铺路

分类：行业动态
作者：
来源：
发布时间：2025-05-14 15:00:59
访问量：416

详情

【导语】苹果机器学习团队于5月13日在GitHub上开源了一款名为FastVLM的视觉语言模型，提供0.5B、1.5B、7B三个版本。该模型专为Apple Silicon设备端侧AI运算优化，采用自研MLX框架和LLaVA代码库训练，实现了高分辨率图像处理的近实时响应，且计算量大幅降低。FastVLM的核心是新型混合视觉编码器FastViTHD，处理速度较同类模型提升显著，体积大幅缩小。此举标志着苹果在构建完整的端侧AI技术生态方面迈出重要一步，预计将在未来的智能眼镜等穿戴设备上发挥关键作用。

　　5 月 13 日消息，苹果机器学习团队在 GitHub 发布并开源了一款视觉语言模型 ——FastVLM，提供 0.5B、1.5B、7B 三个版本。

　　据介绍，该模型基于苹果自研 MLX 框架开发并借助LLaVA 代码库进行训练，专为 Apple Silicon 设备的端侧 AI 运算进行优化。

　　技术文档显示，FastVLM 在保持精度的前提下，实现了高分辨率图像处理的近实时响应，同时所需的计(jì)算(suàn)量(liàng)比(bǐ)同(tóng)类(lèi)模(mó)型(xíng)要(yào)少(shǎo)得(de)多(duō)。

　　其(qí)核(hé)心(xīn)是(shì)一(yī)个(gè)名为(wèi) FastViTHD 的(de)混(hùn)合(hé)视(shì)觉(jué)编(biān)码(mǎ)器(qì)。苹(píng)果(guǒ)团(tuán)队(duì)表(biǎo)示(shì)，该(gāi)编(biān)码(mǎ)器(qì)“专(zhuān)为(wèi)在(zài)高(gāo)分辨率图像上实现高效的 VLM 性能而设计”，其处理速度较同类模型提升 3.2 倍，体积却仅有 3.6 分之一。

　　亮点

　　FastViTHD 新型混合视觉编码器：专为高分辨率图像优化设计，可减少令牌输出量并显著缩短编码时间
　　最小模型版本性能对比：较 LLaVA-OneVision-0.5B 模型实现首词元（Token）响应速度提升 85 倍，视觉编码器体积缩小 3.4 倍
　　搭配 Qwen2-7B 大语言模型版本：使用单一图像编码器即超越 Cambrian-1-8B 等近(jìn)期(qī)研(yán)究(jiū)成(chéng)果(guǒ)，首(shǒu)词元(yuán)响(xiǎng)应(yīng)速(sù)度(dù)提(tí)升(shēng) 7.9 倍(bèi)
　　配(pèi)套(tào) iOS 演(yǎn)示(shì)应(yīng)用(yòng)：实(shí)机(jī)展(zhǎn)示(shì)移(yí)动(dòng)端(duān)模(mó)型(xíng)性(xìng)能(néng)表(biǎo)现(xiàn)

　　苹(píng)果(guǒ)技(jì)术(shù)团(tuán)队(duì)指(zhǐ)出(chū)：“基(jī)于(yú)对(duì)图(tú)像(xiàng)分(fēn)辨(biàn)率(lǜ)、视(shì)觉(jué)延(yán)迟(chí)、词元(yuán)数(shù)量与LLM 大小的综合效率分析，我们开发出 FastVLM—— 该模型在延迟、模型大小和准确性之间实现了最优权衡。”

　　该技术的应用场景指向苹果正在研发的智能眼镜类穿戴设备。多方信息显示，苹果计划于 2027 年推出对标 Meta Ray-Bans 的 AI 眼镜，同期或将发布搭载摄像头的 AirPods 设备。

　　FastVLM 的本地化处理能力可有效支持此类设备脱离云端实现实时视觉交互。IT之家查询获悉，MLX 框架允许开发者在 Apple 设备本地训练和运行模型，同时兼容主流 AI 开发语言。FastVLM 的推出证实苹果正构建完整的端侧 AI 技术生态。

扫二维码用手机看

上一个: 火山引擎发布豆包 1.5・视觉深度思考模型，新增 GUI Agent 能力

下一个: 超10亿融资背后，巨头争食千亿级产业生态“大蛋糕”

上一个: 火山引擎发布豆包 1.5・视觉深度思考模型，新增 GUI Agent 能力

下一个: 超10亿融资背后，巨头争食千亿级产业生态“大蛋糕”

CONTACT INFORMATION

联系方式

南京市栖霞区纬地路生命科技创新园

158 3565 7710

com@qdhaotianzl.com

OFFICIAL ACCOUNTS

公众号

欢迎关注我们的官方公众号

ONLINE MESSAGE

在线留言

留言应用名称：

客户留言

描述：

* 留言内容：

姓名：

性别：

男

女

手机：

电话：

传真：

邮箱：

地址：

邮编：

* 验证码：

官方网站-首页

苹果发布 FastVLM 视觉语言模型，为新型智能眼镜等穿戴设备铺路

苹果发布 FastVLM 视觉语言模型，为新型智能眼镜等穿戴设备铺路