官方网站-首页官方网站-首页

“维修-保养-备件-检测-改造-优化-升级”一体化服务体系
您现在的位置:
首页
/
/
/
苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路

苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路

  • 分类:行业动态
  • 作者:
  • 来源:
  • 发布时间:2025-05-14 15:00:59
  • 访问量:416

【概要描述】【导语】苹果机器学习团队于5月13日在GitHub上开源了一款名为FastVLM的视觉语言模型,提供0.5B、1.5B、7B三个版本。该模型专为Apple Silicon设备端侧AI运算优化,采用自研MLX框架和LLaVA代码库训练,实现了高分辨率图像处理的近实时响应,且计算量大幅降低。FastVLM的核心是新型混合视觉编码器FastViTHD,处理速度较同类模型提升显著,体积大幅缩小。此举标志着

苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路

【概要描述】【导语】苹果机器学习团队于5月13日在GitHub上开源了一款名为FastVLM的视觉语言模型,提供0.5B、1.5B、7B三个版本。该模型专为Apple Silicon设备端侧AI运算优化,采用自研MLX框架和LLaVA代码库训练,实现了高分辨率图像处理的近实时响应,且计算量大幅降低。FastVLM的核心是新型混合视觉编码器FastViTHD,处理速度较同类模型提升显著,体积大幅缩小。此举标志着

  • 分类:行业动态
  • 作者:
  • 来源:
  • 发布时间:2025-05-14 15:00:59
  • 访问量:416
详情

【导语】苹果机器学习团队于5月13日在GitHub上开源了一款名为FastVLM的视觉语言模型,提供0.5B、1.5B、7B三个版本。该模型专为Apple Silicon设备端侧AI运算优化,采用自研MLX框架和LLaVA代码库训练,实现了高分辨率图像处理的近实时响应,且计算量大幅降低。FastVLM的核心是新型混合视觉编码器FastViTHD,处理速度较同类模型提升显著,体积大幅缩小。此举标志着苹果在构建完整的端侧AI技术生态方面迈出重要一步,预计将在未来的智能眼镜等穿戴设备上发挥关键作用。

苹果发布 FastVLM 视觉语言模型,为新型智能眼镜等穿戴设备铺路

  5 月 13 日消息,苹果机器学习团队在 GitHub 发布并开源了一款视觉语言模型 ——FastVLM,提供 0.5B、1.5B、7B 三个版本。

  据介绍,该模型基于苹果自研 MLX 框架开发并借助LLaVA 代码库进行训练,专为 Apple Silicon 设备的端侧 AI 运算进行优化。

  技术文档显示,FastVLM 在保持精度的前提下,实现了高分辨率图像处理的近实时响应,同时所需的计(jì)算(suàn)量(liàng)比(bǐ)同(tóng)类(lèi)模(mó)型(xíng)要(yào)少(shǎo)得(de)多(duō)。

  其(qí)核(hé)心(xīn)是(shì)一(yī)个(gè)名为(wèi) FastViTHD 的(de)混(hùn)合(hé)视(shì)觉(jué)编(biān)码(mǎ)器(qì)。苹(píng)果(guǒ)团(tuán)队(duì)表(biǎo)示(shì),该(gāi)编(biān)码(mǎ)器(qì)“专(zhuān)为(wèi)在(zài)高(gāo)分辨率图像上实现高效的 VLM 性能而设计”,其处理速度较同类模型提升 3.2 倍,体积却仅有 3.6 分之一。

  亮点

  •   FastViTHD 新型混合视觉编码器:专为高分辨率图像优化设计,可减少令牌输出量并显著缩短编码时间

  •   最小模型版本性能对比:较 LLaVA-OneVision-0.5B 模型实现首词元(Token)响应速度提升 85 倍,视觉编码器体积缩小 3.4 倍

  •   搭配 Qwen2-7B 大语言模型版本:使用单一图像编码器即超越 Cambrian-1-8B 等近(jìn)期(qī)研(yán)究(jiū)成(chéng)果(guǒ),首(shǒu)词元(yuán)响(xiǎng)应(yīng)速(sù)度(dù)提(tí)升(shēng) 7.9 倍(bèi)

  •   配(pèi)套(tào) iOS 演(yǎn)示(shì)应(yīng)用(yòng):实(shí)机(jī)展(zhǎn)示(shì)移(yí)动(dòng)端(duān)模(mó)型(xíng)性(xìng)能(néng)表(biǎo)现(xiàn)

  苹(píng)果(guǒ)技(jì)术(shù)团(tuán)队(duì)指(zhǐ)出(chū):“基(jī)于(yú)对(duì)图(tú)像(xiàng)分(fēn)辨(biàn)率(lǜ)、视(shì)觉(jué)延(yán)迟(chí)、词元(yuán)数(shù)量与LLM 大小的综合效率分析,我们开发出 FastVLM—— 该模型在延迟、模型大小和准确性之间实现了最优权衡。”

  该技术的应用场景指向苹果正在研发的智能眼镜类穿戴设备。多方信息显示,苹果计划于 2027 年推出对标 Meta Ray-Bans 的 AI 眼镜,同期或将发布搭载摄像头的 AirPods 设备。

  FastVLM 的本地化处理能力可有效支持此类设备脱离云端实现实时视觉交互。IT之家查询获悉,MLX 框架允许开发者在 Apple 设备本地训练和运行模型,同时兼容主流 AI 开发语言。FastVLM 的推出证实苹果正构建完整的端侧 AI 技术生态。

扫二维码用手机看

CONTACT INFORMATION

联系方式

南京市栖霞区纬地路生命科技创新园

OFFICIAL ACCOUNTS

公众号

欢迎关注我们的官方公众号

二维码 - 南京科技有限公司

ONLINE MESSAGE

在线留言

留言应用名称:
客户留言
描述:
验证码

版权所有:南京科技有限公司     鲁ICP备17013760号       网站地图