苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理
在今年的 WWDC 全球开发者大会上,苹果推出新一代专为增强 Apple Intelligence 功能所开发的语言基座模型。经过优化的最新基座模型可在苹果芯片上高效运行,包括一个约 3B 参数的紧凑型模型和一个基于服务器的混合专家模型,后者为专门针对私有云量身定制的全新架构。
这两大基座模型,均隶属于苹果为支持用户而打造的生成式模型家族。这些模型改进了工具使用与推理能力,可以理解图像与文本输入,速度更快、效率更高,而且能够支持 15 种语言及平台中集成的各种智能功能。
苹果基座模型建模概览
同时,苹果推出了全新基座模型框架(Foundation Models Framework),允许第三方开发者直接访问 Apple Intelligence 的核心大型语言模型,并将其构建到他们的 APP 中。应用开发者将可以免费使用 AI 推理功能,只需几行代码即可访问,并轻松将文本提取和摘要等功能引入自己的应用。
所有语言环境下均优于参数更大的 Qwen
“苹果开发新的设备端与服务器端模型,是为了满足广泛的性能与部署需求。”据介绍,设备端模型针对效率进行了优化,并专为苹果芯片定制,强调以最低资源占用实现低延迟推理;而服务器端模型则将为更复杂的任务提供高精度与可扩展性支持。
据介绍,苹果通过开发新的模型架构来提高这两个模型的效率。对于设备端模型,将整个模型按 5:3 的深度比分为两块。块 2 中的所有键值(KV)缓存都直接与块 1 最后一层生成的缓存共享,由此将键值缓存的内存占用量降低了 38.5%,同时显著改善了首个 token 生成时间(time-to-first-token)。
苹果还引入并行轨道专家混合 (PT-MoE) 设计,为服务器端模型开发出一套新架构。此模型由多个较小的 Transformer(即「轨道」)组成,它们独立处理各 token,仅在各轨道块的输入和输出边界处应用同步。每个轨道块还拥有自己的一组 MoE 层。结合依托轨道独立性实现的轨道级并行机制,这样的设计显著降低了同步开销,使得模型在不影响质量、保持低延迟的前提下拥有高效扩展能力。
PT-MoE 架构图
此外,为支持更长的上下文输入窗口,苹果设计了一种交错注意力架构,将滑动窗口局部注意力层与旋转位置嵌入(RoPE)相结合,并将全局注意力层与无位置嵌入(NoPE)相结合。这样的设置提升了长度泛化能力,减少了键值缓存大小,并可在长上下文推荐期间保持更好的模型质量。
完成一系列优化后,苹果从标准的基础语言和推理能力维度,使用人工评分员对设备端和服务器端模型进行了离线质量评估,涵盖分析推理、头脑风暴、对话交互、分类、封闭式问答、编码、创意写作、信息提取、数学推理、开放式问答、改写、总结以及工具使用等方面。随着将模型支持扩展到更多语种及语言环境,苹果也同步扩展了评估任务集,使其能够针对特定语言环境进行评估。
据苹果公布的评测结果显示,设备端模型在所有语言环境下的表现均优于体量略大的 Qwen-2.5-3B,而且在英语环境下可以与体量更大的 Qwen-3-4B 及 Gemma-3-4B 相媲美。服务器端模型则优于 Llama-4-Scout,后者的总体规模与有效参数数量均与其相当;但仍落后于 Qwen-3-235B 及专有的 GPT-4o 等更大模型。
苹果基座模型与公开模型的文本进行并排评估时偏好响应的比例,结果按三种语言环境组呈现。
在将设备端模型与类似规模的视觉模型(即 InternVL-2.5-4B、Qwen-2.5-VL-3B-Instruct 和 Gemma-3-4B)、服务器端模型与 Llama-4-Scout、Qwen-2.5-VL-32B 和 GPT-4o 分别进行对比时,苹果的设备端模型表现优于规模更大的 InternVL 和 Qwen,与 Gemma 相比也毫不逊色;而服务器端模型在推理 FLOPS 不到后者一半的情况下,性能优于 Qwen-2.5-VL,但不及 Llama-4-Scout 与 GPT-4o。
在对苹果基座模型与同类模型进行图像响应评估时,能够生成最优响应的比例。
据悉,为实现视觉功能,苹果团队还开发了一个由大规模图像数据训练而成的视觉编码器,它由一个用于提取丰富特征的视觉主干网络与一个用于将特征与大模型标记表示对齐的视觉语言适配器组成。苹果使用具有 1B 参数的标准 Vision Transformer(ViT-g)作为服务器模型,并使用具有 3 亿参数的高效 ViTDet-L 主干网络作为设备部署模型,还在标准 ViTDet 中引入了一种新的寄存器窗口(RW)机制,以便更有效地捕捉全局上下文与局部细节。
训练方案大改进,推理能力是重头戏?
过去一年里,为扩展 Apple Intelligence 功能以支持更多语言和各类需要图像理解等更广泛的功能,苹果团队对基座模型的训练方案也经历了一系列改进,尤其是针对推理方面。
首先,预训练分多个阶段进行,其中计算量最大的第一阶段仅针对文本模态。其使用蒸馏损失函数对设备端模型进行训练,但具体方式并非使用大规模密集模型作为教师模型来从头开始进行预训练,而是使用少量质量最高的文本数据,将预先训练好的约 3B 模型稀疏升级为一个包含 64 个专家、每 2 层对应一个专家的混合模型(MoE)。这种方式将教师模型的训练成本降低了 90%。另一方面,稀疏服务器端模型则是使用 14T 个文本 token 从头开始训练而成。
在预训练的第二阶段,该团队使用小模型解码器对视觉编码器及视觉语言自适应模块进行联合训练,使用高质量文本数据、交错图文数据和特定领域的图文数据将图像特征与模型的表征空间进行对齐。之后,他们利用这些视觉编码器与预训练模型来改进代码、数学、多语言及长上下文理解能力,并通过多个持续进行的预训练阶段整合了图像理解。
到持续预训练阶段,苹果团队调整了数据集混合比,同时整合了经过正确性验证的合成数据,借此提升代码、数学与多语言能力;之后又通过多模态自适应整合了视觉理解,且并未损害模型的文本能力。在此阶段,他们从头开始训练了一个视觉语言自适应模块,借此将视觉编码器接入设备端 / 服务器端两个基座模型。
后训练流程中,该团队将人工编写的演示与合成数据结合起来以扩展监督微调(SFT)规模,旨在重点关注核心视觉功能,其中包括常识、推理、基于文本的图像理解、文本与视觉基础以及多图像推理。通过检索更多图像并合成相应的提示词与响应结果对,其进一步提升了视觉 SFT 数据的多样性。
在 SFT 阶段之后,他们将基于人类反馈的强化学习(RLHF)应用于设备端与服务器端模型,同时提出一种基于模型多代奖励方差的新颖提示选择算法,用以整理 RLHF 训练中使用的提示词数据集。评估结果表明,RLHF 在人类与自动基准测试中均取得了显著提升。此外,虽然他们在 SFT 和 RLHF 阶段均引入了多语言数据,但从结果来看 RLHF 的提升比 SFT 更为显著,在人类评估中的优势比例为 16:9。
为在提高推理效率的同时降低设备端与服务器端模型的运行功耗,苹果团队接下来使用量化感知训练(QAT)技术将设备端模型压缩至每权重 2 bit(bpw),服务器端模型则使用一种名为自适应可扩展纹理压缩(ASTC)且基于块的纹理压缩方法。ASTC 解压缩则是通过苹果 GPU 中的专用硬件组件实现,该组件能够在不增加额外计算开销的情况下实现权重解码。
面向两个模型,苹果团队将嵌入表量化为每权重 4 bit,对设备端模型使用 QAT 与基础权重进行联合训练,对服务器端模型使用后训练量化;键值缓存被量化为每权重 8 bit。然后,他们使用额外数据训练低轶适配器,以恢复因压缩步骤而损失的质量。通过这些技术,研究人员观察到一定程度的质量回归甚至是细微提升,如设备端模型的 MGSM 回归约为 4.6%,MMLU 提升 1.5%;服务器端模型的 MGSM 回归为 2.7%,MMLU 回归为 2.3%。
设备端与服务器端基座模型的压缩与比特率
三行代码接入,Apple Intelligence 核心模型
关于苹果将开放其 Apple Intelligence 平台的传闻,今年早些时候已开始流传。5 月,有外媒报道称,苹果将迈出第一步,让第三方应用能够访问其智能系统,不过应用无法直接调用模型本身,只能使用 AI 驱动的功能。
现在,借助最新发布的基座模型框架,苹果正为开发者提供在自有应用中使用原生 AI 能力的机会,第三方应用将能够借助这些功能实现图像生成、文本创作等更多场景。开发人员可以使用 ~3B 参数设备端语言模型开始创建自己的可靠、生产质量的生成式 AI 功能。作为 Apple Intelligence 核心的 ~3B 语言基础模型擅长各种文本任务,如摘要、实体提取、文本理解、优化、简短对话、生成创意内容等。
“我们鼓励应用开发者使用此框架来构建针对其应用量身定制的有用功能。通过这套精心设计的框架,应用开发者可以充分利用设备端模型。”苹果表示。
据了解,这套框架的一大亮点在于,其原生支持 Swift 语言,开发者只需短短三行代码,即可轻松接入 Apple Intelligence 模型。框架内置引导式生成、工具调用等功能,使在现有应用中集成生成能力变得前所未有的简单。
例如,Automattic 公司正在其 Day One 日记应用中使用该框架,为用户带来以隐私为核心的智能功能。“基座模型框架帮助我们重新思考日记应用的可能性,”Automattic 旗下 Day One 负责人 Paul Mayne 表示,“现在我们能够以深度尊重用户的方式,将智能与隐私结合在一起。”
而且,该框架的工具调用方法建立在引导式生成的基础之上。开发者只需要提供简单的 Tool Swift 协议实现,框架就会自动以最佳方式处理并行及串行工具调用中的复杂调用图。而基于工具使用数据对模型进行后训练,苹果的模型在此框架下的功能可靠性也得到了提升。苹果称,工具调用功能使得开发者能够创建为模型提供特定类型信息源或服务的工具,借此实现对 3B 模型的功能定制。
目前,该基座模型框架正通过 Apple Developer Program 进行测试,公开测试版将于下月初提供。
参考链接:
https://www.apple.com/newsroom/2025/06/apple-supercharges-its-tools-and-technologies-for-developers/
https://machinelearning.apple.com/research/apple-foundation-models-2025-updates
https://techcrunch.com/2025/06/09/apple-lets-developers-tap-into-its-offline-ai-models/
本文来自微信公众号“AI前线”,作者:华卫、核子可乐 ,36氪经授权发布。