有关第三代模型,苹果管理层回应一切

36氪的朋友们·2026年06月09日 19:08
关键词是“优化精炼”。

从左到右依次为苹果高管阿马尔·苏布拉马尼亚、迈克·洛克威尔、塞巴斯蒂安·马里诺-梅斯以及克雷格·费德里吉,图片经由AI处理

当地时间6月8日,苹果举办2026年WWDC,除了有关iOS的AI能力集成和独立的Siri两个热点之外,另一个关注点则是这些能力背后的基础模型。

苹果此次展示的是第三代Apple Foundation Models(AFM),包含2款端侧模型和3款运行在私有云计算平台上的模型。

苹果称,这一代模型与谷歌合作定制,其中多款模型在训练和优化阶段借助Gemini模型进行“精炼”,非在iOS中直接部署Gemini模型或Gemini客户端代码,且明确强调针对苹果芯片进行了优化。

另外,AFM 3 Cloud Pro这款云端模型单独标注为“为英伟达GPU进行优化”。

全家桶里的5款模型

根据苹果官方披露的消息,本次发布的第三代模型,端侧模型包括AFM 3 Core和AFM 3 Core Advanced,服务器模型则分为AFM 3 Cloud、ADM 3 Cloud以及AFM 3 Cloud Pro,这里的AFM全称也就是Apple Foundation Model。

五款模型中,AFM 3 Core属于前代产品的常规升级,作为下一代端侧主力,性能实现了显著提升。

AFM 3 Core Advanced的技术路线最受关注。

这是一款200亿参数的稀疏模型,专为苹果性能最强的芯片优化,原生支持多模态,涵盖语音合成、语音识别和视觉理解。

200亿参数模型要在手机上运行,传统做法要求将所有参数常驻内存,在硬件上根本不可行。在这个问题上,苹果的解法是Instruction-Following Pruning技术。

蓝色为DRAM中静态专家,橙色为动态专家,空心为未激活专家

概括来说,就是将模型的注意力层等核心常驻权重置于DRAM运存中,而FFN专家参数则存储在相对低成本NAND闪存中。

推理时仅根据输入特征,路由并加载少量选中的FFN专家到DRAM参与计算,在保留MoE稀疏激活效率的同时,降低了模型部署对DRAM容量的需求,实现高效推理。

这种架构其实在苹果2023年的论文里面有提及,当时苹果就提出了LLM in a Flash的概念:用NAND闪存(Flash)存大模型参数,按需加载到DRAM,在端侧跑超过内存大小的LLM,解决 “闪存到内存带宽慢” 的瓶颈。

苹果AI副总裁阿马尔·苏布拉马尼亚(Amar Subramanya)在WWDC技术交流会上,解释了这种设计与常规方案的区别。

苏布拉马尼亚表示,典型的云端稀疏模型需要逐词交换权重,但闪存到运存的带宽太慢,无法支撑这种操作频率。所以,AFM 3 Core Advanced针对整个提示只做一次路由决策,一次性选定参数子集,大幅降低加载成本。

每次响应激活的参数规模在10亿到40亿之间,具体数量由任务难度决定。不同请求之间可增量加载权重,该模型不管理多个小模型,也非单一固定配置。

苹果将这种特性称为“推理时间弹性(inference-time elasticity)”。

AFM 3 Core和AFM 3 Core Advanced撑起了苹果设备本地处理的大部分场景。而当本地算力不够时,请求就会转移到苹果的私有云计算平台里部署着三个云端模型。

主力模型AFM 3 Cloud,针对速度、效率和性能优化。它继承了去年苹果引入的并行轨迹混合专家架构,但今年在此基础上实施了几项关键升级,稳定了训练过程,也提高了模型在长上下文窗口中推理和准确回忆信息的能力。

用苹果的话说,这是私有云计算支持下的多模态推理的一次重大进步。

在图像处理方面,苹果推出了ADM 3 Cloud模型,用于驱动高质量的图像生成与编辑。该模型具备较强的可控性和参数效率,能够泛化处理不同的纵横比和分辨率,并在原生层面支持图像创建、编辑以及Genmoji表情生成。

在架构设计上,ADM 3 Cloud会借助苹果基础模型家族中更广泛的模型来指导创作和编辑过程。针对更具体的下游编辑体验,例如照片应用中的空间重构图功能,以及影像游乐场中基于触控的图像修改与个性化生成,则通过专门的适配器来实现。

服务器端的压轴角色叫AFM 3 Cloud Pro,这是苹果功能最强的模型,专门为智能体工具使用和复杂推理这种最苛刻的场景准备。阿马尔·苏布拉马尼亚对AFM 3 Cloud Pro的定位是:性能与谷歌Gemini前沿模型相当。

这三款模型分工明确,AFM 3 Cloud负责日常请求的高效响应,ADM 3 Cloud把图像创作和编辑的体验拉满,而AFM 3 Cloud Pro则处理那些需要深度推理的任务。

能力进化了多少?

在不同语言地区,相比前代模型,用户更喜欢 AFM 3 Core和AFM 3 Cloud 的回复

WWDC之后,苹果也在官网公布了这一代5款模型的基准测试数据。

在通用文本能力与图像理解上,第三代苹果基础模型相较于去年的第二代模型实现了全线突破。

其中,AFM 3 Core的整体通用文本能力(处理日常普通文本任务)大幅改进。在文本人工评估测试(Human Evaluation on Text)中,当把AFM 3 Core和前代模型针对同一批提示词生成的回答放在一起让人类评审员二选一时,评审员有 45.6%(指全球综合平均偏好比例,以下相同,2025年基线模型仅为23.3%) 的比例选择了新版模型的回答更好。

在英文图像理解测试中,用户更倾向于选择AFM 3 Core和AFM 3 Cloud 的回复

在图像理解方面,其用户偏好比例更是超过了61%,能够更精准地识别、提取并推理视觉内容。

AFM 3 Cloud的通用文本能力的偏好比例从去年的8.7%飙升至64.7%,在所有支持的全球语言区域中均实现了飞跃。苹果的评估显示,其整体响应满意度相对提升约36%,指令遵循性能提升21%。同时,其图像理解偏好比例由去年的9.6%提升至37.8%。

按照苹果官方的说法,AFM 3 Cloud Pro在Cloud版本的基础上更进一步,文本和图像理解的整体满意度分别再次获得10%和14%的相对提升,特别是在数学等特定任务类别中,性能相对高出14%。

除了底座大模型的升级,苹果还通过两组核心指标展示了由AFM 3 Core Advanced驱动的日常交互体验更新。该功能在高效的10亿参数激活规模下运行,在语音生成和语音识别上均取得突破。

在文本转语音(TTS)测试中, 在5分制平均意见分(MOS)量表中,新模型总分获得4.15分,比前代模型提高了0.28分(在MOS量表中,0.1分即代表非常明显的体验改进)。在群聊通知、步行导航等日常会话场景中,其得分更是高达4.24分(前代模型为3.82分),节奏与节奏表现更加贴近人类。

AFM 3 Core Advanced在文本转语音和日常会话测试中,得分大幅提升

在语音转文本(听写)测试中, 新模型在听写等功能上同样表现优异。在整体质量的并排偏好判断中,新模型以44.7%对17.6%的绝对优势碾压现有听写系统。这种优势一直延伸到了标点符号、大小写、版面布局、含义捕捉、口误和不流畅处理、风格等其余六个关键维度。

在听写任务的七个质量维度上,用户都更偏爱AFM 3 Core Advanced的转写结果

随着测试阶段的推进,苹果表示将持续优化模型表现,以确保在正式推送时为全球用户提供更出色的Apple Intelligence集成体验。

英伟达芯片与“隐私防护服”

一个值得注意的细节是,AFM 3 Cloud Pro部署在谷歌云的英伟达GPU上,这也是苹果模型家族里唯一针对英伟达GPU优化的成员,其余四款模型均在苹果自研芯片上运行。

苹果软件副总裁塞巴斯蒂安·马里诺-梅斯(Sebastien Marineau-Mes)在WWDC技术交流会上直言,他们希望利用英伟达的最新技术,但前提是不能破坏私有云计算的隐私铁律。

马里诺-梅斯确认,苹果完全控制部署在这些节点上的软件,只有苹果可以将软件推送到谷歌云的这些节点上。苹果设备仅与经过苹果签名的软件通信,即使代码运行在第三方云端,设备也只认私有云计算中的正版苹果代码。

数据不会被存储,苹果也无法访问,第三方研究人员可持续验证这些隐私属性。

苹果软件工程高级副总裁克雷格·费德里吉(Craig Federighi),将这套架构的核心总结为系统编排器。它负责协调三类请求来源:提供应用内操作访问的应用工具箱、用于访问个人内容以完成请求的语义索引、以及用户发出请求时的屏幕上下文。

随后,编排器会先让端侧模型尝试处理请求。如果端侧模型足以完成任务,整个过程完全在设备本地完成。只有当编排器判断请求需要更强的智能时,才会将其转移至私有云计算平台。

苹果与谷歌的合作边界

关于苹果与谷歌的合作,外界在WWDC前已有诸多猜测,但对合作深度的判断普遍存在偏差。

费德里吉在技术交流会上先用排除法划清了边界。

费德里吉强调,iOS 中没有集成 Gemini 客户端代码,也没有使用谷歌面向客户部署的 Gemini模型;系统知识基础也不是Google Search。对于前四款面向Apple Silicon的模型,苹果称它们由苹果专有数据训练,并借助Gemini前沿模型精炼。

唯一例外是AFM 3 Cloud Pro:它运行在 Google Cloud的英伟达GPU上,但通过苹果的Private Cloud Compute架构维持隐私边界。

“我们使用的谷歌助手组件量为零。”

苏布拉马尼亚解释称,AFM Core、AFM Core Advanced、AFM Cloud和ADM Cloud这四款模型,“为苹果芯片定制构建,使用专有数据训练,并利用Gemini前沿模型进行优化精炼”。

这里的关键词是“优化精炼”,Gemini在训练阶段承担的是教师模型角色,苹果的模型通过学习其输出提升自身能力,而非直接部署Gemini,而所谓的“优化精炼”,其实就是经常被讨论的蒸馏。

对于一家公司既想在AI能力上追赶前沿水平,又不肯交出用户数据的控制权,苹果给出了新的解法。没有现成的模板可以参考,但苹果自己把它搭了出来。

本文来自微信公众号“腾讯科技”,作者:苏扬,36氪经授权发布。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业