苹果大模型最新论文:AFM 模型多维度评测「出炉」
2025-07-11 08:15:31 - 风趣全
编译 | 朱可轩
编辑 | 陈彩娴
不久前,苹果苹果在全球开发者大会(WWDC)上推出了最新个人智能系统 Apple Intelligence,大模多维度评可以深度集成到 iOS 18、型最新论iPadOS 18 和 macOS Sequoia 中,模型引起了 AI 业内人士、测出尤其是苹果端侧智能领域的讨论。
苹果在 2024 年的大模多维度评一系列工艺动作,被戏称为苹果为端侧 AI 所设计的型最新论“开卷考试”,即:大模型时代,模型AI 工艺应如何在手机、测出平板等端侧设备上运营,苹果让手机变得更智能?大模多维度评
近日,苹果团队又在 arXiv 上更新了关于 Apple Intelligence 的型最新论最新论文,其中介绍了苹果用在 Apple Intelligence 上的模型两个基础语言模型,包括:一个在设备端运行的测出大约 30 亿参数的语言模型 AFM-on-device,以及一个在私有云端服务上运行的大规模支持器语言模型 AFM-server。
论文链接:https://arxiv.org/pdf/2407.21075
根据该论文,苹果开发的端侧大模型在语言理解、指令跟随、推理、写作与工具使用等多个任务上都有出色表现。同时,在保护客户信息隐私与保障上,苹果强调在后训练阶段不会使用客户的个人信息进行训练。
结果显示,苹果的 AFM 模型在指令遵循层面皆优于其他大模型,同时,从写作写作能力来看,在摘要总结方面,AFM 模型无论是端侧还是私有云也均要好于其他。而在保障性评估时,AFM 模型也比其他模型要更为负责。但是值得一提的是,AFM 模型的数学能力整体上来看较为一般。
研究发现
人类评估
在人类评估中,在端侧,AFM 仅输于 Llama-3-8B ,而与其他模型相比显然更优。据论文介绍,AFM 与 Phi-3-mini 相比,模型尺寸小了 25%,而胜率达47.7% ,AFM 甚至超出参数数量为两倍多的 Gemma-7B 和 Mistral-7B。而在私有云上,与GPT-3.5相比时,AFM 也具有一定竞争力,胜率超 50%。
指令遵循
在指令级(Instruction-level)与提示级(Prompt-level)的评估中,无论是端侧还是私有云上,均为 AFM 模型表现最好。其指令级的得分分别为 85.7% 和 88.5%,而提示级的得分则分别为 79.3% 和 83.0%。
此外,苹果还使用了 AlpacaEval 2.0 LC 和 Arena Hard 作为基准进行评估。在私有云上,这两项测试中均为 GPT-4 的表现最优,其中,在 Arena Hard 测试中,GPT-4 的得分甚至倍超 AFM。在端侧的 AlpacaEval 2.0 LC 测试中,则为 Gemma-7B 评分最优,AFM 模型紧随其后。
工具使用
苹果还测试了在调用工具使用基准测试中 AFM 模型的表现,分别从简单(Simple)、多重(Multiple)、并行(Parallel)、并行多重(Parallel Multiple)、相关性(Relevance)和平均(Average)几个纬度展开。
整体来看,AFM-server 表现较优,从测试结果上来看,在简单、多重、相关性、平均性维度中,AFM-server 均得分最高,分别为91.0、95.5、91.3、89.5。在并行多重维度中,AFM-server 得分 85.0,仅次于 Gemini-1.5-Pro-0514 的 88.0,且领先于 GPT-4 与 GPT-3.5。
但 AFM-on-device 表现则较为一般,在多重、并行多重、相关性及平均维度中,均要稍逊于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外,在并行维度中,AFM-server 和 AFM-on-device 的表现情况则都较为一般。
写作能力分两块,一块是摘要总结,一块是长作文。其中,AFM 模型主要在摘要总结上表现较好,在端侧的表现优于 Mistral-7B、Gemma-7B、Phi-3-mini 与 Gemma-2B,在私有云上则优于 GPT-4、Mixtral-8x22B、DBRX Instruct 与 GPT-3.5:
数学能力上,苹果 AFM 模型的表现则一般,仅在端侧 MATH 基准上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 与 Mistral-7B,GSM8k 是 8-shot、MATH 是 4-shot:
负责任的 AI
在文本摘要总结功能中,苹果团队将 AFM 模型在邮件、信息与通知这三个应用上作了测试,分别从 5 个维度(仇恨言论、歧视、违法、色情、暴力)来评估模型的“好”与“差”。研究显示,苹果的 AFM 模型在“好”维度的表现均高于 Gemma-7B、Phi-3-8B 与 Llama-3-8B:
保障性评测
在有害输出上,苹果 AFM-on-device 的得分为 7.5%、AFM-server 的得分为 6.3%,得分越低、效果越好,远远高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B(其余得分均在 10% 以上):
在保障提示词上,人类评估,苹果的 AFM-on-device 模型表现优于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 与 Mistral-7B,AFM-server 模型的表现也要远超 GPT-3.5、GPT-4 和 Llama-3-70B:雷峰网(公众号:雷峰网)雷峰网
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
- END -
RASP技术,"入侵者"如何成为网络安全"守护神"?

作者丨赖文昕编辑丨陈彩娴应用安全危机四伏2024年的网络安全形势依旧严峻。2月,澳大利亚电信公司 Tangerine 遭遇网络攻击,导致23万人的个人信息泄露;3月,人工智能图像编辑工具 Cutout
万字实录:VLA 范式,具身智能的曙光与迷雾丨GAIR Live

整理丨赖文昕编辑丨陈彩娴VLA视觉-语言-动作模型)作为具身智能领域的关键新范式,能有效整合视觉信息、语言指令与行动决策,显著提升机器人对复杂环境的理解和适应能力,对推动机器人从单一任务执行向多样化场
乌称俄一化工厂遭袭 系俄军火供应关键环节

当地时间7月7日,乌克兰国家保障与国防事务委员会新闻中心负责人安德烈·科瓦连科表示,俄罗斯莫斯科州克拉斯诺扎沃茨克化工厂遭到袭击。科瓦连科表示,该工厂专门生产炸药、火药、弹药部件及导弹武器装备,是俄军
大模型热度退潮,真正的技术创新者开始被「看见」

“过去两年中国的大模型投资并不是投技术,而是套着投技术的壳投商业模式。硅谷的投资人投 OpenAI 是投技术。”一位投资人对 AI 科技评论表示。商业模式驱动的投资核心是可预见的数字增长,而技术投资则
DALL·E 3 推理能力炸裂提升,OpenAI 抢跑「ChatGPT 原生」

时隔一年半,OpenAI 直接玩了个大的,把文生图和 ChatGPT 做了结合,带着最新版本 DALL·E 3 来了。DALL·E 3 的巨大飞跃主要体现在两大方面。第一,只需要提示词,ChatGPT
脱衣舞爱豆在卫生间陪公子哥约p

黑长直老公家族不少成员,都在老一辈的安排下洗白上岸了。因为涉及到影视圈子,家族成员跟着黑长直老公一起往圈子里发展,台前幕后都有涉猎。老公表妹就是去吃编剧这碗饭的。表妹玩得很野,不爱男,爱女蕾丝,还是跟
Agent 要被吃进大模型了

今天凌晨,奥特曼突然发文宣布推出自家最新的 o 系列模型:满血版 o3 和 o4-mini,同时表示这两款模型都可以自由调用 ChatGPT 里的各种工具,包括但不限于图像生成、图像分析、文件解释、网
上合组织国家电影节闭幕,《三大队》获最佳影片

来源标题:上合组织国家电影节闭幕,《三大队》获最佳影片电影节的电影市场活动上,嘉宾观看中国电影科技企业的虚拟影片。 新华社发7月6日晚,2025上合组织国家电影节闭幕式在重庆永川区举办。本届电影节集中
新能源时代,国产3D视觉「冲击」保守的汽车行业

在改革开放背景上成长起来的汽车产业,经历了飞速发展,但大量中外合资车企的涌入,也铸就了行业保守的底色,天然对国产供应商比较排斥。汽车制造业是机器视觉成熟应用的行业之一,但长期以来,国内传统燃油车产线上
骏乐影视启动“赤兔计划2025”:亿级资金+生态赋能破解短剧产能困局

来源标题:骏乐影视启动“赤兔计划2025”:亿级资金+生态赋能破解短剧产能困局在微短剧市场规模突破千亿、用户增速超30%的背景下,“量产化”与“精品化”
《七月的一天》正式开机 沈月陈昊森携手勇闯漫画世界

来源标题:《七月的一天》正式开机 沈月陈昊森携手勇闯漫画世界 7月4日,由华策影视北京)有限公司出品,王昊执导、孙小闲编剧,沈月、陈昊森领衔主演,田栩宁、柯颖主演,王钧浩特别主演,欧阳雨辰、泰乐、吴浔
北大卢宗青:现阶段世界模型和 VLA 都不触及本质|具身先锋十人谈

作为一名具身大脑的创业者,卢宗青有着金光闪闪的履历:他是紧随DeepMind之后,中国新生代的强化学习研究者。北京大学计算机学院长聘副教授,担任过智源研究院多模态交互研究中心负责人,负责过首个国家自然