共计 1505 个字符,预计需要花费 4 分钟才能阅读完成。
最近看了太多对 Apple Intelligence 架构的猜测,包括 v2 里各种帖子、各种舅舅传言以及各路评测的猜测跟推测,在此之中很多的推测跟苹果自己公布过的架构有较大冲突,也解释不了为何 HK 商店有 Apple Intelligence 但是没有 ChatGPT 的介绍。
这篇文章是我根据苹果官方公布的架构做的一个简单总结和个人推测,如果有误,只能说明我的阅读理解水平不如 GPT。
Disclaimer: 我并不了解如果苹果的基础模型审核通过需要什么努力跟准备,本文只会讨论技术和可行性。
TL;DR
端上自研小模型(简单工作)+ 远端自研大模型(复杂工作)+ 外部模型(专家,比如 ChatGPT)= Apple Intelligence
架构
- 外部 App 因为接入 ios/macos API,底层能力可以直接输出到系统(参考 Shareplay)
- Semantic Index 负责充当知识库,App Intents Toolbox 充当 Tools
- 端上有一个 Orchestration 模块负责将用户请求路由到端上小模型或者远端大模型
- 底层的硬件统一自研芯片 Apple Silicon,直接复用在硬件上的优势(神经引擎、安全区 etc)
- 预估层面,大量使用 LoRA 做任务相关的 fine-tune。每个 adapter 大概在 10x M 上下,端上支持动态加载、缓存、切换。
效果评测
- 整体效果并不亮眼,甚至不一定能打过 Llama3
- 在 跟随指示 跟工具调用 上效果较好
- 在输入和输出的 安全 上表现出色
结论来说,苹果在基础模型(Foundation Models)上的努力是显而易见的:主力目标是做用户的助手,重点关注跟随用户指示、调用已有 App 增强工作流的目标,同时力保安全。至于其他的外部能力,苹果目前的目标还是靠引入第三方(如美国引入的 ChatGPT),自己只做端上小 case。
安全协同
我不是安全专家,苹果在安全方面专门写了一篇博客,介绍了如何在架构上使得远端的基础模型如何保证用户的隐私和安全,但是更多细节还没有公布,只能算一个 overview,目前的意义不是很大。注意这个只包含自家的 基础模型,并未提到调用 ChatGPT 之类的隐私细节。
个人推测
Disclaimer: 再次注意,这里都是个人推测,跟实际是什么情况完全没有直接联系。
- 其他语言需要明年推出的原因还是因为苹果训练第一版模型没有用到 Multilingual 的语聊,这部分需要做重训才能让模型感知到;
- 苹果的所有基础模型自研,所以 HK 可以完全不接入 ChatGPT 上线 Apple Intelligence,国内初版大概率如此;
-
目前国内部署的难点应该是:
- 在云上贵州的 iCloud 部署完整远端 PCC 架构,以支持大基础模型上线;
- 通过《生成式人工智能服务安全基本要求》的备案流程。
- 专家模型实际上不影响,根据 WWDC24 的 Session,现在的 ChatGPT 应用支持 Shortcuts 的情况下,可以直接通过 Apple Intelligence 的 Siri 唤醒作为一个备选手段,只是没有原生接入这么顺滑;我们也同样可以期待未来的 iOS 开放专家模型相关 SDK;苹果在这里选择接入一个国内的泛用专家模型同样完全可能;
Reference
- Apple Foundation Model News: https://machinelearning.apple.com/research/introducing-apple-foundation-models
- Arxiv: https://arxiv.org/abs/2407.21075
- Apple Security Blog: https://security.apple.com/blog/private-cloud-compute/
正文完