前段时间的WWDC,苹果终于如愿以偿公布了AI的相关消息。从iPhone、iPad到Mac,无不被生成式AI覆盖。与安卓阵营只是简单地把大模型塞进手机里不一样,这次苹果用他们的做法告诉了大家,什么才是LLMs+OS的正确打开方式。
在生成式AI的浪潮下,今年的苹果开发者大会WWDC 2024,AI毫不意外的成为了大会绝对的主角。
从iPhone、iPad到Mac,无不被生成式AI覆盖。大家早已期待的新 Siri 只是苹果 AI 能力的一小部分,横空出世的Apple Intelligence才是这次的重头戏,从图像到文本,从iPhone、iPad到Mac,Apple Intelligence让苹果全系产品有了史诗级升级。
相较于安卓厂商对于大模型的小打小闹,只是简单将大模型作为Copilot塞进手机里,除了更新语音助手外,就是找几个还算能唬人的场景加上大模型的能力,最后还明目张胆将其定义为AI手机,这次苹果用他们的做法告诉了大家,什么才是LLMs+OS的正确打开方式。
苹果,重新定义了AI:Apple Intelligence!
01. Apple Intelligence是什么?
Apple Intelligence定义为iPhone、iPad和Mac的个人智能系统,利用苹果芯片的能力来理解和创建语言和图像,以及跨应用采取行动。
苹果 CEO 蒂姆・库克说:苹果的目标一直是构建以人为本,最为易用方便的个人设备,提升人们的生活效率。
在这个目标下,苹果提出了他们的AI产品理念:体验足够强大、直观易用、完全整合到系统体验中、个性化且保护隐私,于是他们基于苹果自研的A 和 M系列芯片,走了一条自研本地大模型加三方云端大模型的策略。
在其他厂商疯狂砸钱买GPU训练模型的时候,在想方设法将大模型塞进手机存储的时候,苹果却换了种做法,不卷大模型,不卷本地化,还能给用户提供更好的使用体验!
这点就能看出来,苹果的出发点一直是为了提升用户的生活体验,他们明白自己做的是产品,而不是拿着锤子找钉子,死卷大模型。
库克表示,Apple Intelligence 是苹果创新的新篇章,将改变用户使用产品的方式。苹果独特的方法结合了生成式人工智能和用户的个人信息,能提供真正有用的智能服务。此外,Apple Intelligence 能够以完全私密和安全的方式访问信息,帮助用户完成对他们最重要的事情。这是苹果独有的 AI 体验。
先具体看看Apple Intelligence能做什么?
简单来说,跟录音、GPS等一样,苹果将AI融入IOS系统,为用户和开发者系统提供一系列原生AI能力。可以说,这些都是原生的人类 API。
文本工具writing tool
在苹果的自带的文本应用如邮件、备忘录、Safari浏览器、Pages、Keynote和三方应用如微信、小红书等中,提供文本润色、重写,校对,改写(如语气变化)、总结和文本转表格等能力。
在它的帮助下,无论是写文章、发帖,为用户解锁了提升写作和更有效沟通的新方式。
图像工具
Image Playground,只需几秒钟即可生成素描、插图、动画三种风格。这些功能在系统中所有app都可用,包括Notes,Freeform,Keynote,Pages等等。
Image Wand可以将你的素描草图转换为 Notes 应用中的相关图像。使用手指或 Apple Pencil 在你的草图周围画一个圆圈,Image Wand 会分析其周围的内容以产生互补的视觉效果。
还可以生成emoj表情等等。
Siri新升级
在Apple Intelligence的加持下,Siri变得更自然、更能理解我们了!
除了更好的自然语言理解和多轮交互外,Apple Intelligence还会为Siri带来屏幕内容感知功能,这样,它就能理解屏幕上的内容,执行相应的操作。
比如朋友发消息告诉你ta的新地址,你可以直接在信息对话中说,「把这个地址加入ta的联系人名片中」。
最牛的来了,Siri也可以完成跨app操作。
例如“将我起草的电子邮件发送给 April 和 Lilly”,Siri 知道您引用的是哪封电子邮件以及它在哪个应用程序中。当然这些增强功能,也并不限于苹果开发的APP。
那如果复杂任务Siri无法用本地模型执行,则会主动询问是否可以叫ChatGPT处理,同时ChatGPT也被集成到了系统的writing tool中,可以改写润色等。
隐私保障
苹果出了一个“私有云计算”的概念:“不得不上云运作”的AI功能,将在使用苹果芯片的专用服务器上启用云计算模式,确保用户数据的私密性和安全性。
02. Apple Intelligence背后的大模型
Apple Intelligence 由多个功能强大的大模型组成,这些模型专门用于辅助完成用户的日常任务,并可以根据用户的当前活动进行动态调整。
这些模型可以分为三类:
本地模型(On-Device Language Model)
这部分包含3B的语言模型、扩散模型DIffusion Model和用于Xcode的编程模型,另外还有用来做 RAG 的 Semantic Index (语义索引)和 App Intents Toolbox(应用意图工具箱)。
这些模型都针对日常的任务进行了一系列的微调,帮助用户完成各种系统级的任务。
比如前面提到的文本工具的摘要、润色、改写、回复邮件、图像生成、通知进行优先级的排序、跨应用的交互等。
此外在这些微调模型之上有个适配器(Adapters),适配器是覆盖在通用基础模型上的一小批模型权重。它们可以动态加载和交换,使基础模型能够针对手头的任务即时进行专门化。
简单来说就是根据任务来给模型选择合适的权重,让模型轻松适应不同领域专家的角色。
私有云计算(Server-Based language Model)
这个基于服务器的大语言模型,对于本地模型满足不了要求的任务,苹果会传到云端运算。
为了确保数据的安全性,苹果采用了私人云计算技术。每当用户的设备发起请求时,它会通过一个端对端加密的通道与特定的私有云计算集群进行连接。仅限于被指定的集群有权限解开这些加密的请求数据。应答数据发送回用户后,相关信息不会被存储,且苹果公司也不具备访问这些数据的能力。
第三方 LLMs
如果苹果自己的大模型搞不定的任务怎么办?
那就交给现在专门的模型厂商处理,专业的人做专业的事情嘛!
目前已经接入了 OpenAI 的 GPT-4o,但按照苹果的说法,后续还会有更多家的模型接入,比如Gemini 等。
另外,考虑到国家政策,苹果在不同国家地区的接入的大模型厂商可能不同,那Open AI和Meta的大模型肯定在国内无法使用,没有通过工信部备案,根据之前的传闻,国内首先接入的应该就是百度的文心一言了!
03. App Intents:给开发者的Framework
刚才讲了,苹果希望可以跨应用完成用户的需求,比如使用Siri就能直接完成邮件发送,图像修改等,不需要进入 app 里面,这个体验很丝滑流畅。
- 苹果允许操作系统和应用程序的所有部分通过「函数调用」进行互操作;内核进程 LLM 可根据用户查询安排和协调它们之间的工作
- 无摩擦。苹果以一种高度流畅、快速、always on 和上下文的方式全面集成这些功能。无需四处复制粘贴信息、提示工程等。还对用户界面进行了相应调整。
但具体要怎么实现呢?那就得用到给开发者提供的App intents工具,这又是一次操作系统厂商和开发者的博弈战。
App Intents 框架提供的功能可将三方的 app 操作、内容与跨平台的系统体验(包括 Siri、Spotlight、小部件、控件等)深度集成。借助 Apple Intelligence 和 App Intents 增强功能,Siri 会获得在 app 内和跨 app 执行操作的能力。
如此,开发者们可以允许用户通过以下方式使用自己的产品:
- 与Siri互动,也可以利用Apple Intelligence的个人环境感知和行动能力
- 通过Spotlight建议和搜索进入产品,比如微信。
- 等等。。
举个例子,比如邮件应用,他们通过App Intents框架向苹果提供一个操作来表示某个意图,比如发邮件或者删除邮件。然后,用户可以随时要求Siri代表他们执行这些意图,无论此时有没有打开邮件应用。
简单来说,苹果一方面让开发者将意图理解能力引入App中,方便Siri等调用App的功能,一方面又可以将Apple提供的文本、图像等功能集成到App中。
这才应该是AI OS真正干的事情!
本文来自作者:小布Bruce,不代表爱氧气立场,平台仅提供信息存储空间服务。
本网站属于非赢利性网站,如对本稿件有异议或投诉,请联系(iyangqi@qq.com)爱氧气处理。