文|侃科技
今年的蘋果WWDC結(jié)束之后,盡管媒體的評價都是“沒有驚喜”,但作為頭號黑粉的羅永浩卻異常安靜,上一條“懟人”的微博還是今年一月怒斥榮耀抄襲。
反倒是馬斯克連發(fā)了7條推文 ,狂噴蘋果全面接入OpenAI的ChatGPT,他甚至到庫克的帖子下貼臉開大,說如果庫克不阻止這種令人毛骨悚然的植入型軟件,他將禁止蘋果設(shè)備進入其公司,并貢獻了一張被科技圈廣為流傳的表情包。
雖然外界也好奇馬斯克為何如此暴躁,但主要的關(guān)注點還是在“沒有驚喜”的Apple Intelligence(蘋果智能)上。著名果鏈分析師郭明錤一邊給蘋果敲警鐘,一邊不忘提醒消費者,稱AI可能會是蘋果區(qū)隔高低端機種的新標(biāo)簽。
WWDC發(fā)布會后,蘋果股價做了一圈過山車,先是發(fā)布當(dāng)天應(yīng)聲跌了2%,第二天又神奇般大漲7%。
從不滿到追捧,資本市場的態(tài)度在24小時內(nèi)發(fā)生了驚天反轉(zhuǎn),是投資人誤會了庫克嗎?倒是原本樂見其成的國產(chǎn)廠商,仍在不遺余力制造蘋果落后的話題。
倒也不是國產(chǎn)廠商蹭熱度,主要在AI手機這件事上,之所以蘋果會被評價“沒有驚喜”,是因為有一部分消費者已經(jīng)用上了國產(chǎn)AI手機。換言之,WWDC上蘋果拿出來的那些東西,國產(chǎn)廠商都已經(jīng)教育一遍市場了。
那么問題來了,這一次蘋果還能走在國產(chǎn)廠商前面嗎?
AI手機行至第二階段
在討論先后的問題前,先來說說AI手機到哪個階段了。
廣泛層面上,AI手機被分為App化、功能化和原生化三個階段。簡單來說,去年年初各種類chatGPT的App出現(xiàn)就是第一階段,而隨著OPPO、三星等廠商推出AI手機,第二階段也已到來。
這一階段的AI手機,如今年1月發(fā)布的OPPO Find X7 和三星Galaxy S24,帶有典型的AI功能化特征:支持通話摘要、AIGC消除以及AI語音助手等。
而且在AI手機的整體思路上,各家都趨于一致:將大模型的能力內(nèi)化到操作系統(tǒng)中,不再以顯眼的AI應(yīng)用呈現(xiàn),而是進一步落地到具體手機使用場景,最終目的是讓AI功能看似不存在卻又無處不在。
具體功能集中在以下幾類:
1、輸入法。將生成式AI集成到鍵盤軟件,提供風(fēng)格建議和智能重寫等功能。如三星Galaxy AI允許用戶以不同的風(fēng)格和情緒改寫句子,同時還提供拼寫和語法改正。
2、實時翻譯和轉(zhuǎn)錄。如三星Galaxy S24和華碩Zenfone 11 Ultra可利用設(shè)備端AI功能,實現(xiàn)通話實時翻譯。此外,S24的實時翻譯功能提供電話的實時轉(zhuǎn)錄,在屏幕上顯示文本以方便參考,Zenfone的AI Transcript可自動將語音轉(zhuǎn)換為書面文本。
3、圖像內(nèi)容生成和編輯。如小米14和小米14Ultra引入了“AI人像”功能,允許用戶在手機上使用圖庫里自己的照片來做訓(xùn)練,訓(xùn)練完成后用戶只需輸入文本提示,即可在幾乎任何設(shè)置中生成逼真的AI自拍。OPPO Find X7 Ultra可實現(xiàn)AIGC橡皮擦功能,允許在離線狀態(tài)下,從照片中刪除不需要的物體或人物。
4、通過LLM實現(xiàn)AI驅(qū)動的個性化功能。三星Galaxy S24可根據(jù)提示生成類似人類的文本能力,也可協(xié)助編寫郵件或文檔。OPPO Find X7 Ultra提供了上下文感知的多回合對話,也提供了虛擬助手。
5、生成式AI界面工具。榮耀的任意門功能允許用戶在應(yīng)用程序之間拖放文本或圖像等元素,AI預(yù)測用戶意圖并建議相關(guān)的應(yīng)用程序來共享內(nèi)容。
按照上述功能來看,蘋果之所以被評價“沒有驚喜”,也是因為它的主要功能點一樣落在了文本類、圖片類、語音轉(zhuǎn)錄、語義搜索和語音助手上。換言之,強如蘋果也仍停留在AI手機的第二階段。
不過,蘋果似乎故意弄了一套障眼法,沒有在發(fā)布會上公布自研大模型,加之“沒有驚喜”的Apple Intelligence,導(dǎo)致股價短暫震蕩。但在發(fā)布會后,蘋果又在一篇低調(diào)發(fā)表的技術(shù)博客中暗搓搓的介紹,端側(cè)模型和云模型都是自己開發(fā)的。
其中,端側(cè)模型是一個30億參數(shù)(3B)的小模型,云上模型具體參數(shù)蘋果沒有公布。3B級小模型和主流幾個7B級模型能力上蘋果都能基本勝出,而其云端模型則直接打到了GPT-4 Turbo級。
并且,也有分析認為,即便蘋果實現(xiàn)的AI功能并不突出,但因為它在AI功能落地方面能做的更好,所以仍舊具有一定優(yōu)勢。
以文生圖功能為例,一般用戶使用手機并沒有生圖需求,但是蘋果將此功能落到真正需求上:如顏表情GenEmoji、聊天message中配圖、iPad文檔處理草圖變精圖等,AI介入將這些功能變得真實有用,帶動用戶需求。
而這還不是蘋果最大的野心。
從功能化到原生化
去年12月,騰訊發(fā)表了一篇題為《AppAgent: Multimodal Agents as Smartphone Users》的論文,直譯過來是“作為智能手機用戶的多模式代理”。里面介紹了一種新穎的基于LLM的多模態(tài)Agent框架,旨在操作智能手機應(yīng)用程序。
簡單點說就是騰訊設(shè)計了一個框架,能使智能體模仿人類的點擊、滑動等交互操作,從而達到控制手機的目的。關(guān)鍵是,這種方法無需訪問系統(tǒng)后端,也就是說它在不同App中有高度的適用性。
騰訊為AppAgent設(shè)定了三個核心功能:
1) 自主探索學(xué)習(xí):智能體可以獨立地探索應(yīng)用程序,無需外部指導(dǎo)。
2) 觀察人類演示學(xué)習(xí):智能體通過觀察用戶的操作演示來學(xué)習(xí)任務(wù)執(zhí)行。
3) 知識庫構(gòu)建:智能體通過上述學(xué)習(xí)過程積累經(jīng)驗,構(gòu)建知識庫,用于跨應(yīng)用執(zhí)行復(fù)雜任務(wù)。
理論意義上,AppAgent是一個幫你操作所有App的應(yīng)用。類似于蘋果在發(fā)布會上的演示,用戶告訴Siri想去接機,Siri可調(diào)取郵件里的航班信息、查找最新航班資訊、調(diào)用地圖App形成路線,最終生成一份完整的建議。
將多模態(tài)能力用戶UI界面,通過理解UI來執(zhí)行智能體指令,或是AI手機從功能化邁向原生化的一個重要轉(zhuǎn)折標(biāo)志。蘋果發(fā)布的Ferret UI大模型,就意圖在操作系統(tǒng)層學(xué)習(xí)用戶使用習(xí)慣、并有望替代用戶執(zhí)行操作。
基于對UI的理解,配合端側(cè)智能體的任務(wù)規(guī)劃和分配能力,AI手機具備了可實現(xiàn)如下重大跨越的潛力:用戶使用自然語言下達指令,AI手機理解意圖并將其拆分為具體工作流,然后從UI層面模擬用戶操作以執(zhí)行指令。最終實現(xiàn)跨App的操作與復(fù)雜任務(wù)執(zhí)行。如此一個AI原生的手機操作系統(tǒng)的主要架構(gòu)就完成了。
舉例來說,當(dāng)用戶以自然語言向AI手機輸入指令“幫我買一張明天下午2點去北京的靠窗的火車票”,手機智能體先接受語音、做語義分析和意圖理解,然后進行任務(wù)拆分,拆分為:打開12306 App、選擇搜索車票、選擇地址“北京”、選擇“明天下午2點”、選擇“靠窗”、選擇“乘客姓名”、點擊“購買”;并通過UI類模型,解讀App上不同的UI界面,并模擬用戶點擊操作,實現(xiàn)整個流程。
這一系列操作是不是與蘋果在發(fā)布會上的演示很像,只不過蘋果現(xiàn)階段沒有使用智能體的稱呼,而是稱之為理解用戶情境,實現(xiàn)跨App操作。
類似的產(chǎn)品在今年MWC展上也出現(xiàn)了。Brain.ai的展示的基于App-less交互模式的概念手機T-Phone,用戶只需在對話框中輸入需求,即可得到快速響應(yīng)。T-Phone的核心概念是拋棄傳統(tǒng)的圍繞App設(shè)計的手機,轉(zhuǎn)而通過AI使用上下文預(yù)測來生成界面,幫助用戶完成任務(wù)。
國內(nèi)廠商中,榮耀在魔法OS上推出的任意門功能也是AI手機原生化的雛形。它允許用戶在應(yīng)用程序之間拖放文本或圖像等元素,雖然被羅永浩怒懟抄襲,但其核心能力是“AI預(yù)測用戶意圖并建議相關(guān)的App來共享內(nèi)容”。榮耀當(dāng)時宣稱,在推出時預(yù)計支持全球約100個最常用的應(yīng)用程序。
無論蘋果、騰訊、榮耀或者Brain.ai,這些公司希望最終達成的目標(biāo)是:
用戶只需要輸入想要獲得的服務(wù)(通過語音、文字等形式),手機會直接跳轉(zhuǎn)到服務(wù)頁面,或是由AI智能體直接完成用戶所需要的服務(wù)。
但基于AI智能體的多元、自然交互體驗,必須要有足夠的甚至所有的功能和服務(wù)支撐。在此基礎(chǔ)上,AI智能體的交互才能從傳統(tǒng)GUI(Graphical User Interface)發(fā)展成VUI(Voice User Interface),最終升級為全新Agent(App-less)UI,意味著用戶與手機的交互將發(fā)生在AI智能體和用戶之間,弱化APP的存在感。
所以這一演進預(yù)計不會一蹴而就,未來很長一段時間內(nèi),AI智能體與App會同時活躍在AI手機里。而且不僅手機廠商,頭部App也可能圍繞自己的業(yè)務(wù)生態(tài)打造專用AI智能體,例證就是騰訊發(fā)表的那篇論文。
尾聲
再回到文初我們提出的問題,在AI手機這件事上,蘋果是否還能領(lǐng)先。從表面看,蘋果似乎沒有突破已有AI手機特征,但有三點是非常值得關(guān)注的。
第一,蘋果利用Siri實現(xiàn)的跨App操作,已經(jīng)非常接近AI手機原生化階段的智能體了,目前國產(chǎn)品牌在這方面仍然落后;
第二,在第二階段的演進上,蘋果仍保留著技術(shù)優(yōu)勢。比如在解決大模型手機內(nèi)存瓶頸的問題上,蘋果和國產(chǎn)品牌就選擇了不同的技術(shù)路線。
蘋果的思路是通過內(nèi)存優(yōu)化來解決小內(nèi)存運營大模型的問題,其構(gòu)建了一個以閃存為基礎(chǔ)的推理成本模型,并使用窗口化(Windowing)以及行列捆綁(Row-Column Bundling)兩項關(guān)鍵技術(shù),來最小化數(shù)據(jù)傳輸并最大化閃存吞吐量。
簡單來說,蘋果做到了讓8G內(nèi)存的iPhone 15 Pro跑通3B參數(shù)模型,而同樣是8G內(nèi)存的Pixel 8和8a,今年5月才跑通1.8B的Gemnini Nano。
相較之下,國產(chǎn)廠商之所能在12G內(nèi)存機型上跑通7B參數(shù)大模型,是因為選擇了壓縮路線。
如vivo和OPPO都已在端側(cè)跑通7B參數(shù)大模型,不過核心能力來自聯(lián)發(fā)科,借助后者的混合精度INT4量化技術(shù)和NeuroPilot Compression技術(shù),能將130億參數(shù)LLM所需的內(nèi)存空間,從13GB減少到5GB。
榮耀在今年4月也宣布,基于自家平臺級AI壓縮技術(shù),7B模型能在12GB內(nèi)存設(shè)備上快速啟動。
總之,在AI手機這件事上的競爭,已經(jīng)不再是有沒有大模型了,而是如何以更低成本提供更好服務(wù)。
第三,就是蘋果宣布開放AI SDK,這可能是被很多人忽略的一個重磅信息。
未來開發(fā)者可調(diào)用蘋果手機的AI SDK,基于用戶情境理解,完善第三方App的AI功能。作為目前用戶手機的主要使用場景,未來第三方應(yīng)用搭載AI能力后,AI手機的使用體驗將得到增強。
但對于國產(chǎn)廠商來說,這可能是一件比較難的工作。所以,國產(chǎn)廠商的問題就變成了,雖然在想法和布局上領(lǐng)先了蘋果,但在技術(shù)和生態(tài)層面依舊要追趕,而這恰恰是蘋果難以被超越的護城河。
參考資料
[1] AppAgent:Multimodal Agents as Smartphone Users,騰訊團隊
[2] 為什么有華為麒麟9000s,還需要聯(lián)發(fā)科9300S?極客視界
[3] 蘋果發(fā)布多模態(tài)模型Ferret-UI,部分手機UI任務(wù)超越GPT-4V,雷峰網(wǎng)leiphone
[4] 馬斯克全面禁用蘋果設(shè)備,隱私泄露賊喊捉賊?太平洋科技
[5] 股價暴漲7%!我們深挖了兩份低調(diào)公布的資料后,發(fā)現(xiàn)了蘋果AI的秘密,騰訊科技
[6] AI端側(cè)深度報告之AI手機,中銀國際
[7] 蘋果2024 WWDC點評,中銀國際