文|腦極體
年初ChatGPT爆火的時候,我去上海參加華為春季新品發(fā)布會,用一頁keynote提到了大模型技術與手機硬件的結合。雖然只有短短的一兩分鐘,但我專門發(fā)了一條朋友圈,看好自然語言交互能力在手機上的應用。
當時我就有預感,大語言模型跟手機結合,應該會很快。
時間拉回到現(xiàn)在,蘋果、三星,以及“華米OV”國產(chǎn)手機廠商,都先后宣布了落地大模型。對手機來說,有沒有大模型,已經(jīng)不是一道選擇題了,而是一道必答題。
提起這段故事,不是想說我們預判有多準,做科技觀察不是玄學算命,一切都是有規(guī)律可循的。2023即將尾聲,但大模型手機的熱鬧方興未艾,是時候總結性地聊一聊,手機和大模型結合的深層邏輯,目前各家的差異化打法和挑戰(zhàn)是什么,以及未來會如何發(fā)展。
2023,手機大模型的基建元年
首先有必要解釋一下,為什么我們會預判,大模型與手機的結合,是一種必然?
了解手機市場近況的讀者應該知道,在輝煌了十余年之后,移動智能終端已經(jīng)陷入了某種瓶頸,增長低迷、缺少亮點,廠商創(chuàng)新如同擠牙膏,開發(fā)者巧婦難為無米之炊,可施展的創(chuàng)意空間有限。與此同時,一個用戶身邊至少環(huán)繞著三四個移動設備,每天要為繁瑣交互,付出大量的隱形勞動,甚至有人不勝其煩,開始嘗試“數(shù)字戒斷”。
可以說,移動數(shù)字服務的供需雙方,都在期待一種新的變革技術,可以讓移動智能終端生態(tài)化繁為簡、重塑體驗。而在今天的技術世界中,大模型是最佳選項。
大語言模型的強大理解和生成能力,各種功能用同一個模型基座和自然語言交互來獲取,可以改變手機的多個基本能力,說是重新定義手機,也不為過。
讓大模型跑在手機上,成了手機廠商的必爭之地,開發(fā)者所需要的機會窗口,也是重新點燃用戶熱情的一種必然選項。
大家今年都聽說了“百模大戰(zhàn)”,但跟主要在云端訓練、web調(diào)用的通用大語言模型不同,高度集成化的手機,端側算力、OS操作系統(tǒng)、應用并發(fā)、UI交互等一系列軟硬件,都有自身的特性,也給大模型落地帶來了不少限制。
結合華米OV等頭部廠商的行動方略來看,我們預判,2023將是手機大模型的基建元年。
大模型落地手機,基建工程剛剛開始,后面會有更多好戲可看。具體來說,廠商必須搞定:
1.三座基建。
2.一個入口。
3.一群人。
我們就從這三個層面,來看看目前,各家的情況都怎么樣?有哪些共同挑戰(zhàn)和差異化思路?
第一步:端側部署,三個基建
大語言模型的參數(shù)量動輒百億、千億,其訓練和推理過程,需要耗費大量計算資源,對于手機這樣的移動智能終端來說,SoC芯片的算力是遠遠達不到數(shù)據(jù)中心萬卡集群的規(guī)模的,怎么支撐大模型的端側運算呢?
就算勉強帶起來了,大模型占據(jù)過多的手機工作內(nèi)存,搶占其他應用的資源,會不會出現(xiàn)卡頓或快速掉電?
本地計算不足,引入云計算又會產(chǎn)生很多問題,比如大模型在云上分析處理個人數(shù)據(jù),會不會暴露我的隱私???
要在端側部署,手機和大模型都要進行一番改造。
首先,模型層。
目前主要有兩條路線。
一是把大模型做小,也就是在端側引入輕量級大模型,通過量化、剪枝、蒸餾等壓縮技術,調(diào)整模型結構和參數(shù)大小,以適配端側芯片的內(nèi)存和算力特點,沒網(wǎng)也能用,以榮耀、小米為代表。
榮耀Magic6搭載的,是自研的7B端側AI大模型(即70億參數(shù)規(guī)模),雷軍在2023年度演講宣布“小米全面擁抱大模型”,主攻的是輕量化和本地部署,目前訓練出1.3B和6B參數(shù)規(guī)模的大模型。
二是把大模型做多,提供不同參數(shù)量級的大模型,來支撐不同場景、不同任務,云端協(xié)同,以vivo、OPPO為代表。
11月vivo發(fā)布的自研AI大模型矩陣,其中包括十億、百億、千億三個不同參數(shù)量級的5款大模型。其中,10億量級模型是主要面向端側場景打造的專業(yè)文本大模型,70億模型是面向手機打造的端云兩用模型,700億模型是面向云端服務的主力模型。
同樣采用矩陣方式的,還有OPPO的安第斯大模型(AndesGPT),包括從10 億至千億多種不同參數(shù)規(guī)模的模型。
我在VDC大會,實地體驗了基于藍心大模型的“vivo看見”,可以在完全沒有網(wǎng)絡的情況下,為視障群體提供物品實時識別,辨認出植物、二維碼、公交卡等物體,響應很及時,手機的發(fā)熱和續(xù)航也在可接受范圍內(nèi),確實能解決視障群體出行在外時感知外界環(huán)境的實際需求。
這個功能讓我很受觸動,還特地發(fā)了條朋友圈分享。
不過,產(chǎn)品人員也直言,這種完全斷網(wǎng)、本地計算的大模型應用,對手機芯片的性能要求很高,目前只能在部分旗艦機型上落地。
其次,芯片層。
大模型再小,也是“大”模型,一味壓縮可能會降低模型性能和輸出質量,導致識別精準度、生成內(nèi)容下降。所以,大模型落地,硬件的升級,尤其是手機移動芯片,是必不可少的先決條件。
根據(jù)目前得到的信息,vivo和聯(lián)發(fā)科、高通等都有聯(lián)合研發(fā)合作,來加速優(yōu)化手機端側的AI推理性能,小米也透露,再跟芯片公司(高通和聯(lián)發(fā)科)共同推動端側大模型的落地。此外,今年麒麟芯片回歸,與華為鴻蒙操作系統(tǒng)、盤古大模型可以實現(xiàn)深度的協(xié)同優(yōu)化。
必須承認,大模型應用才剛剛開始,與移動芯片的協(xié)同調(diào)校也才邁出了第一步,未來手機要承載視頻、圖像類AIGC任務,絕大多數(shù)用戶應該是都不愿意上傳到云端的,所以本地AI計算硬件的優(yōu)化調(diào)校,接下來會是手機廠商的競爭力之一。
然后,系統(tǒng)層。
最終,高效可用的大模型應用,一定是端云協(xié)同的,來兼顧體驗與隱私。這就帶來了一些問題,比如數(shù)據(jù)和業(yè)務上云,如何保障用戶的隱私和數(shù)據(jù)安全?基于大模型的AI應用,是否會影響手機性能、續(xù)航等使用感?要解決這個問題,必須從底層操作系統(tǒng)上下功夫。
其中,華為旗艦手機通過HarmonyOS 4系統(tǒng)接入盤古大模型,鴻蒙系統(tǒng)作為底層源代碼全部自己寫出來的OS,加上微內(nèi)核架構,將核心的操作系統(tǒng)服務和安全服務分離,以及安全芯片和隔離技術,從軟硬件全方位的安全保障機制。
此外,OPPO的ColorOS,小米澎湃OS,vivo藍心大模型與其手機系統(tǒng)OriginOS 4,也都成為自研大模型的落地土壤。
而大模型能否與操作系統(tǒng)深度融合,以及操作系統(tǒng)自身的流暢、安全、智能,決定了大模型后續(xù)表現(xiàn)的關鍵。
據(jù)vivo的一位工作人員分享,除了基座模型本身的性能質量之外,大量的工程化細節(jié)也是必不可少的。要讓操作系統(tǒng)快速執(zhí)行用戶的指令,不僅需要大模型對輸入的語音/文本,通過思維鏈進行目標拆解,而且需要大模型深入理解手機技能,對幾百個技能進行智能編排,自動選擇和調(diào)用相應的API,這樣才能自動執(zhí)行復雜任務,把復雜留給自己,把簡單交給用戶。
不難看出,底層模型、芯片、操作系統(tǒng),是大模型端側部署,必不可少的三座基礎設施。同時也應該看到,下一階段的手機市場,是高技術、高難度、高投入、高風險的,需要扎扎實實的“硬功夫”,競爭將變得嚴酷,玩家也會變得更少。
第二步:觸達用戶,一個入口
大模型火了一整年,大廠、媒體和創(chuàng)業(yè)者心心念念的超越ChatGPT、對標GPT4,到了普通讀者那里,似乎還是不明就里:大模型究竟怎么改變我的生活呢?
那么,把智能手機變成“阿拉丁神燈”怎么樣?
看過童話故事的讀者知道,燈中乾坤大,藏著無數(shù)資源和寶藏,但不需要阿拉丁費心琢磨,他只需要說出愿望,都有“燈神”為他將一切事務安排妥當。大模型的理解、創(chuàng)造能力,賦能給手機語音助手,就將它們變成了一個個“燈神”。
接入大模型能力的語音助手,是手機廠商觸達用戶的直接路徑。
目前來看,大模型到手機,就干三件事:一是利用大語言模型的自然對話能力,改變終端交互體驗;二是利用大模型的理解能力,提供個性化的服務,熟悉用戶的日常偏好、習慣,更懂用戶;三是借助大模型的創(chuàng)造能力,進行摘要提取、文案生成、圖像制作,提高生產(chǎn)力……
而上述能力,基本都是通過語音助手來一步直達的。
比如華為的智慧助手小藝,接入盤古大模型的底層能力,在智慧交互、高效生產(chǎn)力提升和個性化服務三個方向上獲得增強。
vivo藍心大模型與手機系統(tǒng)OriginOS 4結合,打造了首款全局智能輔助“藍心小V”,可以通過自然交流,幫用戶完成很多復雜任務,化繁為簡。
基于OPPO安第斯大模型的新小布助手,以及升級了小米AI大模型的小愛同學,也都上線了測試版、體驗版。
萬物智聯(lián)時代,智能終端用戶會面臨設備大爆炸、信息大爆炸、服務大爆炸,如果一切都需要用戶自己進行查找,猶如大海撈針,這對每一個人的耐心、時間、數(shù)字信息素養(yǎng)等,都提出了很高的要求。而大模型與智能助手的融合,就是解藥。
智能助手可以調(diào)度手機、耳機、汽車、平板、智慧屏、電腦PC、智能家居等物聯(lián)網(wǎng)設備,是用戶和AIoT之間的最短路徑。
而依靠大模型的加持,智能助手的分析理解能力、知識水平、記憶水平、生成能力,都大大得到了提升,讓手機廠商說了多年的“千人千機”真的可實現(xiàn)、可感知。
但很長一段時間以來,用戶并沒有覺得智能助手是不可或缺的,有的人還會覺得跟智能助手對話很尷尬、人工智障等,甚至覺得有點雞肋。
毫不夸張地說,大模型好不好用,普通用戶不一定關心,但智能助手好不好用,一句對話就能試出差距,將是接下來手機廠商的競爭焦點。
總結一下,僅有大模型還不夠,智能助手才是觸達用戶的最短路徑,也是手機廠商的必爭之地。
第三步:應用繁榮,一群開發(fā)者
在手機和用戶已經(jīng)具備了接入大模型的前提條件之后,下一步就是如何讓開發(fā)者真正走入大模型的世界。
今天,在華為、vivo、OPPO等廠商的發(fā)布會上,我看到的基于大模型的AI應用已經(jīng)不少,但都偏向于示范,比如自然語言的智慧搜索、一句話生成圖像、AI作曲等。這些功能對于大眾用戶來說,還是太過于基礎了。
就拿火爆的AIGC應用來說,生成最美證件照、為寵物作畫、制作漫畫頭像、寫一段小紅薯分享文案、賽博菩薩、拍圖做數(shù)學題、生成智能手表壁紙……都是需求極為細分的。手機廠商不能,也不應該,將這些AI應用都全部自己干了,這就必須引入千千萬萬開發(fā)者,去發(fā)揮創(chuàng)意,去基于大模型做無數(shù)小而美的AI應用。
但是,從開發(fā)端到市場端,大模型AI應用的路看似很有誘惑力,但對于開發(fā)者來說,還是面臨著技術、學習成本、市場壓力等各種顧慮,需要廠商強有力的技術體系、工具平臺、賦能方案以及商業(yè)勢能的加持。
目前,我們能看到幾種生態(tài)策略:
鴻蒙的技術之路。為全場景智慧的市場空間,以及鴻蒙分布式系統(tǒng)的產(chǎn)業(yè)容納能力,對開發(fā)者的吸引力還是很大的。華為已經(jīng)準備開啟全新的HarmonyOS NEXT,全面啟動鴻蒙原生應用。
vivo的開源之路。Vivo走上了一條開源共建之路,70億藍心大模型成為業(yè)界首個中文開源大模型,開源的好處是可以吸引群體智慧,更適合在技術探索期,進行廣泛、不設邊界的探索,從而催生出更多更新更好的創(chuàng)意應用。vivo也發(fā)布了對應的微調(diào)框架以及大模型開發(fā)套件BlueKit,為開發(fā)者提供全方位的支持。
OPPO的伙伴之路。此前OPPO公布了2023 OPPO開發(fā)者大會的內(nèi)容前瞻,其中潘塔納爾系統(tǒng)能力向開發(fā)者全面開放,支持一次開發(fā)、多形態(tài)多模態(tài)多入口的快速適配,并提供相應的工具資源,幫助開發(fā)者快速接入泛在服務,吸引更多合作伙伴來提供多元化的智能服務。
可以肯定,接下來大模型越來越多、手機基礎軟硬件逐步成熟、平臺能力工具接口更加完善,基于大模型的移動AI應用會變得越來越普及,這時候各家應用生態(tài)能拉開差距的,就只有開發(fā)者的數(shù)量和質量——開發(fā)者能釋放出多少精彩的想象力,手機的使用價值就有多大。
開發(fā)者生態(tài),是移動互聯(lián)時代的護城河,這一定律在AI大模型時代也同樣適用。
對于手機廠商來說,幸運的是,大模型手機才剛剛開始,應用開發(fā)者不希望錯過機遇窗口,還有時間積攢籌碼。
總結一下,2023是大模型手機的修煉之年,三座基建、一個入口、一群人,都逐漸匯聚在端側,變化或許在瞬息之間。
當大模型的殺手級應用步入手機,讓用戶發(fā)出“哇”的尖叫。這個大模型手機的“aha時刻”,說明移動互聯(lián)網(wǎng)的下一個春天,真的來臨了。