文|王吉偉
LLM強勢挺進端側(cè),AI大語言模型端側(cè)部署如何影響超自動化?
端側(cè)部署對大語言模型落地有什么好處?對超自動化有什么影響?
產(chǎn)業(yè)上下游齊發(fā)力LLM挺進端側(cè),大語言模型加速落地利好超自動化
芯片、云服務(wù)、終端廠商齊發(fā)力,LLM決勝端側(cè),超自動化受益其中
從谷歌推出Gecko到高通引入Llama 2,端側(cè)部署成為LLM落地重要方向
大語言模型端側(cè)部署+LLM超自動化,“賈維斯”智能管家照進現(xiàn)實
算力資源吃緊,成本居高不下,數(shù)據(jù)隱私泄露,用戶體驗不佳……
以O(shè)penAI為代表的大語言模型爆發(fā)后,多重因素影響之下本地化部署成為LLM落地的主流模式。LLM迫切需要部署在本地設(shè)備上,圍繞LLM端側(cè)部署的研究與探索空前高漲。
5月份,Google推出了可以在旗艦手機上離線運行的PaLM2 輕量版Gecko。
從這一刻起,能夠在端側(cè)運行的大語言模型成了廠商們的重要任務(wù)。畢竟LLM要落地,移動終端是最好的載體之一,同時端側(cè)也有著巨大的市場空間。
于是,廠商們紛紛開啟狂飆模式,踏上LLM的壓縮、蒸餾及優(yōu)化之路,要把自家的云端大模型先行裝進手機。
也就是在此期間,高通提出了混合AI概念:AI處理必須分布在云端和終端進行,才能實現(xiàn)AI的規(guī)模化擴展并發(fā)揮其最大潛能。
端側(cè)的市場規(guī)模,加上混合AI趨勢,就連微軟也與Meta結(jié)盟共同推出了可以部署在端側(cè)的開源大語言模型Llama 2。
被稱為“GPT-4最強平替”的Llama 2,可以讓開發(fā)者以很低的成本為客戶提供自主大模型,將為開發(fā)者們帶來更多可能性和創(chuàng)新機遇。
由此開始,各家芯片廠商全力研發(fā)能夠適配各種大模型的芯片、技術(shù)以及解決方案。
雖然能夠支持LLM本地運行的芯片還沒有量產(chǎn),但高通在世界人工智能大會期間于手機端使用SD十幾秒生成一張圖片的演示,迅速吸引多方眼球。
高通計劃2024年開始在搭載驍龍平臺的終端上支持基于Llama 2的AI部署,聯(lián)發(fā)將在下半年發(fā)布的下一代旗艦SoC也將支持AI部署。
端側(cè)部署芯片蓄勢待發(fā),智能終端廠商披星戴月。
尤其是手機廠商,都在全力進行面向LLM的研發(fā)與測試,目前基本都已發(fā)布基于云端的自有大語言模型,更想全力爭奪LLM端側(cè)部署的先發(fā)時刻。
產(chǎn)業(yè)鏈上下游雨點般的密集動作,彰顯LLM正在快速挺進端側(cè)。
關(guān)注王吉偉頻道的朋友知道,LLM也正在與超自動化高速融合,并為超自動帶來了從技術(shù)架構(gòu)到產(chǎn)品生態(tài)再到經(jīng)營模式的轉(zhuǎn)變。
過去的LLM都在云端部署,就已為超自動化帶來了這么大變化?,F(xiàn)在LLM即將實現(xiàn)端側(cè)部署,又將為超自動化帶來哪些影響?
本文,王吉偉頻道就跟大家聊聊這些。
手機廠商推出大模型
7月下旬,外媒爆料蘋果公司正在悄悄開發(fā)人工智能工具,且已建立了自己的框架“Ajax”來創(chuàng)建大型語言模型。以“Ajax”為基礎(chǔ),蘋果還創(chuàng)建了一項聊天機器人服務(wù),內(nèi)部一些工程師將其稱為“Apple GPT”。
一個月后,蘋果開始全面招聘工程師和研究人員以壓縮LLM,使其能在iPhone和iPad上高效運行。這一舉措標志著蘋果公司正積極推動人工智能的發(fā)展,并希望成為首批開發(fā)出能在手機和設(shè)備上而非云端有效運行的人工智能軟件的公司之一。
8月初,華為在HDC 2023 開發(fā)者大會上表示手機小藝語音助手已升級支持大語言模型,可以像目前火熱的 AI 聊天機器人那樣輔助辦公和學(xué)習。
同時華為在發(fā)布HarmonyOS 4時,也宣布已將AI大模型能力內(nèi)置在了系統(tǒng)底層。HarmonyOS 4由華為盤古大模型提供底層支持,希望給用戶帶來智慧終端交互、高階生產(chǎn)力效率、個性化服務(wù)的全新AI體驗變革。
小米公司此前并未“官宣”進入LLM賽道,但其大語言大模型MiLM-6B已經(jīng)悄然現(xiàn)身 C-Eval、CMMLU 大模型評測榜單。截至當前,小米大模型在C-Eval總榜單排名第10、同參數(shù)量級排名第1。
在8月14日晚舉辦的小米年度演講中,雷軍表示小米AI大模型最新一個13億參數(shù)大模型已經(jīng)成功在手機本地跑通,部分場景可以媲美60億參數(shù)模型在云端運行結(jié)果。小米旗下人工智能助手小愛同學(xué)已開始升級AI大模型能力,在發(fā)布會當天開啟邀請測試。
OPPO已在8月13日宣布,基于AndesGPT打造的全新小布助手即將開啟大型體驗活動。升級后的小布助手將具備AI大模型能力,擁有更強的語義理解對話能力,可以根據(jù)需求的文案撰寫用戶需要的內(nèi)容,歸納總結(jié)等AI能力也將大大增強。
AndesGPT是OPPO 安第斯智能云團隊打造的基于混合云架構(gòu)的生成式大語言模型。該團隊在兩年前開始對預(yù)訓(xùn)練語言模型進行探索和落地應(yīng)用,自研了一億、三億和十億參數(shù)量的大模型OBERT。OBERT曾一度躍居中文語言理解測評基準CLUE1.1總榜第五名,大規(guī)模知識圖譜問答KgCLUE1.0排行榜第一名。
vivo也在今年5月研發(fā)了面向自然語言理解任務(wù)的文本預(yù)訓(xùn)練模型3MP-Text,曾一舉奪得 CLUE 榜單(中文語言理解基準測評)1億參數(shù)模型效果排名第一。有消息透露,vivo將在今年10月左右推出新的OriginOS 4.0系統(tǒng),新系統(tǒng)將內(nèi)置AI大模型。
榮耀是最早布局AI的手機廠商之一,其AI能力的進階主要分為三個階段:第一階段是從0到1提出概念,將需求場景化,比如相機可以直接識別綠植、天空,AI能夠?qū)D像進行對應(yīng)的優(yōu)化;第二階段,AI有了上下文理解與學(xué)習,基于位置、時間對消費者習慣進行整合式機器的決策;第三階段就是把AI引入端側(cè)。
榮耀也曾公開對外表示,將率先將 AI 大模型引入端側(cè)。
芯片廠商的LLM動作
高通是LLM端側(cè)部署的堅定推動者。
6月初,高通發(fā)布了《混合AI是AI的未來》白皮書。高通認為,隨著生成式 AI正以前所未有的速度發(fā)展以及計算需求的日益增長,AI 處理必須分布在云端和終端進行,才能實現(xiàn)AI 的規(guī)?;瘮U展并發(fā)揮其最大潛能。
云端和邊緣終端如智能手機、汽車、個人電腦和物聯(lián)網(wǎng)終端協(xié)同工作,能夠?qū)崿F(xiàn)更強大、更高效且高度優(yōu)化的 AI,混合AI將支持生成式AI應(yīng)用開發(fā)者和提供商利用邊緣側(cè)終端的計算能力降低成本,因此混合AI才是AI的未來。(后臺發(fā)消息 混合 ,獲取該白皮書)。
在今年的世界人工智能大會上,高通展示了在終端側(cè)運行生成式AI模型Stable Diffusion的技術(shù)演示,和終端側(cè)語言-視覺模型(LVM)ControlNet的運行演示,參數(shù)量達到10億-15億,能夠在十幾秒內(nèi)完成一系列推理。
7月19日,Meta宣布與微軟合作共同推出開源大語言模型Llama 2之后,高通隨即官宣了與Meta公司的合作,將實現(xiàn)在高通驍龍芯片上可以不聯(lián)網(wǎng)的情況下,運行基于Llama 2模型的應(yīng)用和服務(wù)。
雙方通過合作,可以在智能手機、PC、AR / VR 頭顯設(shè)備、汽車等設(shè)備上,運行Llama 2為代表的生成式 AI 模型,幫助開發(fā)者減少云端運行成本,為用戶提供私密、更可靠和個性化的體驗。
高通計劃從2024年起,在搭載驍龍平臺的終端上支持基于Llama 2的AI部署。目前,開發(fā)者已經(jīng)可以開始使用高通AI軟件棧面向終端側(cè)AI進行應(yīng)用優(yōu)化。
聯(lián)發(fā)科在4月28日官宣發(fā)布了全球首個繁體中文AI大型語言模型BLOOM-zh,該模型于2月份開始內(nèi)測,至發(fā)布時在大多數(shù)繁體中文基準測試中優(yōu)于其前身,同時保持其英語能力。
與高通一樣,聯(lián)發(fā)科也在積極擁抱Llama 2。
8月24日,聯(lián)發(fā)科宣布將運用Meta最新一代大型語言模型Llama2以及聯(lián)發(fā)科最先進的人工智能處理單元(APU)和完整的AI開發(fā)平臺(NeuroPilot),建立完整的終端運算生態(tài)系統(tǒng),加速智能手機、汽車、智慧家庭、物聯(lián)網(wǎng)等終端裝置上的AI應(yīng)用開發(fā)。
預(yù)計運用Llama 2模型開發(fā)的AI應(yīng)用,將在年底最新旗艦產(chǎn)品上亮相。
聯(lián)發(fā)科透露,其下一代旗艦SoC天機9300將于下半年推出,常規(guī)的性能提升之外,還將整合最新的APU,在手機等終端設(shè)備上帶來更強的AI能力,類似ChatGPT的服務(wù)體驗。
6月上旬,也有消息透露三星電子已在開發(fā)自己的大型語言模型(LLM)以供內(nèi)部使用。
除了手機等端側(cè)設(shè)備,PC仍舊是重要的個人與企業(yè)生產(chǎn)力工具,英特爾也在不遺余力的對大語言模型進行支持。
英特爾在6月份官宣了用Aurora超級計算機開發(fā)的生成式AI模型Aurora genAI,參數(shù)量將多達1萬億”。
英特爾提供了一系列AI解決方案,為AI社區(qū)開發(fā)和運行Llama 2等模型提供了極具競爭力和極具吸引力的選擇。豐富的AI硬件產(chǎn)品組合與優(yōu)化開放的軟件相結(jié)合,為用戶應(yīng)對算力挑戰(zhàn)提供了可行的方案。
英特爾還通過軟件生態(tài)的構(gòu)建和模型優(yōu)化,進一步推動新興的生成式AI場景在個人電腦的落地,廣泛覆蓋輕薄本、全能本、游戲本等。目前,英特爾正與PC產(chǎn)業(yè)眾多合作伙伴通力合作,致力于讓廣大用戶在日常生活和工作中,通過AI的輔助來提高效率,帶來革新性的PC體驗。
AMD在6月中旬發(fā)布了最新款數(shù)據(jù)中心GPU——MI300X,但似乎并不被市場看好,大客戶并不買單。
倒是近期陳天奇TVM團隊出品的優(yōu)化算法,實現(xiàn)在最新Llama2 7B 和13B模型中,用一塊 AMD Radeon RX 7900 XTX 速度可以達到英偉達 RTX 4090的80%,或是3090Ti的94%。
這個優(yōu)化算法,讓更多人開始關(guān)注AMD的GPU顯卡,也讓更多AMD個人玩家看到了用AMD芯片訓(xùn)練LLM的希望。目前,已經(jīng)有一些開源LLM模型能夠支持A卡。
眾所周知,目前英偉達GPU是全球算力的主要構(gòu)建者。當前想要玩轉(zhuǎn)大語言模型,從B端到C端都離不開英偉達,相關(guān)數(shù)據(jù)預(yù)測英偉達將占據(jù)AI芯片市場至少90%的市場份額。
Jon Peddie Research(JPR)最新GPU市場數(shù)據(jù)統(tǒng)計報告顯示,2023年第一季度桌面獨立顯卡的銷量約為630萬塊,英偉達以84%的市場份額繼續(xù)占據(jù)主導(dǎo)地位,大約銷售了529萬張桌面獨立顯卡;AMD以12%的市場份額排在第二,出貨量大概為76萬張。
作為當前最大的算力供應(yīng)商,英偉達在大語言模型以及生成式AI方面以及發(fā)布了很多戰(zhàn)略、解決方案及產(chǎn)品。
限于篇幅關(guān)于英偉達這里不做贅述,大家可以自行搜索了解。
LLM端側(cè)部署有什么好處?
從芯片廠商到終端廠商,都在搶灘登陸部署大語言模型。現(xiàn)在,他們又將目光聚焦到了LLM的端側(cè)部署,這其中的邏輯是什么呢?
在討論這個問題之前,不妨先看看端側(cè)部署LLM有哪些好處。
近幾年LLM取得了長足的進展,卻面臨著一些挑戰(zhàn),比如計算資源限制、數(shù)據(jù)隱私保護以及模型的可解釋性等問題,都是制約LLM走進千行百業(yè)的重要因素。
LLM端側(cè)部署是指將大語言模型運行在用戶的智能設(shè)備上,相對于LLM運行云端服務(wù)器上,在端側(cè)運行LLM有以下幾個好處:
首先,提高用戶體驗。可以大幅減少網(wǎng)絡(luò)延遲,提高響應(yīng)速度,節(jié)省流量和電量。這對于一些實時性要求高的應(yīng)用場景比如語音識別、機器翻譯、智能對話等,是非常重要的。
其次,保障數(shù)據(jù)安全。能夠有效避免用戶的數(shù)據(jù)被上傳到云端,從而降低數(shù)據(jù)泄露的風險,增強用戶的信任和滿意度。對于健康咨詢,法律咨詢,個人助理等涉及敏感信息的應(yīng)用場景,非常必要。
第三,增加模型靈活性。在端側(cè)部署LLM可以讓用戶根據(jù)自己的需求和喜好,定制和調(diào)整模型的參數(shù)和功能。這對于一些需要個性化和多樣化的應(yīng)用場景,有益于內(nèi)容創(chuàng)作、教育輔導(dǎo)、娛樂游戲等場景的業(yè)務(wù)與工作開展。
AI 部署本地化具有必要性,優(yōu)勢包括更低的延遲、更小的帶寬、提高數(shù)據(jù)安全、保護數(shù)據(jù)隱私、高可靠性等。完整的大模型僅參數(shù)權(quán)重就能占滿一張80G的GPU,但是通過量化、知識蒸餾、剪枝等優(yōu)化,大模型可以在手機本地實現(xiàn)推理。
高通在其AI白皮書《混合AI是AI的未來》中已經(jīng)預(yù)測了LLM的未來發(fā)展方向,大語言模型挺進端側(cè)已是大勢所趨。包括手機廠商等在內(nèi)的終端廠商對此需求巨大,產(chǎn)業(yè)鏈上游的芯片廠商自然要不遺余力地基于大語言模型做各種探索。
雖然高通、聯(lián)發(fā)科、Intel等芯片廠商已經(jīng)與Metad Llama 2展開合作,但距離支持LLM端側(cè)運行的移動端芯片還沒有規(guī)?;慨a(chǎn)還有一段時間。
混合AI的趨勢下,LLM的本地化與網(wǎng)絡(luò)化運行都是必需。因此在當前這個空檔期,廣大終端廠商正在通過云端將大語言模型能力融合到語音助手輸入法等工具軟件上,以此讓用戶先行體驗生成式AI帶來的諸多好處。
云端配合端側(cè)雙管齊下部署LLM,以本地終端算力支持大部分生成式AI應(yīng)用,必要時聯(lián)動云端算力解決復(fù)雜應(yīng)用問題,在將手機體驗提升一大截的同時,也能將算力成本降低更多。
由此,先由云端LLM提升用戶體驗,后面再通過端側(cè)部署LLM加強體驗,將會持續(xù)為用戶帶來更多的驚喜。
如果LLM能夠在手機端部署,自然也能在其他終端上部署。
這意味著,在手機之外,包括筆記本電腦、智能家居、VR(Visual Reality,虛擬現(xiàn)實)/AR(Augmented Reality,增強現(xiàn)實)設(shè)備、汽車和其他物聯(lián)網(wǎng)終端,未來都會搭載能夠支持LLM的芯片,AIOT將會迎來AIOT大換血,可以想象這是一個多大量級的市場。
而這些產(chǎn)品,幾乎所有手機廠商都在做。
此外,手機端運行LLM對硬件有一定的需求,CPU主頻越高算力也就越大。
IDC數(shù)據(jù)顯示,2023年一季度全球手機銷量中主處理器頻率超過2.8GHz 的占比36%,價格在1000 美金以上的占比13%,即旗艦機型占比較低。隨著LLM在手機端落地,加上廠商們的大語言模型、生成式AI等的噱頭營銷,有望推動新一輪換機潮。
面向未來數(shù)十億美元的市場規(guī)模,所有智能終端廠商都將受益其中。
這對于從2019年就開始持續(xù)下行并且用戶換機周期延長的手機市場來說,著實是一場及時雨。而貼上AIGC標簽的終端產(chǎn)品,也有望帶領(lǐng)消費電子產(chǎn)業(yè)走出長期的低迷而進入一個新的經(jīng)濟周期。
端側(cè)部署對超自動化有什么影響
超自動化是一個以交付工作為目的的集合體,是RPA、流程挖掘、智能業(yè)務(wù)流程管理等多種技術(shù)能力與軟件工具的組合,也是智能流程自動化、集成自動化等概念的進一步延伸。
超自動化本身涉及到的關(guān)鍵步驟即發(fā)現(xiàn)、分析、設(shè)計、自動化、測量、監(jiān)視和重新評估等均囊括在內(nèi),突出以人為中心,實現(xiàn)人、應(yīng)用、服務(wù)之間的關(guān)聯(lián)、組合以及協(xié)調(diào)的重要性。
自生成式AI爆發(fā)以后,超自動化領(lǐng)域所轄的RPA、低/無代碼、流程挖掘、BPM、iPaaS等技術(shù)所涉及的廠商都在積極探索LLM自身的融合應(yīng)用,目前基本都已通過引入LLM以及基于開源技術(shù)研發(fā)了自有領(lǐng)域模型。
這些大模型正在與各種產(chǎn)品進行深度交融,進而變革產(chǎn)品形態(tài)與創(chuàng)新商業(yè)模式。
超自動化是LLM落地的一個重要方向,畢竟自動化是企業(yè)優(yōu)先考慮的增效降本工具及技術(shù)。尤其是端到端流程自動化,已是廣大組織進行數(shù)字化轉(zhuǎn)型的主要途徑。
引入生成式AI以后,超自動化將從內(nèi)容生成自動化和業(yè)務(wù)流程自動化兩個方面同時賦能組織的長效運營。生成式AI將會進一步提升組織的業(yè)務(wù)流程自動化效率,進而實現(xiàn)更徹底的降本、提質(zhì)與增效。
LLM對超自動化的影響,可以簡單概括為提高效率和質(zhì)量、增強智能和靈活性、支持決策自動化、拓展領(lǐng)域和范圍、增加創(chuàng)新和價值等幾個方面。
之前王吉偉頻道與大家討論的LLM與超自動化融合,更多的集中于兩者在技術(shù)架構(gòu)融合后所造就的新產(chǎn)品、模式如何提升生產(chǎn)力及創(chuàng)造更多商業(yè)價值,沒有在LLM部署方面做更多探討,這里我們可以簡單聊一聊這個話題。
大語言模型實現(xiàn)端側(cè)部署,相較于部署在云端的LLM,必然會讓超自動化的實施與運行達到更好的效果。
RPA作為企業(yè)管理軟件,因為一些客戶的私有化需求,很多時候都要將RPA部署在本地機房或者私有云環(huán)境。在大語言模型的引入上,一些對數(shù)據(jù)隱私要求比較高的客戶只能選擇本地化部署LLM,但部署在本地算力成本就成了首要問題。
將來LLM能夠部署在端側(cè),這些客戶在算力資源上就獲得很大的釋放,PC端以及移動端都能夠承擔一部分算力,可以極大降低算力成本。
因此LLM運行在用戶的設(shè)備上,可以有效降低超自動化運行的網(wǎng)絡(luò)延遲,減少云端計算資源的消耗。
在成效方面,LLM的端側(cè)部署可以使超自動化更加靈活和可定制,用戶能夠根據(jù)需求和場景選擇合適的AI模型,并且可以隨時更新和調(diào)整模型。端側(cè)部署也可以使超自動化更加安全和可靠,畢竟用戶的數(shù)據(jù)不需要上傳到云端,從而避免了數(shù)據(jù)泄露或被篡改的風險。
當然,LLM端側(cè)部署也面臨一些挑戰(zhàn),比如計算需求量大、對實時性要求高,受限于運行環(huán)境、內(nèi)存、存儲空間等,這些正是LLM網(wǎng)絡(luò)側(cè)部署要解決的問題。
由此,高通所倡導(dǎo)的多種部署方式相結(jié)合的混合AI就派上了大用場,這也是LLM的端側(cè)部署為何會成為當前大熱門的主要原因。
后記:LLM端側(cè)部署+超自動化將“賈維斯”照進現(xiàn)實
LLM在端側(cè)運行,可以讓手機等終端設(shè)備在不聯(lián)網(wǎng)的情況下與用戶進行更好的交互,并聯(lián)動其他移動端比如各種智能家居,以更好的服務(wù)用戶。
超自動化產(chǎn)品架構(gòu)中早已引入了對話機器人(Chatbot),目的是通過語音口令自動創(chuàng)建業(yè)務(wù)流程。但之前的機器人反應(yīng)不夠靈敏,無法與人更好的交互,也無法全面調(diào)動RPA進行流程創(chuàng)建,且只能構(gòu)建或者執(zhí)行簡單的預(yù)制業(yè)務(wù)流程。
將LLM構(gòu)建于手機等移動終端,基于大語言模型生成能力、語義理解能力和邏輯推理能力,用戶就可以通過多輪對話進行業(yè)務(wù)流程的實時創(chuàng)建,進而構(gòu)建更多復(fù)雜的業(yè)務(wù)流程,以更智能地處理多項業(yè)務(wù)。
這意味著,通過手機等終端以語音對話的方式構(gòu)建并執(zhí)行工作、生活及學(xué)習中的各項業(yè)務(wù)流程已經(jīng)成為可能,通過終端調(diào)用所在場景中的所有智能終端為個體服務(wù)也將成為現(xiàn)實。
目前市面已經(jīng)出現(xiàn)了類似的產(chǎn)品,比如實在智能的TARS-RPA-Agent模式CahtRPA,就已經(jīng)做到通過對話實現(xiàn)如生成文本一樣流暢地生成并執(zhí)行業(yè)務(wù)流程。接下來,將會有更多類似產(chǎn)品出現(xiàn),這將極大地豐富各領(lǐng)域多場景的超自動化應(yīng)用。
說到這里,大家腦海中是不是已經(jīng)有一個機器人管家的形象了?
沒錯,以大語言模型為核心,以語言為接口,控制多AI模型系統(tǒng),構(gòu)建《鋼鐵俠》中“賈維斯”式的綜合智能管家,可以說是每個人的夢想。
而現(xiàn)在來看,將大語言模型進一步構(gòu)建于端側(cè),云端與端側(cè)雙管齊下,再加上能夠生成各種復(fù)雜流程的超自動化,使得這個夢想已然照進現(xiàn)實。