文|豹變 李鑫
編輯|劉楊
「核心提示」
無論是賣出天價的AI作畫,還是近期風靡全球的ChatGPT,都預示著AIGC(人工智能生成內(nèi)容)賽道將迎來產(chǎn)業(yè)大爆發(fā)。此時,理解AIGC的演進歷程和底層架構(gòu),以及AIGC會帶來哪些改變,將成為觀察產(chǎn)業(yè)趨勢的關(guān)鍵。
未來的藝術(shù)展,會不會變成機器人之間的PK?
這個問題如果問在幾十年前,人們可能會說這是遙遠的科幻,而在人工智能(AI)一日千里的今天,回答它恐怕需要思考再三。
2018年,一幅由AI創(chuàng)作,名為《埃德蒙·貝拉米畫像》曾在紐約佳士得拍賣行以43.25萬美元的價格被拍下——這是估價的40多倍,成為第一幅被拍賣的人工智能作品。
去年9月,另一幅名為《太空歌劇院》的作品獲得了美國科羅拉多州博覽會藝術(shù)比賽的金獎。令人意外的是,這幅作品并非作者杰森·艾倫親自手繪,而是用AI作畫工具Midjourney完成。
賽后,兩位評委都稱此前并不知道Midjourney是AI工具,但二人隨后也都表示,即使他們知道,同樣也會授予作者最高獎項。這一度引發(fā)AI創(chuàng)作的作品該不該拿來參加比賽的大討論。
不過,如果和最近火遍全球的ChatGPT做對比,AI作畫似乎只是開胃菜。這個能作詩、編懸疑小說、甚至寫代碼的人工智能聊天機器人,上線兩個月便收獲1億用戶,以至于特斯拉CEO馬斯克直言:“ChatGPT非常好,我們離強大到危險的AI不遠了。”比爾·蓋茨甚至定性ChatGPT的出現(xiàn)“不亞于互聯(lián)網(wǎng)和個人電腦的誕生”。
AI作畫、ChatGPT有什么共性?本質(zhì)上,它們都屬于AIGC的范疇,即人工智能生成內(nèi)容。
AIGC潛力不容小視,根據(jù)Precedence Research預測,AIGC將在2022年后迎來應用的爆發(fā)。預計市場空間將由2022年的108億美元上漲至2032年的1181億美元,10年的復合增速高達27%。
可見,AIGC將會在未來的商業(yè)世界中扮演越來越重要的角色,此時了解其演進歷程和底層邏輯將成為關(guān)鍵。
技術(shù)、需求雙輪驅(qū)動
AIGC看似一夜爆發(fā),實則是多年技術(shù)沉淀的結(jié)果。
1957年,歷史上第一支由計算機創(chuàng)作的音樂作品《依利亞克組曲》誕生,這被看作AIGC故事的起點。
不過,在人工智能發(fā)展初期,受限于種種因素,相關(guān)算法大多基于預先定義的規(guī)則或者模板,遠算不上智能。而相關(guān)高昂的系統(tǒng)成本無法帶來可觀的商業(yè)變現(xiàn),也讓各國政府紛紛減少在人工智能領(lǐng)域的投入,AIGC 沒有取得顯著進展。
AIGC真正引發(fā)市場關(guān)注,來自近年生成式對抗網(wǎng)絡(luò)(GAN)、Transformer、擴散模型(Diffusion Model)等深度學習生成算法相繼涌現(xiàn)。這些生成算法為AI高品質(zhì)輸出內(nèi)容打下基礎(chǔ)。
比如畫出獲獎作品《太空歌劇院》的Midjourney,就參考了CLIP和Diffusion,構(gòu)建了自己的閉源模型。而ChatGPT的底層——AI大模型GPT3.5,底層技術(shù)則是來自2017年谷歌重磅發(fā)布的Transformer。
如果說技術(shù)推動只是AIGC發(fā)展的左腳,那么創(chuàng)新需求的牽引,則是AIGC加速落地的右腳。
隨著用戶對內(nèi)容數(shù)量和質(zhì)量的需求爆增,但傳統(tǒng)的內(nèi)容生產(chǎn)模式在產(chǎn)能和質(zhì)量上,正逐步暴露短板。
內(nèi)容的生產(chǎn)方式可分為三類:偏傳統(tǒng)的專業(yè)生成內(nèi)容(PGC)、用戶生成內(nèi)容(UGC)、更新穎的人工智能生成內(nèi)容(AIGC)。
PGC內(nèi)容往往制作標準高、工作周期長,但由于供給端人力資源有限,PGC難以滿足大規(guī)模內(nèi)容生產(chǎn)的需求;UGC模式則相反,它滿足了個性化需求且提高了容量上限,但由于其對制作者、生成工具、內(nèi)容話題沒有限制,質(zhì)量無法保證。
AIGC雖然暫時無法替代這兩種內(nèi)容生產(chǎn)模式,但能對兩種生產(chǎn)方式起到優(yōu)化作用。借助AIGC,創(chuàng)作者一方面能夠通過持續(xù)深度學習提升內(nèi)容的專業(yè)性;另一方面AI也能輔助專業(yè)創(chuàng)作者,提升創(chuàng)作效率。
在文本領(lǐng)域,騰訊打造的“夢幻寫手”的新聞寫作系統(tǒng)能夠在規(guī)定的22種場景中進行寫作,具有0.46秒的平均發(fā)稿速度;在音頻領(lǐng)域,風險投資機構(gòu)a16z曾透露,Siri聯(lián)合創(chuàng)始人Tom Gruber目前已經(jīng)打造了能夠?qū)崟r動態(tài)編曲的自適應音樂平臺LifeScore。用戶只需向LifeScore輸入一系列的音樂“原材料“,AI就會改編并實時混音,帶來音樂表演。
隨著AIGC時代來臨,商業(yè)世界的變化遠不止于此。
如何打出新型“閃電戰(zhàn)”?
眾所周知,英國人發(fā)明了坦克,但德國人發(fā)明了基于坦克的閃電戰(zhàn)。
一項新技術(shù)、工具誕生后,誰能將其用到極致,誰越能占據(jù)主動。
本輪生產(chǎn)力革命的受益者,或許不只是AIGC技術(shù)的發(fā)明人,更是把AIGC技術(shù)用到極致,進行模式創(chuàng)新的先行者。正如當年的互聯(lián)網(wǎng),以瀏覽器為起點,后續(xù)衍生出了社交網(wǎng)絡(luò)、電商、視頻、游戲等一系列更具想象空間的新模式。
在電商行業(yè),AIGC正試圖降低商家和用戶間的交易成本。
2021年4月,阿里巴巴上線了3D版天貓家裝城。對于商家,天貓幫助其快速構(gòu)建3D購物空間;對于消費者,3D版天貓家裝城支持消費者自己動手做家裝搭配,消費者可以沉浸式體驗“云逛街”。
數(shù)據(jù)顯示,3D購物的轉(zhuǎn)化率平均值為70%,較行業(yè)平均水平提升了9倍,同比正常引導成交客單價提升超200%,同時商品退換貨率明顯降低。
再比如在金融行業(yè),AIGC正幫助企業(yè)不斷增強品牌粘性。
2022年年初,商湯科技為寧波銀行上海分行專屬打造了001號數(shù)字人員工“小寧”,這位數(shù)字人化身大堂經(jīng)理為日??蛻籼峁└黝悩I(yè)務咨詢和服務辦理。
去年12月16日,“小寧”主持了一場虛實結(jié)合、打破次元壁的線上直播活動。活動中,“小寧”可以幽默介紹自己的工作內(nèi)容,并向網(wǎng)友推薦寧波銀行的多種金融產(chǎn)品和優(yōu)惠福利。從粉絲互動到直播帶貨,商湯數(shù)字人“虛擬IP”可以自主直播運營,用更低的業(yè)務運營成本為企業(yè)前端帶來全天候的“用戶觸達”。
數(shù)字人商業(yè)潛力巨大。根據(jù)《虛擬數(shù)字人深度產(chǎn)業(yè)報告》的預測,到2030年,中國虛擬人整體市場規(guī)模將達到2700億元人民幣。從商業(yè)模式上看,虛擬數(shù)字人的客單價相對更高。
小冰CEO李笛在接受采訪時曾表示,之前他們嘗試銷售終端內(nèi)容時,只能按劑量去銷售,形成的是類似菜市場一樣的內(nèi)容市場,單價非常低?!昂髞?,我們把生成的能力捆綁在數(shù)字人身上,平均客單價迅速從20萬提高到了300萬。”
目前,隨著以ChatGPT為代表的自然語言技術(shù)(NLP)再一次在單點取得突破,進一步降低AI的使用和觸達門檻,AIGC的商業(yè)化表現(xiàn)不俗。
2021年成立的Jasper,通過其文字生成功能,用戶可以生成社交媒體標題,編寫短視頻腳本、廣告營銷文本、電子郵件內(nèi)容等工作。成立當年,Jasper就擁有7萬多名客戶,其中不乏Airbnb、IBM等知名企業(yè)。2021年一年便創(chuàng)造了4000萬美元的收入,2022年預估收入為7500萬美元。
這些數(shù)字充分展示了AIGC產(chǎn)業(yè)不俗的商業(yè)化落地速度和效果。隨著自然語言技術(shù)、計算機視覺技術(shù)和AIGC生成算法的不斷發(fā)展和優(yōu)化,AIGC產(chǎn)業(yè)的商業(yè)化應用將會更加廣泛和深入。這些應用不僅可以幫助企業(yè)提高效率、降低成本、提升競爭力,也可以為用戶提供更加個性化、智能化的服務和體驗。
AIGC掀起“三大軍備競賽”
AIGC的爆發(fā),正吸引知名投資機構(gòu)圍觀。
去年9月,紅杉美國發(fā)表《生成式Al:一個創(chuàng)造性的新世界》,核心觀點認為AIGC將成為眾多產(chǎn)業(yè)新一輪范式轉(zhuǎn)移的開始。
在文章結(jié)尾,作者憧憬,如果技術(shù)繼續(xù)沿著當下的變化速度發(fā)展,那么AI自己寫備忘錄、將文字輕松轉(zhuǎn)變?yōu)槠た怂闺娪暗目苹梦磥恚瑢⒉辉龠b遠。
紅杉的預測是不是空想?事實上,目前AIGC領(lǐng)域逐步掀起的三重“軍備競賽”,正加速讓理想照進現(xiàn)實。
第一重軍備賽,來自更大的模型,它讓AIGC更會表達。
大模型之所以重要,是因為AIGC生成的文本、圖像、音頻等多模態(tài)內(nèi)容,結(jié)構(gòu)和語義相對復雜,要想生成高質(zhì)量內(nèi)容,需要模型具備強大的學習和表達能力。此時,大模型具有更多參數(shù)、更深網(wǎng)絡(luò)結(jié)構(gòu)、更豐富學習數(shù)據(jù)的特點,可以更好地擬合和表達生成任務的模式和特征,在AIGC中發(fā)揮其獨特優(yōu)勢,實現(xiàn)高質(zhì)量的內(nèi)容生成。
比如在自然語義處理(NLP)領(lǐng)域,龍頭公司OpenAI在2022年開發(fā)的ChatGPT的底層大模型GPT-3.5,就包含1750億的參數(shù),且調(diào)用了8000億個單詞(相當于1351萬本牛津詞典)的訓練數(shù)據(jù)。這千億參數(shù),海量學習數(shù)據(jù),也讓ChatGPT應對不少問題能對答如流,正常得不像個機器。
在計算機視覺領(lǐng)域,國內(nèi)人工智能龍頭企業(yè)商湯科技的視覺大模型同樣布局深厚。2021年商湯推出一套名為SenseCore AI大裝置的人工智能基礎(chǔ)設(shè)施,這套裝置同時布局模型層、平臺層、算力層,能夠低成本、大規(guī)模生產(chǎn)人工智能模型。
基于這套大裝置,商湯開發(fā)的視覺大模型,參數(shù)已達到320億,是基于公開信息可查的計算機視覺中,具有最大參數(shù)量的模型。
之所以視覺大模型的參數(shù)量少于語言大模型,主要是由于相比語言文字,可用于訓練的視覺數(shù)據(jù)信息維度相對偏少,而且受到此前計算機硬件的限制,計算機視覺技術(shù)的發(fā)展和自然語言處理技術(shù)存在數(shù)十年差距。但隨著數(shù)據(jù)量和計算能力的增加,視覺大模型在未來幾年內(nèi)將有顯著發(fā)展。
打造領(lǐng)先的大模型,除了取決于先進的算法,還取決于豐富的產(chǎn)業(yè)實踐經(jīng)驗。因為只有基于大量應用實踐,企業(yè)才能構(gòu)建泛化性能更好、通用性更強的大模型。
自2016年起,商湯科技開始全面布局AIGC包括文字、語音、圖像、視頻、代碼、三維人物動作等多模態(tài)的數(shù)據(jù)分析和內(nèi)容生產(chǎn)。這些豐富的應用實踐,不但促進了商湯AIGC大模型的研發(fā),也反過來促進多模態(tài)內(nèi)容的生產(chǎn),彼此形成正循環(huán)。
大模型之外,第二重軍備賽點,來自更高的算力。
大算力,一方面可以支持更復雜的模型和更大規(guī)模的數(shù)據(jù)訓練,提高AIGC生成內(nèi)容的質(zhì)量和多樣性;另一方面可以提高AIGC生成內(nèi)容的生產(chǎn)效率和速度,支持實時生成和個性化定制。
不過,獲得大算力,需要支付高昂的成本,一般的小企業(yè)無法負擔。
《財經(jīng)十一人》曾測算,如果某企業(yè)想以1萬枚英偉達A800 GPU為基準構(gòu)建智能算力集群,每枚GPU價格10萬元,那么僅GPU的采購成本就高達10億元。再考慮到服務器采購成本通常占據(jù)數(shù)據(jù)中心建設(shè)成本的30%,構(gòu)建一個智能算力集群的建設(shè)成本將超過30億元。
高昂的成本,也使得全國算力網(wǎng)絡(luò)的建設(shè),只有政府和產(chǎn)業(yè)資深行業(yè)玩家才能參與。2022年5月,西南地區(qū)最大的人工智能計算中心——成都智算中心正式上線。
這座智算中心由成都高新區(qū)、郫都區(qū)與華為公司共同建設(shè)運營,總投資高達109億元。其中,人工智能算力平臺采用基于華為昇騰AI基礎(chǔ)軟硬件的AI集群,算力達到300 PFLOPS(每秒30億億次浮點運算),相當于15萬臺高性能PC的計算能力。
在上海,作為商湯科技SenseCore AI大裝置的底座,全新啟用的商湯臨港人工智能智算中心(AIDC)目前上線了1.745 EFLOPS(每秒174.5億億次浮點運算)的算力規(guī)模,并獲得強勁的市場需求。
截至2022年8月,上海臨港AIDC對外服務算力已突破1 EFLOPS。為算法模型的分析、低成本訓練、大規(guī)模數(shù)據(jù)管理提供支撐。
不過,雖然AIGC可以輔助提高內(nèi)容的創(chuàng)作效率,甚至改變內(nèi)容的創(chuàng)作模式,但這項技術(shù)仍會讓設(shè)計、文案等非行業(yè)人士感覺高高在上。此時,只有更細化地打造出面向各個行業(yè)的垂直型AIGC工具,才能真正實現(xiàn)行業(yè)的革新。
這也使得產(chǎn)業(yè)玩家要想脫穎而出,需要打贏第三軍備競賽點——讓應用門檻更低,讓AIGC應用更普惠。
目前Open AI近期已宣布開放ChatGPT和語音轉(zhuǎn)文本模型Whisper模型API(應用接口),開發(fā)人員可以通過API將ChatGPT和Whisper模型集成到自己的應用程序和服務中,并由此訪問到最前沿的語言以及語音到文本功能。
通過一系列全面優(yōu)化,自去年12月以來,OpenAI也已成功將ChatGPT的使用成本降低了90%;谷歌的AutoDraw應用程序,可以幫助用戶自動將簡筆畫轉(zhuǎn)換為專業(yè)的矢量圖形,省去了用戶自己做圖的麻煩;
商湯科技則在近日發(fā)布了擁有30億參數(shù)的多模態(tài)多任務通用大模型“書生(INTERN)2.5”,并在GitHub上的商湯通用視覺開源平臺OpenGVLab中開源。“書生(INTERN)2.5”在多模態(tài)多任務處理能力方面有多項突破,將視覺、語音及多任務建模三個模型能力有效融合,其圖文跨模態(tài)開放任務處理能力可為自動駕駛、機器人等通用場景任務提供高效精準的感知和理解能力支持。
利用多模態(tài)多任務通用大模型輔助完成自動駕駛場景中各類復雜任務
“書生(INTERN)2.5”是商湯科技向通用人工智能(AGI)邁出的堅實一步,已建立起AGI模型的研發(fā)架構(gòu),憑借在計算機視覺方面的積累,其視覺能力在全球處于領(lǐng)先位置,語言能力仍在增強,相信在這一競賽中后續(xù)會推出更大、更強的AGI模型。
AIGC規(guī)?;涞睾螅餍懈鳂I(yè)將產(chǎn)生怎樣的變化?在近期召開的“2023全球人工智能開發(fā)者先鋒大會”上,商湯科技CEO徐立提出了一個“新二八定律”。
他表示,過去傳統(tǒng)行業(yè)的二八定律,是機器20%的指令/代碼解決80%的事情,企業(yè)會把部分能力抽象出來,變成各種庫、編譯包,所以20%的工作是自動化的,剩下的80%由人來定制。
“但是當有了生成式AI,我們將迎來‘新二八定律’,即80%的工作由機器完成,20%的工作才由人來做?;P屯苿拥男袠I(yè)領(lǐng)域的變化,再推動行業(yè)應用的迭代,這套流程可能成為未來標準化的生產(chǎn)流程。”
寫在最后
有關(guān)技術(shù)如何在社會中擴散?演化經(jīng)濟學家卡蘿塔·佩蕾絲在其《技術(shù)革命與金融資本》一書中總結(jié)道,每一輪技術(shù)革命都會經(jīng)歷兩期、四階段:導入期(爆發(fā)階段、狂熱階段)和展開期(協(xié)同階段、成熟階段)。
在導入期,新技術(shù)會被引入少數(shù)行業(yè)做示范,然后大量熱錢會在此時涌入。而一旦導入期示范效果好,新技術(shù)就會進入大規(guī)模應用時期,也叫展開期。
展開期建立在技術(shù)和制度框架彼此協(xié)調(diào)的基礎(chǔ)上,是一個相對穩(wěn)定而繁榮的發(fā)展時期。許多國家會在展開期達到高就業(yè)水平。因此,人們往往將展開期看作“黃金時代”或“美好年代”。
回看當下,近幾年智能駕駛、智能監(jiān)控、AIGC產(chǎn)業(yè)等AI細分賽道的持續(xù)爆發(fā),其示范效應或?qū)⑼苿尤斯ぶ悄墚a(chǎn)業(yè)整體逐步從導入期進入展開期。
而隨著ChatGPT等應用的橫空出世,我們也會發(fā)現(xiàn),AI產(chǎn)業(yè)的演進已誕生更明確的方向,即通過大模型結(jié)合大算力實現(xiàn)通用型AI,讓非資深的企業(yè)和個人也能享受到技術(shù)進步。此時,誰能提前深度布局大模型以及配套強算力,誰將構(gòu)筑更高的壁壘,更早收獲產(chǎn)業(yè)紅利。
你覺得哪一行更容易獲得AI紅利?