文|唐辰同學(xué)
OpenAI最新發(fā)布的文生視頻大模型Sora,再一次驗(yàn)證ChatGPT路線的成功:數(shù)據(jù)精確處理后大規(guī)模預(yù)訓(xùn)練帶來(lái)的智能涌現(xiàn)。從官方演示視頻看,Sora能夠根據(jù)文本提示創(chuàng)建詳細(xì)的視頻,擴(kuò)展現(xiàn)有視頻中的敘述以及從靜態(tài)圖像生成場(chǎng)景,最長(zhǎng)能生成60秒視頻。
一時(shí)間,Sora成為OpenAI的新爆款,被全球追捧。馬斯克感嘆“人類(lèi)愿賭服輸”,360集團(tuán)創(chuàng)始人、董事長(zhǎng)兼CEO周鴻祎預(yù)言“AGI實(shí)現(xiàn)將從10年縮短到1年”。
但“XX已死,AI一夜變天”、“現(xiàn)實(shí)不存在了”、“這個(gè)行業(yè)要完蛋了”等兩極分化的觀點(diǎn)也瞬間充斥網(wǎng)絡(luò)。觀察各種討論和信息后,整理出10個(gè)信息點(diǎn),作為學(xué)習(xí)資料分享給大家。
1、為什么叫Sora?有什么含義?
Sora這個(gè)名字取自日語(yǔ)單詞,意為“天空”,引申含義還有“自由”。在Sora官網(wǎng)頁(yè)面,無(wú)數(shù)只紙飛機(jī)在自由飛翔,行動(dòng)自主,最后匯集成一片天空的背景色。
此外,Sora這個(gè)詞在在韓語(yǔ)中表示海螺殼,在芬蘭語(yǔ)中表示砂礫,很容易讓人聯(lián)想到《海底兩萬(wàn)里》的鸚鵡螺號(hào)和科幻片《沙丘》。
硅基立場(chǎng)提到,Sora在日語(yǔ)里有時(shí)候會(huì)用作動(dòng)詞,意思是“用心記,而不用看任何寫(xiě)下來(lái)的材料”,變化出來(lái)的詞比如“Soranjiru”, そらんじる 的意思就是“remember by heart”,這不正是Sora的能力?
官方說(shuō)法是這樣,研究團(tuán)隊(duì)成員蒂姆·布魯克斯和比爾·皮布爾斯介紹,選擇這個(gè)名字,是因?yàn)樗堋皢酒馃o(wú)限的創(chuàng)造潛力”。
2、現(xiàn)實(shí)不存在了?Sora到底有多炸裂!
OpenAI官方網(wǎng)站貼出了Sora創(chuàng)作的東京街頭視頻。提示詞是:
“美麗的、白雪皚皚的東京市,鏡頭穿過(guò)熙熙攘攘的城市街道,跟隨幾名行人享受美妙的雪天,有人在路邊小攤購(gòu)物。絢麗的櫻花與雪花一起在風(fēng)中飛舞。”
Sora制作的視頻
另一個(gè)視頻根據(jù)如下提示詞產(chǎn)生:
“幾只巨大的、毛茸茸的猛犸象,踩著白雪皚皚的地面走近,風(fēng)吹動(dòng)它們身上的長(zhǎng)長(zhǎng)毛發(fā),遠(yuǎn)處是白雪覆蓋的高大樹(shù)木和雄偉山脈,午后的光線營(yíng)造出溫暖的光芒?!?/p>
Sora制作的猛犸象視頻/OpenAI
由此可以看出,Sora讓“一句話(prompt)生成視頻”成為可能。這種能力的震撼之處在于, Sora在模擬物理世界時(shí),能夠更準(zhǔn)確地反映出現(xiàn)實(shí)世界的復(fù)雜性和多樣性。有了提示詞,Sora就“知道”如何用鏡頭語(yǔ)言講故事。
出門(mén)問(wèn)問(wèn)創(chuàng)始人兼CEO李志飛認(rèn)為,“視頻”作為物理世界的映像,是世界模型渲染出來(lái)的結(jié)果。相比語(yǔ)言數(shù)據(jù),通過(guò)視頻大數(shù)據(jù)學(xué)習(xí)到的模型是“模型的模型” ,同時(shí)學(xué)到了很多物理世界規(guī)律,讓模型更加逼近模擬物理世界。
文本與視頻的區(qū)別在于,前者是理解人類(lèi)的邏輯思維,后者在于理解物理世界。所以,視頻生成模型 Sora 如果能很好跟文本模型 LLM 融合,那它真有望成為世界的通用模擬器。如果有一天,這樣的系統(tǒng)自己通過(guò)模擬駕車(chē)場(chǎng)景,學(xué)會(huì)了在城市復(fù)雜的交通環(huán)境下開(kāi)車(chē),人類(lèi)也不會(huì)奇怪。
不少?gòu)臉I(yè)者驚呼“現(xiàn)實(shí)不存在了”即是源于此。
3、Sora為何被稱(chēng)為世界模擬器?
“文生視頻大模型”并不是一條全新的賽道。在Sora發(fā)布之前,Google、Stability AI等頭部大廠都擁有自己的文生視頻大模型。甚至誕生了垂直內(nèi)容創(chuàng)作大模型的獨(dú)角獸,例如視頻生成大模型Gen-2的開(kāi)發(fā)商Runway,在2023年6月底完成由Google、Nvidia等參與的C輪融資后,估值超過(guò)15億美元。
但和ChatGPT的故事如出一轍,Sora登場(chǎng)就碾壓對(duì)手。在此之前,AI視頻生成領(lǐng)域的明星產(chǎn)品Runway和Pika,只能做3或4秒長(zhǎng)的模糊視頻,角色形象也很扭曲,還得用戶(hù)輸入圖片。
主要視頻生成模型/技術(shù)對(duì)比(來(lái)源:東吳證券)
OpenAI并未單純將Sora視為視頻模型,而是作為“世界模擬器”。它能像人一樣,理解坦克是有巨大沖擊力的,坦克能撞毀汽車(chē),而不會(huì)出現(xiàn)“汽車(chē)撞毀坦克”這樣的情況,這就是“世界模型”的強(qiáng)大之處。
Sora擁有三大關(guān)鍵特點(diǎn):60秒超長(zhǎng)長(zhǎng)度、單視頻多角度鏡頭以及世界模型。其中,“世界模型”是指通過(guò)對(duì)真實(shí)物理世界的模擬,讓計(jì)算機(jī)可以像人類(lèi)一樣全面、準(zhǔn)確地“認(rèn)知”世界。
Sora背后擁有兩大技術(shù)革新:時(shí)空補(bǔ)?。⊿pacetime Patch)技術(shù)和擴(kuò)散型Transformer(Diffusion Transformer,簡(jiǎn)稱(chēng)DiT)架構(gòu)。OpenAI發(fā)現(xiàn)訓(xùn)練計(jì)算量越大,樣本質(zhì)量就會(huì)越高,特別是經(jīng)過(guò)大規(guī)模訓(xùn)練后,Sora展現(xiàn)出模擬現(xiàn)實(shí)世界某些屬性的“涌現(xiàn)”能力。
雖然Sora在物理規(guī)則模擬方面仍然存在不足。例如,一段展示老奶奶吹蠟燭的視頻中,蠟燭并未隨風(fēng)熄滅;另一段視頻中,玻璃杯從空中墜落卻未破裂,水卻已流出。
但Sora的作品達(dá)到了驚人的高清照片級(jí)真實(shí)感,“運(yùn)鏡”手法更令人難忘——圍繞同一主體實(shí)現(xiàn)遠(yuǎn)景、中景、近景、特寫(xiě)等不同鏡頭的切換。這已經(jīng)表明,通過(guò)大量數(shù)據(jù)的分析,機(jī)器能夠推斷出一些物理世界的規(guī)則,這無(wú)疑是向現(xiàn)實(shí)世界模擬邁出的重要一步。
值得一提的是,Sora所展現(xiàn)出來(lái)的“精準(zhǔn)的物理世界還原能力”,也并不是OpenAI獨(dú)自探索的AI領(lǐng)域?!笆澜缒P汀弊钤缡怯蓤D靈獎(jiǎng)得主、Meta首席科學(xué)家楊立昆(Yann LeCun)2023年6月提出。2023年12月,Runway宣布建造“通用世界模型”,用生成式AI模擬整個(gè)世界。馬斯克也稱(chēng),特斯拉掌握“精準(zhǔn)還原現(xiàn)實(shí)世界物理規(guī)律的虛擬世界生成能力”快一年了。
4、Sora為何能實(shí)現(xiàn)如此震撼的效果?
Sora模型基于Transformer架構(gòu),建立在DALL·E 3和GPT模型之上,使用文本到視頻的合成技術(shù),按文本提示生成視頻。這種技術(shù)將自然語(yǔ)言轉(zhuǎn)換為視覺(jué)表示形式——圖像或視頻。
OpenAI在官網(wǎng)展示Sora的生成邏輯
深度神經(jīng)網(wǎng)絡(luò)依然是Sora的基礎(chǔ),它是一個(gè)帶有Transformer骨架的擴(kuò)散(Diffusion)模型,AI從數(shù)據(jù)中學(xué)習(xí)并執(zhí)行復(fù)雜的任務(wù)。Sora就是從“學(xué)習(xí)”的大型視頻數(shù)據(jù)集里學(xué)會(huì)了各種風(fēng)格、主題和流派。
Transformer模型本質(zhì)是一個(gè)編碼器-解碼器,輸入原始語(yǔ)言,生成目標(biāo)語(yǔ)言。擴(kuò)散模型的原理是先給數(shù)據(jù)添加高斯噪聲,再反向去除,從中恢復(fù)數(shù)據(jù)本貌。簡(jiǎn)單粗暴地理解Sora的原理,就是翻譯器+搜索引擎+概率制作(內(nèi)容)。
首先,拿到提示詞后,Sora先分析文本,提取關(guān)鍵字,比如主題、動(dòng)作、地點(diǎn)、時(shí)間和情緒,再?gòu)乃臄?shù)據(jù)集里搜索與關(guān)鍵字匹配的、最合適的視頻。
其次,Sora將數(shù)據(jù)集里合適的視頻混合在一起,重新創(chuàng)建一個(gè)符合要求的視頻。在“創(chuàng)造”的過(guò)程中,它要“知道”場(chǎng)景中有哪些對(duì)象和角色,它們的外形,它們?nèi)绾芜\(yùn)動(dòng),對(duì)象如何交互,以及受到環(huán)境影響后如何表現(xiàn)。
根據(jù)用戶(hù)的喜好,Sora會(huì)修改視頻的風(fēng)格。假如用戶(hù)想要一個(gè)35毫米膠片樣式的視頻,Sora會(huì)調(diào)整效果,更改圖像的亮度、色彩和攝像機(jī)角度。這一點(diǎn)和Midjourney等“文生圖”應(yīng)用類(lèi)似。
Sora可以生成分辨率1920x1080的視頻,也可以基于靜止圖片創(chuàng)建視頻,使用新素材擴(kuò)展現(xiàn)有素材。比如用戶(hù)給它一張森林圖片,它可以幫你加上鳥(niǎo)、獸、人。給它一張汽車(chē)行駛圖,它能加上道路、交通燈、沿途建筑物和風(fēng)景。
Sora將兩段視頻結(jié)合后產(chǎn)生的奇幻景象/OpenAI
5、怎么理解Scaling Law(縮放定律)?
Sora和ChatGPT類(lèi)似,是OpenAI的Scaling Law(縮放定律)的又一次成功:只要模型足夠“大”,根據(jù)特定算法,就會(huì)產(chǎn)生智能“涌現(xiàn)”的能力。大模型的Scaling Law是OpenAI在2020年提出的概念,不僅適用于語(yǔ)言模型,還適用于其他模態(tài)以及跨模態(tài)的任務(wù)。
根據(jù)相關(guān)資料可以得到一個(gè)簡(jiǎn)單介紹:Scaling Laws隨著模型大小、數(shù)據(jù)集大小和用于訓(xùn)練的計(jì)算浮點(diǎn)數(shù)的增加,模型的性能會(huì)提高。并且為了獲得最佳性能,所有三個(gè)因素必須同時(shí)放大。當(dāng)不受其他兩個(gè)因素的制約時(shí),模型性能與每個(gè)單獨(dú)的因素都有冪律關(guān)系。
GPT-4報(bào)告中,明確指出:
The results on the 3rd easiest bucket are shown in Figure 2, showing that the resulting predictions were very accurate for this subset of HumanEval problems where we can accurately estimate log(pass_rate) for several smaller models.
在第3簡(jiǎn)單的23個(gè)代碼問(wèn)題上的性能預(yù)測(cè)
簡(jiǎn)單翻譯一下,GPT-4在這23個(gè)問(wèn)題上的性能預(yù)測(cè),可以通過(guò)比GPT-4小1000倍的模型預(yù)測(cè)得來(lái)。也就是說(shuō)GPT-4還沒(méi)開(kāi)始訓(xùn)練,它在這23個(gè)問(wèn)題上的性能就已經(jīng)知道了。
可以跳過(guò)上述學(xué)術(shù)描述,直接理解為,Scaling Laws對(duì)于大模型的訓(xùn)練很重要!硅基立場(chǎng)認(rèn)為,Scaling Laws正在快速變成一種路線,充滿(mǎn)OpenAI領(lǐng)導(dǎo)者Altman的意志,也正變成這家公司的核心戰(zhàn)略。
6、Sora團(tuán)隊(duì)有何“天才”之處?
根據(jù)OpenAI官網(wǎng)介紹,Sora核心團(tuán)隊(duì)共有15人,而從公開(kāi)資料顯示的畢業(yè)和入職時(shí)間來(lái)看,這支團(tuán)隊(duì)的成立時(shí)間尚未超過(guò)1年。
除了由伯克利應(yīng)屆博士生帶隊(duì),有多名LeCun學(xué)生參與。其中還有包括北大校友在內(nèi)的3位華人研究員,以及20歲就加入OpenAI的天才工程師。
7、重塑AGI的Sora如何影響世界?
360公司董事長(zhǎng)周鴻祎的預(yù)言,即Sora的出現(xiàn)可能將實(shí)現(xiàn)通用人工智能(AGI)的時(shí)間從十年縮短至僅一年。許多人認(rèn)為,Sora首先將對(duì)影視行業(yè)造成沖擊。將來(lái),影視劇制作的門(mén)檻會(huì)將會(huì)大大降低,只要心里有故事,就可借助強(qiáng)大的AI工具進(jìn)行創(chuàng)作。
AI電影《山海奇境》的制作人陳坤提到,Sora通過(guò)展示其視頻能力,旨在收集用戶(hù)反饋,進(jìn)一步探索和預(yù)測(cè)人們期望生成的視頻內(nèi)容。這一過(guò)程類(lèi)似于大規(guī)模模型訓(xùn)練,全球用戶(hù)的互動(dòng)不斷豐富和優(yōu)化了其世界模型,推動(dòng)AI在模擬現(xiàn)實(shí)世界方面變得更加精準(zhǔn)和智能。
不同行業(yè)的巨頭也感受到Sora的“威能”:游戲公司育碧視其為一次巨大的飛躍;華大集團(tuán)CEO尹燁將其比作開(kāi)啟了AI發(fā)展的“牛頓時(shí)代”;而Meta的首席人工智能科學(xué)家、圖靈獎(jiǎng)得主LeCun則批評(píng)Sora無(wú)法真正理解物理世界。
8、Sora制造焦慮么?
Sora值得更多的贊譽(yù),但過(guò)度神話大可不必。販賣(mài)焦慮的不是Sora,喊出“現(xiàn)實(shí)不存在”,就兩類(lèi)人,一類(lèi)是AI門(mén)徒,一類(lèi)是正在賣(mài)課割韭菜。應(yīng)該向前者致敬,而后者正如這張流傳甚廣的照片,典型如李一舟,正賣(mài)付費(fèi)課程從你口袋掏錢(qián)。
對(duì)于普通人,人工智能是一套輔助工具。想靠著買(mǎi)課聽(tīng)來(lái)的信息賺錢(qián),只會(huì)是竹籃打水一場(chǎng)空。真正帶來(lái)壓迫感的,或許是Sora不可思議的進(jìn)化速度。例如,Gen-2是2023年6月發(fā)布的產(chǎn)品,距離Sora的發(fā)布不過(guò)8個(gè)月。
支撐OpenAI以如此速度迭代的是“瘋狂燒錢(qián)”,也是“大力出奇跡”的驅(qū)動(dòng)力。知乎上,一位叫做“像素?zé)捊饚煛钡膭?chuàng)業(yè)者坦承了他在目睹Sora發(fā)布后的心路歷程:“我有些害怕科技巨頭的產(chǎn)品像隆隆火車(chē)一樣駛過(guò),而我做的東西如同路邊的野草一樣,在這個(gè)技術(shù)進(jìn)步就像跑馬燈一樣的時(shí)代里,留不下一絲痕跡?!?/p>
9、OpenAI使了多大力?
Stability AI CEO Emad Mostaque曾稱(chēng),人工智能作為基礎(chǔ)設(shè)施所需的投資總額可能為1萬(wàn)億美元,這會(huì)是人類(lèi)有史以來(lái)最大的泡沫。
OpenAI訓(xùn)練GPT-4,用了大約25000塊A100 GPU 。而訓(xùn)練GPT-5,還需要5萬(wàn)張H100,目前這張GPU的售價(jià)在2.5萬(wàn)至3萬(wàn)美元,還要排隊(duì)。
為支撐OpenAI技術(shù)發(fā)展所需要的算力,“奧特曼”宣布啟動(dòng)“造芯”計(jì)劃,籌集多達(dá)5萬(wàn)億至7萬(wàn)億美元的資金,生產(chǎn)芯片。這個(gè)募資規(guī)模,可以買(mǎi)下包括英偉達(dá)、臺(tái)積電、英特爾、三星在內(nèi)的十八家芯片巨頭,以及社交巨頭Meta,還剩3000億美元。按照英偉達(dá)CEO黃仁勛的說(shuō)法,7萬(wàn)億美元能買(mǎi)下全球所有的GPU。
10、Sora面臨的挑戰(zhàn)有哪些?
首先是成本,Sora很強(qiáng),但也更貴。小冰CEO李笛曾算過(guò)一筆賬,如果把全中國(guó)所有媒體的撰稿工作全部由大模型來(lái)完成,顛覆掉了一個(gè)市場(chǎng)、端掉了很多撰稿人的飯碗,AI公司獲得的也不過(guò)是200萬(wàn)左右的市場(chǎng)規(guī)模。大力出奇跡,但不是每家公司都有OpenAI的實(shí)力。
還有一個(gè)老生常談的問(wèn)題,Sora生成內(nèi)容的版權(quán)問(wèn)題也一直在被不斷規(guī)范。比如,美國(guó)聯(lián)邦貿(mào)易委員會(huì)(FTC)2月15日提出了禁止使用AI工具冒充個(gè)人的規(guī)則。FTC表示,它正在提議修改一項(xiàng)已經(jīng)禁止冒充企業(yè)或政府機(jī)構(gòu)的規(guī)則,將保護(hù)范圍擴(kuò)大到所有個(gè)人。
OpenAI內(nèi)部也在進(jìn)行模型倫理方面的對(duì)抗性測(cè)試,包括拒絕處理錯(cuò)誤信息、仇恨內(nèi)容、偏見(jiàn)內(nèi)容和色情暴力等。
如今,山姆.阿爾特曼就像百年前的奧本海默,正在搭建影響未來(lái)的基礎(chǔ)設(shè)施,并且還在不斷同競(jìng)爭(zhēng)對(duì)手拉開(kāi)差距。
相較于ChatGPT的人聲鼎沸,這一次,中國(guó)企業(yè)家和創(chuàng)投圈的公開(kāi)“對(duì)比”,明顯沉寂很多。但賽道外,妄自菲薄、腹誹以及嘲諷的聲量卻不絕于耳。此種情形,個(gè)人十分認(rèn)同硅基立場(chǎng)的觀點(diǎn):
我們不缺同樣帶來(lái)極佳體驗(yàn)的AI模型和產(chǎn)品,也不缺技術(shù)社區(qū)影響力極佳的個(gè)體和作品,但卻沒(méi)有在我們自己的討論里形成該有的關(guān)注,也許所有人該放開(kāi)一些包袱了。我們對(duì)自己嚴(yán)苛到妄自菲薄的事實(shí)也在起著反作用。
以對(duì)原創(chuàng)技術(shù)的理解和定義為例,OpenAI不是Transformer模型發(fā)明者,Stable Diffusion不是Diffusion模型發(fā)明者,Mistral不是MoE發(fā)明者。如果對(duì)標(biāo),它們本質(zhì)都可以理解是一個(gè)個(gè)ASML,
所以“我們?yōu)槭裁礇](méi)有誕生OpenAI”是不是并不等于“我們?yōu)槭裁礇](méi)從頭發(fā)明某某技術(shù)”?是不是哪怕一家像ASML這樣的“只做沙子的搬運(yùn)工”的公司,今天誕生在中國(guó)也躲不過(guò)先被罵套殼的命運(yùn)?有時(shí)候,問(wèn)題提錯(cuò)了可能一切就都錯(cuò)了。
綜合內(nèi)容:
智東西,《Sora爆火48小時(shí),大佬們?cè)趺纯???/em>
投中網(wǎng),《“今天,所有VC的會(huì)上都在談Sora”》
硅基立場(chǎng),《Sora帶來(lái)的四點(diǎn)啟發(fā)》
南風(fēng)窗,《東京街頭視頻流出,硅谷巨頭不淡定了》
飛哥說(shuō)AI,《為什么說(shuō) Sora 是世界的模擬器?》