中国japanese漂亮丰满,久久精品亚洲日本桥本有菜,MM131巨爆乳美女少妇动态图

文｜新莓daybreak yuanyuan

編輯｜翟文婷

Sora面世半個多月，這個深水炸彈的后續(xù)效應(yīng)依然強烈。

Open AI 發(fā)布的這個文生視頻模型，緊跟著 Google 發(fā)布 Gemini 1.5 的消息，讓支持百萬級 token 的 Gemini 黯然失色，幫助OpenAI在科技圈成功「搶 C」，一躍成為視頻模型屆的 GPT 3.5 時刻。

畢竟，當Runway、Pika 等同類視頻模型的創(chuàng)作上限還在 10 秒左右時，Sora 已經(jīng)能夠生成 60 秒的精致視頻，可以一鏡到底、切換視角，無論是背景還是主人公的表情，都擁有豐富的細節(jié)。關(guān)于Sora是否會殺死剪映的輿論甚囂塵上。

目前 Sora 還沒有對公眾開放，但昨天，已經(jīng)有創(chuàng)作者拿到了測試資格，并發(fā)布了自己嘗試的三個視頻。

在「測評電子產(chǎn)品的年輕人」這個視頻中，光影細膩，人物和置景真實，美中不足的是他的右手有六根手指。

此外，Sora 在理解物理時會遇到困難，特別是在腿部/行走方面。在 Sora 生成的小狗行走視頻中，腿部經(jīng)常交叉并合并在一起。

雖然 OpenAI 發(fā)布了 Sora 的技術(shù)報告，但其中并未涉及技術(shù)細節(jié)。

我們能知道的是，Sora 又是一次 OpenAI 式的典型勝利，是技術(shù)選型、訓(xùn)練數(shù)據(jù)、資源優(yōu)化等各個環(huán)節(jié)的細節(jié)優(yōu)化，組合成了一次效果超出預(yù)期的質(zhì)變。就像 Sam Altman 之前解釋為什么 GPT 會比其他的大模型更好，是因為 OpenAI 堆了「一百萬個小技巧」。

去年年初，ChatGPT 發(fā)布后，海內(nèi)外大廠爭先恐后地發(fā)布文本大模型，熱鬧非凡，生怕落隊；這次 Sora 發(fā)布后，只有海外版剪映、Stability AI 跟進發(fā)布了文生視頻產(chǎn)品的測試版。

其他公司也許是暗中跟進，或是謹慎觀望，除了網(wǎng)紅李一舟蹭蹭熱點，還沒有誰站出來敢說，要做中國版Sora。

追，還是不追？

ChatGPT 發(fā)布后，大公司和初創(chuàng)企業(yè)紛紛加入百模大戰(zhàn)；現(xiàn)在 Sora 已經(jīng)發(fā)布半個多月了，此前的盛況沒有再次出現(xiàn)。

一周之后，Stability AI 開放了Stable Video的公測，但或許是服務(wù)器爆滿的緣故，功能不夠穩(wěn)定。生成的視頻最值得稱道的是清晰度，但仍然沒有大幅度的視角切換，畫面主體也沒有太多動作，只有背景動了起來，給人的感覺仍然是「會動的圖片」。

字節(jié)剪映海外版也上線了文生視頻的功能，同樣反響不佳，主要是因為等待的時間過長。網(wǎng)友測試發(fā)現(xiàn)，一個視頻的生成要等待 1800 分鐘。

有人工智能算法工程師分析，同等參數(shù)的視頻模型，比大語言模型所需要的算力要多幾十倍。業(yè)界流傳，Sora 的參數(shù)規(guī)模在 10B 到 30B 之間，其所需的算力或許與千億級的大語言模型差不多。

有趣的是，騰訊和阿里巴巴雖然沒有跟進視頻模型的發(fā)布，卻紛紛第一時間在自己的技術(shù)賬號上發(fā)布了對 Sora 的技術(shù)拆解；其中，阿里巴巴達摩院所發(fā)布的文章題目叫做《復(fù)刻 Sora 有多難？》，并在文末表示，「我們期待視頻生成領(lǐng)域的 LLaMa ，以及更加普惠的開源視頻生成技術(shù)。」

AI 初創(chuàng)企業(yè) Hugging Face 認為，視頻模型的三大挑戰(zhàn)是算力、數(shù)據(jù)、指令模糊性。要想做到物體和空間的一致性，往往伴隨著高昂的計算成本；高質(zhì)量的視覺數(shù)據(jù)集也比文本的更為稀缺。此外，生產(chǎn)讓模型更容易理解視頻的 Prompt，會比語言模型、文生圖模型難度更大。

此外，Sora 是一個憑借直覺和概率驅(qū)動的模型，而不是靠精確計算的公式驅(qū)動的模型。有人總結(jié)道，「Sora 可以像一個普通人一樣，通過直覺去理解物理世界，也能解決很多問題，但它沒有辦法像物理學(xué)家一樣造出火箭這種東西?！?/p>

無論如何，Sora 跟 GPT 3.5 一樣，驗證了技術(shù)方向的可行性，視頻模型的性能未來會隨著參數(shù)量、數(shù)據(jù)大小和計算量的增加而提高。

又一次降維打擊？

硅谷投資機構(gòu) a16z 統(tǒng)計，截止去年年底，市面上共有 21 個公開的視頻模型，其中包括 Runway、Pika、Stable Video Diffusion 等等。

然而，第一個出圈的還是 Sora，核心依然是它遠超預(yù)期的效果。以往幾秒鐘的 AI 視頻，給人的感覺還是「會動的圖片」，而 Sora 則展現(xiàn)了對真實世界的理解力和還原力，還有對虛擬場景的充沛想象力。

Sora 官網(wǎng)發(fā)布的幾十個視頻 Demo 中，有在東京街頭散步的女人、在咖啡杯里航行的海盜船、在雪原上走過的猛犸、無人機視角拍攝的海浪拍打峭壁、華麗的紙藝海底世界、維多利亞冠鴿的微距特寫，其視頻主體和環(huán)境的一致性令人震撼?？Х缺锖叫械暮１I船這個 Demo 里，水面的波紋、船的運動軌跡，很好地遵循了現(xiàn)實世界的物理規(guī)律。

阿里巴巴達摩院的分析認為，Sora 的智能涌現(xiàn)，體現(xiàn)在它的三位一致性、長距離連貫性和物體持久性、與世界互動的能力、對數(shù)字世界的模擬。

雖然 Sora 對復(fù)雜的物理預(yù)測還顯得力不從心——比如，一個人咬了一口餅干，但餅干上并沒有出現(xiàn)咬痕，但許多從業(yè)者認為，這是 AI 真正理解世界的開端，隨著模型能力的持續(xù)提升，它對物理世界的理解和還原會更加準確。

此外，OpenAI 不僅公布了 Demo 視頻，同時公布了每一個 Sora 生成視頻的指令，方便大家嘗試其他產(chǎn)品后，對比效果。

盡管外界擔心其他文生視頻初創(chuàng)企業(yè)的命運，但創(chuàng)始人們表現(xiàn)出的興奮卻遠遠大過恐懼。

Runway CEO Cristóbal 感慨技術(shù)進步的速度，過去需要以年計算的技術(shù)進步，現(xiàn)在壓縮到了月的維度，他預(yù)測技術(shù)將會更快地進化，每天、甚至每個小時，都可以涌現(xiàn)出新的技術(shù)實現(xiàn)。Pika 創(chuàng)始人郭文景也在媒體采訪中表示，「（Sora）是一個振奮人心的消息，我們準備直接沖，將直接對標Sora?！?/p>

去年 8月，OpenAI 對外披露了首次收購行為。

被收購公司 Global Illumination，開發(fā)了一款名為 Biomes 的開源大型多人在線沙盒游戲，類似于瀏覽器上運行的《我的世界》。當時就有人指出，借助開放式游戲中玩家的交互，OpenAI 通過這次收購，能為 AGI 構(gòu)建真正的數(shù)據(jù)集；也有人猜測，OpenAI 將會推出游戲或視頻模型產(chǎn)品。

從 Sora 的效果看，或許這次收購的確對 Sora 的訓(xùn)練數(shù)據(jù)優(yōu)化有一些幫助。

世界模擬器？

「Sora 是能夠理解和模擬現(xiàn)實世界的模型的基礎(chǔ)，我們相信這一功能將成為實現(xiàn) AGI 的重要里程碑?！筄penAI 在技術(shù)報告的最后寫道。

ChatGPT 是思維世界的模擬器，Sora 是物理世界的模擬器，出門問問 CEO 李志飛評論，「OpenAI 的科學(xué)家們果然一直有著創(chuàng)世的沖動?！?/p>

有技術(shù)人員猜測，Sora之所以具備強大的能力，得益于模型和數(shù)據(jù)。

首先，與 Runway、Pika 的技術(shù)路線不同，Sora 使用了基于 Transformer 的擴散模型（Diffusion Model），可以通過自注意力機制（Self-attention）來學(xué)習(xí)視頻數(shù)據(jù)中各個元素塊之間的關(guān)系，并模擬數(shù)據(jù)的擴散過程，生成高質(zhì)量的視頻輸出。

其次，Sora 能將不同類型的視覺數(shù)據(jù)，轉(zhuǎn)化成統(tǒng)一的視覺補丁（Patch）。Patch 之于 Sora，就像 token 之于 ChatGPT。ChatGPT 把各種語言、編程代碼都切分為 token，Sora 把圖片、視頻都切割為 patch。

OpenAI 認為，將視覺數(shù)據(jù)統(tǒng)一處理，將帶來兩點好處：首先是采樣的靈活性，通過統(tǒng)一的數(shù)據(jù)表示，Sora 可以靈活處理不同寬高比的視頻內(nèi)容。其次是更好的構(gòu)圖效果。在原始寬高比的視覺數(shù)據(jù)上進行訓(xùn)練，Sora 可以更好地學(xué)習(xí)和理解構(gòu)圖，使得生成的內(nèi)容更符合人類的視覺習(xí)慣和審美標準。

如同 ChatGPT 在專業(yè)領(lǐng)域的能力，還比不過詳細定義規(guī)則的小模型一樣，Sora 雖然對物理世界有一定理解，并擁有更強大的泛化能力，但它與此前的物理仿真模擬相比，預(yù)測價值仍然有限。

比如，物理仿真模型可以預(yù)測汽車在相撞時的反彈效果和形變，但 Sora 無法發(fā)揮這樣的作用。OpenAI 官網(wǎng)發(fā)布的 Demo 也表現(xiàn)出，Sora 無法很好地模擬玻璃杯破碎時的動態(tài)，混淆了玻璃破碎和液體溢出的順序，倒下的玻璃杯甚至與桌面融為一體。

英偉達的研究人員Jim Fan認為，這有兩種可能的解釋：一是模型之所以犯這樣的錯誤，是因為它根本不學(xué)習(xí)物理，只是簡單地縫合像素；二是模型實現(xiàn)了一個內(nèi)部的物理引擎，但這個引擎還不夠好，就像 Unreal Engine v1 在流體和可變形物體等物理模擬方面比 v5 要差得多，渲染效果也差得多，并且不符合物理規(guī)律。他本人更傾向于第二種解釋。

但模型能力的提升是可預(yù)見的，因為人類生產(chǎn)視覺數(shù)據(jù)的速度前所未有地加速了：全世界遍布攝像頭，每人每天都在用智能手機采集這個世界。這將成為模型理解世界的通路。此外，UE 5 也可以模擬多角度的高清視頻，讓模擬出來的視覺數(shù)據(jù)更加優(yōu)質(zhì)。

從 Sora 中我們不難看出，頭部玩家 OpenAI 的思路是「集中力量辦大事」：專注提高模型的能力，只進行輕度的產(chǎn)品化。畢竟，能生產(chǎn) 60s 視頻的模型，要比添加了很多細碎功能、復(fù)雜按鈕的視頻產(chǎn)品震撼多了。此外，誰也無法預(yù)測模型智能程度的提升曲線，產(chǎn)品設(shè)計的節(jié)奏很可能追不上模型進步的速度。

當下對于大模型公司來說，模型能力才是最好的增長手段。不僅SLG（Sale-lead growth）顯得過于原始，甚至PLG（Product-lead growth）也有些過時，我們正在迎來一個MLG（Model-lead growth）的時代。