文|阿爾法工場(chǎng)
這個(gè)春天,Sora幾乎成了統(tǒng)治整個(gè)AI圈的“刷屏王者”。
這個(gè)由OpenAI推出的AI視頻生成神器,憑借其驚人的創(chuàng)造力,讓人們?cè)俅我娮R(shí)到了AI的無限可能。而這炸裂的能力背后,蘊(yùn)含著的是指數(shù)級(jí)的財(cái)富增量。
Sora發(fā)布后,OpenAI的估值一夜之間漲到了800億美元。
在內(nèi)容消費(fèi)升級(jí)的大背景下,AI視頻生成技術(shù),正成為資本市場(chǎng)的新寵。
在此熱潮下,一大批立志追趕或效仿Sora的國產(chǎn)AI企業(yè)也乘勢(shì)而起。其中,七火山科技算是步伐較快的一個(gè)。
作為一家專注于AI多模態(tài)應(yīng)用的企業(yè),七火山旗下的產(chǎn)品包括了Lava AI視頻編輯平臺(tái),Bromo AI圖像處理工具等,旨在為用戶提供AI換臉、AI換背景和AI優(yōu)化視頻等功能,可以說在AI視頻領(lǐng)域,七火山早有布局。
Sora公布后,七火山很快緊隨其后,發(fā)布了自身號(hào)稱國產(chǎn)版“Sora”的文生視頻大模型——Etna。并宣稱其以“4K” 、“60幀”、“15秒”等硬性指標(biāo),打破了國內(nèi)文生視頻AI的各種紀(jì)錄。
那么,在多個(gè)耀眼的標(biāo)簽下,這個(gè)國產(chǎn)版“Sora”,成色究竟怎樣?
01 導(dǎo)演VS剪輯師
如果用一句話來評(píng)價(jià)Sora和Etna之間的差距,那么Sora更像是一個(gè)全能的導(dǎo)演,而Etna則像是一個(gè)專業(yè)的視頻編輯師。
要理解這點(diǎn),我們就得從技術(shù)上拿捏一下Etna的“看家本領(lǐng)”。
按照七火山目前披露的信息,Etna主要的特色和優(yōu)勢(shì)分別是:
1、高幀率(每秒60幀);
2、高分辨率(可以達(dá)到4k);
3、較長的視頻時(shí)長(8—15秒),講真,這個(gè)時(shí)長在國內(nèi)文生視頻AI里(大部分是3~4秒)算不錯(cuò)的了。
實(shí)事求是地說,在幀數(shù)和分辨率方面,Etna已經(jīng)超越了目前Sora。因?yàn)楝F(xiàn)在Sora僅僅只能生成幀數(shù)為每秒30幀,分辨率為720p的視頻。
然而,以上幾點(diǎn)僅僅是Etna的“皮相”,真正決定其與Sora差距的,還是Etna自身的底層架構(gòu)。
不過話說回來,即使是在“皮相”的部分,Etna和Sora也存在著一些肉眼可見的差距。
例如從整體上看,Etna生成的視頻,大部分都是一些運(yùn)動(dòng)幅度較小的片段,看上去更像是一些加了動(dòng)效的PPT。(關(guān)于這部分原因,后面會(huì)分析)
從底層架構(gòu)上來說,雖然Etna和Sora采用的都是Diffusion+Transform架構(gòu),但Etna較為不同的地方,就是在此基礎(chǔ)上插入了時(shí)空卷積和注意力層。
這樣做的一個(gè)好處就在于,與Transformer相比,CNN在處理高分辨率視頻時(shí)更高效,并且有助于減少計(jì)算資源和內(nèi)存的需求。
這正是主打4K分辨率的Etna所需要的。
然而,問題就在于,在處理長視頻(1分鐘以上)時(shí),卷積神經(jīng)網(wǎng)絡(luò)(CNN)可能會(huì)受到限制,因?yàn)閭鹘y(tǒng)的CNN在處理極長序列時(shí)可能不如Transformer有效。
這主要是因?yàn)?,Transformer通過自注意力機(jī)制來處理序列數(shù)據(jù),而CNN往往將視頻視為一系列獨(dú)立的圖像幀,然后分別逐幀處理。
其中的區(qū)別,就相當(dāng)于Transformer是一本超級(jí)詳細(xì)的日記,它可以讓你隨時(shí)查看任何一頁,而且每一頁都記錄了這部電影的所有細(xì)節(jié),包括畫面與畫面之間的所有聯(lián)系和變化。不管你想回憶起電影的哪個(gè)部分,它都能幫你找到,并且告訴你前因后果。
而就CNN是好像相冊(cè)一樣的東西,它只能一次給你看幾張照片,而且它看的照片是按照一定的順序排列的。
但是當(dāng)你想回憶起一個(gè)很早之前的畫面和后面的畫面之間的聯(lián)系時(shí),它可能就幫不上太大的忙了。
這等于是,Etna為追求更高的分辨率和幀數(shù),舍去了生成更長視頻的可能。
從算力上來說,這其實(shí)也是一件情理之中的事,畢竟,在生成長視頻的同時(shí),還要保持極高的分辨率和幀數(shù),這消耗的計(jì)算資源,即使是OpenAI也頂不住。
這也是為什么Sora目前只能生成每秒30幀,分辨率為720p的視頻。
但問題是,Etna為什么要做這樣的取舍?
這里有三種可能:
一是七火山本身的計(jì)算資源、底層技術(shù)不到家,所以只好用時(shí)空卷積+注意力層的辦法,讓視頻在較短的時(shí)間內(nèi),勉強(qiáng)讓畫面“動(dòng)”起來;
二是七火山的商業(yè)模式,決定了它不會(huì)走長視頻的道路,也就不會(huì)去鉆研這方面的技術(shù);
第三種情況,就是兩者兼而有之。
02 參天大樹和盆景
AI生成視頻,尤其是長視頻,對(duì)計(jì)算資源的消耗是驚人的。
之前OpenAI的CTO在接受采訪時(shí),就明確表示,雖然Sora會(huì)在今年晚些時(shí)候推出,但由于高昂的計(jì)算資源,其價(jià)格“可能會(huì)很貴”。
就目前國內(nèi)AI行業(yè)愈發(fā)謹(jǐn)慎的投資環(huán)境來說,能否說服VC或投資人,給這么一個(gè)比LLM(大語言模型)更燒錢的技術(shù)融資,要打一個(gè)大大的問號(hào)。
而商業(yè)路徑最明確,“回血”也最快的短視頻賽道,就成了視頻生成類AI最有可能被資本認(rèn)可的方向。
這種商業(yè)上的考量,或許正是Etna在架構(gòu)層面沒有往長視頻方向發(fā)展的原因。
再者,從技術(shù)方面來說,雖然Etna采用了與Sora類似的Diffusion+Transform架構(gòu),但這絕不意味著,任何一家公司,只要對(duì)著這個(gè)架構(gòu)照抄,就能做出和Sora一樣好的視頻。
換句話說,Sora在生成質(zhì)量上的亮眼表現(xiàn),其實(shí)更像是一種工藝上的精進(jìn),而非掌握了某種“秘術(shù)”。
如果說得稍微具體些,這種“工藝”上的精髓,很有可能就是Sora在多模態(tài)理解和長距離依賴方面的優(yōu)勢(shì)。
這樣的區(qū)別,決定了模型能否理解用戶給出的復(fù)雜指令,能否生成一些動(dòng)作幅度較大、或者較為復(fù)雜的片段。
能做到這點(diǎn)的模型,就是“導(dǎo)演”,否則就只能當(dāng)個(gè)“剪輯師”。
舉例來說,Sora這個(gè)“全能導(dǎo)演”不僅僅是能根據(jù)文字來生成視頻,它還能理解文字里的復(fù)雜情節(jié)和細(xì)節(jié),然后自己想象出一整套畫面來。
例如前段時(shí)間,Sora公布的一段視頻中,就出現(xiàn)了“一個(gè)男人參拜巨型貓王”的片段。畫面的提示詞是:座巨大的大教堂里全是貓。一個(gè)男人走進(jìn)大教堂,向坐在王座上的巨型貓王鞠躬。
在整個(gè)視頻中,畫面所透出的“故事感”特別強(qiáng)烈,即使沒有旁白,觀眾也能自行腦補(bǔ)一系列情節(jié)。
而到視頻的末尾,貓王甚至還湊到男人面前嗅了嗅,仿佛是在“打量”這個(gè)參拜者。
如此復(fù)雜的畫面和動(dòng)作,需要模型在多模態(tài)理解方面有很強(qiáng)的功力。
而Etna在對(duì)其進(jìn)行效仿時(shí),可能由于并未掌握其精髓,或是由于計(jì)算資源不足的原因,采用了時(shí)空卷積+注意力層的辦法,作為一種“權(quán)宜之計(jì)”,讓視頻勉強(qiáng)“動(dòng)”起來。
這也是為什么,Etna生成的視頻,大部分都是一些運(yùn)動(dòng)幅度較小的片段。
因?yàn)檫@樣的片段往往比較簡(jiǎn)單,不太涉及對(duì)復(fù)雜語義的理解,消耗的算力資源也比較小。
話說回來,Etna之所以在架構(gòu)中采用時(shí)空卷積+注意力層,最有可能的原因,就是二者在計(jì)算效上率相較于單純的Transformer架構(gòu)更高效,對(duì)算力要求更小。
因?yàn)闀r(shí)空卷積和注意力層在處理數(shù)據(jù)時(shí),通常只考慮局部信息,而不需要考慮整個(gè)序列。
這其實(shí)也挺符合七火山現(xiàn)在的短視頻戰(zhàn)略的,畢竟短視頻追求的就是一個(gè)“短、平、快”,如果有可能的話,最好能把算力的要求,降低到大部分手機(jī)都能運(yùn)行的地步。
如此一來,隨拍隨發(fā),用戶才能用得盡興,應(yīng)用的粘性才夠強(qiáng)。
七火山和快手海外 SnackVideo 也有合作
不過,這種看似“高效”的策略,總不免透著些遺憾。
畢竟,Sora這類的“導(dǎo)演”級(jí)模型,雖然很難造就,但其前景和應(yīng)用方向,無疑是更加廣闊的。之后無論是電影、電視劇,甚至是機(jī)器人、自動(dòng)駕駛訓(xùn)練所需的模擬視頻,都能讓其大展拳腳。
而相較之下,專精于短視頻的Etna,雖然也可以成為一個(gè)很好的“剪輯師”,但視頻AI的想象力,難道就該僅僅止步于短視頻嗎?
這就像是,雖然盆栽確實(shí)可以長得很精致,但只有參天大樹,才能見到更廣闊的天地。