正在閱讀:

七火山要做國產(chǎn)Sora,但成色走了樣

掃一掃下載界面新聞APP

七火山要做國產(chǎn)Sora,但成色走了樣

視頻AI的想象力,就該僅僅止步于短視頻嗎?

圖片來源:界面新聞 匡達(dá)

文|阿爾法工場(chǎng)

這個(gè)春天,Sora幾乎成了統(tǒng)治整個(gè)AI圈的“刷屏王者”。

這個(gè)由OpenAI推出的AI視頻生成神器,憑借其驚人的創(chuàng)造力,讓人們?cè)俅我娮R(shí)到了AI的無限可能。而這炸裂的能力背后,蘊(yùn)含著的是指數(shù)級(jí)的財(cái)富增量。

Sora發(fā)布后,OpenAI的估值一夜之間漲到了800億美元。

在內(nèi)容消費(fèi)升級(jí)的大背景下,AI視頻生成技術(shù),正成為資本市場(chǎng)的新寵。

在此熱潮下,一大批立志追趕或效仿Sora的國產(chǎn)AI企業(yè)也乘勢(shì)而起。其中,七火山科技算是步伐較快的一個(gè)。

作為一家專注于AI多模態(tài)應(yīng)用的企業(yè),七火山旗下的產(chǎn)品包括了Lava AI視頻編輯平臺(tái),Bromo AI圖像處理工具等,旨在為用戶提供AI換臉、AI換背景和AI優(yōu)化視頻等功能,可以說在AI視頻領(lǐng)域,七火山早有布局。

Sora公布后,七火山很快緊隨其后,發(fā)布了自身號(hào)稱國產(chǎn)版“Sora”的文生視頻大模型——Etna。并宣稱其以“4K” 、“60幀”、“15秒”等硬性指標(biāo),打破了國內(nèi)文生視頻AI的各種紀(jì)錄。

那么,在多個(gè)耀眼的標(biāo)簽下,這個(gè)國產(chǎn)版“Sora”,成色究竟怎樣?

01 導(dǎo)演VS剪輯師

如果用一句話來評(píng)價(jià)Sora和Etna之間的差距,那么Sora更像是一個(gè)全能的導(dǎo)演,而Etna則像是一個(gè)專業(yè)的視頻編輯師。

要理解這點(diǎn),我們就得從技術(shù)上拿捏一下Etna的“看家本領(lǐng)”。

按照七火山目前披露的信息,Etna主要的特色和優(yōu)勢(shì)分別是:

1、高幀率(每秒60幀);

2、高分辨率(可以達(dá)到4k);

3、較長的視頻時(shí)長(8—15秒),講真,這個(gè)時(shí)長在國內(nèi)文生視頻AI里(大部分是3~4秒)算不錯(cuò)的了。

實(shí)事求是地說,在幀數(shù)和分辨率方面,Etna已經(jīng)超越了目前Sora。因?yàn)楝F(xiàn)在Sora僅僅只能生成幀數(shù)為每秒30幀,分辨率為720p的視頻。

然而,以上幾點(diǎn)僅僅是Etna的“皮相”,真正決定其與Sora差距的,還是Etna自身的底層架構(gòu)。

不過話說回來,即使是在“皮相”的部分,Etna和Sora也存在著一些肉眼可見的差距。

例如從整體上看,Etna生成的視頻,大部分都是一些運(yùn)動(dòng)幅度較小的片段,看上去更像是一些加了動(dòng)效的PPT。(關(guān)于這部分原因,后面會(huì)分析)

從底層架構(gòu)上來說,雖然Etna和Sora采用的都是Diffusion+Transform架構(gòu),但Etna較為不同的地方,就是在此基礎(chǔ)上插入了時(shí)空卷積和注意力層。

這樣做的一個(gè)好處就在于,與Transformer相比,CNN在處理高分辨率視頻時(shí)更高效,并且有助于減少計(jì)算資源和內(nèi)存的需求。

這正是主打4K分辨率的Etna所需要的。

然而,問題就在于,在處理長視頻(1分鐘以上)時(shí),卷積神經(jīng)網(wǎng)絡(luò)(CNN)可能會(huì)受到限制,因?yàn)閭鹘y(tǒng)的CNN在處理極長序列時(shí)可能不如Transformer有效。

這主要是因?yàn)?,Transformer通過自注意力機(jī)制來處理序列數(shù)據(jù),而CNN往往將視頻視為一系列獨(dú)立的圖像幀,然后分別逐幀處理。

其中的區(qū)別,就相當(dāng)于Transformer是一本超級(jí)詳細(xì)的日記,它可以讓你隨時(shí)查看任何一頁,而且每一頁都記錄了這部電影的所有細(xì)節(jié),包括畫面與畫面之間的所有聯(lián)系和變化。不管你想回憶起電影的哪個(gè)部分,它都能幫你找到,并且告訴你前因后果。

而就CNN是好像相冊(cè)一樣的東西,它只能一次給你看幾張照片,而且它看的照片是按照一定的順序排列的。

但是當(dāng)你想回憶起一個(gè)很早之前的畫面和后面的畫面之間的聯(lián)系時(shí),它可能就幫不上太大的忙了。

這等于是,Etna為追求更高的分辨率和幀數(shù),舍去了生成更長視頻的可能。

從算力上來說,這其實(shí)也是一件情理之中的事,畢竟,在生成長視頻的同時(shí),還要保持極高的分辨率和幀數(shù),這消耗的計(jì)算資源,即使是OpenAI也頂不住。

這也是為什么Sora目前只能生成每秒30幀,分辨率為720p的視頻。

但問題是,Etna為什么要做這樣的取舍?

這里有三種可能:

一是七火山本身的計(jì)算資源、底層技術(shù)不到家,所以只好用時(shí)空卷積+注意力層的辦法,讓視頻在較短的時(shí)間內(nèi),勉強(qiáng)讓畫面“動(dòng)”起來;

二是七火山的商業(yè)模式,決定了它不會(huì)走長視頻的道路,也就不會(huì)去鉆研這方面的技術(shù);

第三種情況,就是兩者兼而有之。

02 參天大樹和盆景

AI生成視頻,尤其是長視頻,對(duì)計(jì)算資源的消耗是驚人的。

之前OpenAI的CTO在接受采訪時(shí),就明確表示,雖然Sora會(huì)在今年晚些時(shí)候推出,但由于高昂的計(jì)算資源,其價(jià)格“可能會(huì)很貴”。

就目前國內(nèi)AI行業(yè)愈發(fā)謹(jǐn)慎的投資環(huán)境來說,能否說服VC或投資人,給這么一個(gè)比LLM(大語言模型)更燒錢的技術(shù)融資,要打一個(gè)大大的問號(hào)。

而商業(yè)路徑最明確,“回血”也最快的短視頻賽道,就成了視頻生成類AI最有可能被資本認(rèn)可的方向。

這種商業(yè)上的考量,或許正是Etna在架構(gòu)層面沒有往長視頻方向發(fā)展的原因。

再者,從技術(shù)方面來說,雖然Etna采用了與Sora類似的Diffusion+Transform架構(gòu),但這絕不意味著,任何一家公司,只要對(duì)著這個(gè)架構(gòu)照抄,就能做出和Sora一樣好的視頻。

換句話說,Sora在生成質(zhì)量上的亮眼表現(xiàn),其實(shí)更像是一種工藝上的精進(jìn),而非掌握了某種“秘術(shù)”。

如果說得稍微具體些,這種“工藝”上的精髓,很有可能就是Sora在多模態(tài)理解和長距離依賴方面的優(yōu)勢(shì)。

這樣的區(qū)別,決定了模型能否理解用戶給出的復(fù)雜指令,能否生成一些動(dòng)作幅度較大、或者較為復(fù)雜的片段。

能做到這點(diǎn)的模型,就是“導(dǎo)演”,否則就只能當(dāng)個(gè)“剪輯師”。

舉例來說,Sora這個(gè)“全能導(dǎo)演”不僅僅是能根據(jù)文字來生成視頻,它還能理解文字里的復(fù)雜情節(jié)和細(xì)節(jié),然后自己想象出一整套畫面來。

例如前段時(shí)間,Sora公布的一段視頻中,就出現(xiàn)了“一個(gè)男人參拜巨型貓王”的片段。畫面的提示詞是:座巨大的大教堂里全是貓。一個(gè)男人走進(jìn)大教堂,向坐在王座上的巨型貓王鞠躬。

在整個(gè)視頻中,畫面所透出的“故事感”特別強(qiáng)烈,即使沒有旁白,觀眾也能自行腦補(bǔ)一系列情節(jié)。

而到視頻的末尾,貓王甚至還湊到男人面前嗅了嗅,仿佛是在“打量”這個(gè)參拜者。

如此復(fù)雜的畫面和動(dòng)作,需要模型在多模態(tài)理解方面有很強(qiáng)的功力。

而Etna在對(duì)其進(jìn)行效仿時(shí),可能由于并未掌握其精髓,或是由于計(jì)算資源不足的原因,采用了時(shí)空卷積+注意力層的辦法,作為一種“權(quán)宜之計(jì)”,讓視頻勉強(qiáng)“動(dòng)”起來。

這也是為什么,Etna生成的視頻,大部分都是一些運(yùn)動(dòng)幅度較小的片段。

因?yàn)檫@樣的片段往往比較簡(jiǎn)單,不太涉及對(duì)復(fù)雜語義的理解,消耗的算力資源也比較小。

話說回來,Etna之所以在架構(gòu)中采用時(shí)空卷積+注意力層,最有可能的原因,就是二者在計(jì)算效上率相較于單純的Transformer架構(gòu)更高效,對(duì)算力要求更小。

因?yàn)闀r(shí)空卷積和注意力層在處理數(shù)據(jù)時(shí),通常只考慮局部信息,而不需要考慮整個(gè)序列。

這其實(shí)也挺符合七火山現(xiàn)在的短視頻戰(zhàn)略的,畢竟短視頻追求的就是一個(gè)“短、平、快”,如果有可能的話,最好能把算力的要求,降低到大部分手機(jī)都能運(yùn)行的地步。

如此一來,隨拍隨發(fā),用戶才能用得盡興,應(yīng)用的粘性才夠強(qiáng)。

七火山和快手海外 SnackVideo 也有合作

不過,這種看似“高效”的策略,總不免透著些遺憾。

畢竟,Sora這類的“導(dǎo)演”級(jí)模型,雖然很難造就,但其前景和應(yīng)用方向,無疑是更加廣闊的。之后無論是電影、電視劇,甚至是機(jī)器人、自動(dòng)駕駛訓(xùn)練所需的模擬視頻,都能讓其大展拳腳。

而相較之下,專精于短視頻的Etna,雖然也可以成為一個(gè)很好的“剪輯師”,但視頻AI的想象力,難道就該僅僅止步于短視頻嗎?

這就像是,雖然盆栽確實(shí)可以長得很精致,但只有參天大樹,才能見到更廣闊的天地。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

七火山要做國產(chǎn)Sora,但成色走了樣

視頻AI的想象力,就該僅僅止步于短視頻嗎?

圖片來源:界面新聞 匡達(dá)

文|阿爾法工場(chǎng)

這個(gè)春天,Sora幾乎成了統(tǒng)治整個(gè)AI圈的“刷屏王者”。

這個(gè)由OpenAI推出的AI視頻生成神器,憑借其驚人的創(chuàng)造力,讓人們?cè)俅我娮R(shí)到了AI的無限可能。而這炸裂的能力背后,蘊(yùn)含著的是指數(shù)級(jí)的財(cái)富增量。

Sora發(fā)布后,OpenAI的估值一夜之間漲到了800億美元。

在內(nèi)容消費(fèi)升級(jí)的大背景下,AI視頻生成技術(shù),正成為資本市場(chǎng)的新寵。

在此熱潮下,一大批立志追趕或效仿Sora的國產(chǎn)AI企業(yè)也乘勢(shì)而起。其中,七火山科技算是步伐較快的一個(gè)。

作為一家專注于AI多模態(tài)應(yīng)用的企業(yè),七火山旗下的產(chǎn)品包括了Lava AI視頻編輯平臺(tái),Bromo AI圖像處理工具等,旨在為用戶提供AI換臉、AI換背景和AI優(yōu)化視頻等功能,可以說在AI視頻領(lǐng)域,七火山早有布局。

Sora公布后,七火山很快緊隨其后,發(fā)布了自身號(hào)稱國產(chǎn)版“Sora”的文生視頻大模型——Etna。并宣稱其以“4K” 、“60幀”、“15秒”等硬性指標(biāo),打破了國內(nèi)文生視頻AI的各種紀(jì)錄。

那么,在多個(gè)耀眼的標(biāo)簽下,這個(gè)國產(chǎn)版“Sora”,成色究竟怎樣?

01 導(dǎo)演VS剪輯師

如果用一句話來評(píng)價(jià)Sora和Etna之間的差距,那么Sora更像是一個(gè)全能的導(dǎo)演,而Etna則像是一個(gè)專業(yè)的視頻編輯師。

要理解這點(diǎn),我們就得從技術(shù)上拿捏一下Etna的“看家本領(lǐng)”。

按照七火山目前披露的信息,Etna主要的特色和優(yōu)勢(shì)分別是:

1、高幀率(每秒60幀);

2、高分辨率(可以達(dá)到4k);

3、較長的視頻時(shí)長(8—15秒),講真,這個(gè)時(shí)長在國內(nèi)文生視頻AI里(大部分是3~4秒)算不錯(cuò)的了。

實(shí)事求是地說,在幀數(shù)和分辨率方面,Etna已經(jīng)超越了目前Sora。因?yàn)楝F(xiàn)在Sora僅僅只能生成幀數(shù)為每秒30幀,分辨率為720p的視頻。

然而,以上幾點(diǎn)僅僅是Etna的“皮相”,真正決定其與Sora差距的,還是Etna自身的底層架構(gòu)。

不過話說回來,即使是在“皮相”的部分,Etna和Sora也存在著一些肉眼可見的差距。

例如從整體上看,Etna生成的視頻,大部分都是一些運(yùn)動(dòng)幅度較小的片段,看上去更像是一些加了動(dòng)效的PPT。(關(guān)于這部分原因,后面會(huì)分析)

從底層架構(gòu)上來說,雖然Etna和Sora采用的都是Diffusion+Transform架構(gòu),但Etna較為不同的地方,就是在此基礎(chǔ)上插入了時(shí)空卷積和注意力層。

這樣做的一個(gè)好處就在于,與Transformer相比,CNN在處理高分辨率視頻時(shí)更高效,并且有助于減少計(jì)算資源和內(nèi)存的需求。

這正是主打4K分辨率的Etna所需要的。

然而,問題就在于,在處理長視頻(1分鐘以上)時(shí),卷積神經(jīng)網(wǎng)絡(luò)(CNN)可能會(huì)受到限制,因?yàn)閭鹘y(tǒng)的CNN在處理極長序列時(shí)可能不如Transformer有效。

這主要是因?yàn)?,Transformer通過自注意力機(jī)制來處理序列數(shù)據(jù),而CNN往往將視頻視為一系列獨(dú)立的圖像幀,然后分別逐幀處理。

其中的區(qū)別,就相當(dāng)于Transformer是一本超級(jí)詳細(xì)的日記,它可以讓你隨時(shí)查看任何一頁,而且每一頁都記錄了這部電影的所有細(xì)節(jié),包括畫面與畫面之間的所有聯(lián)系和變化。不管你想回憶起電影的哪個(gè)部分,它都能幫你找到,并且告訴你前因后果。

而就CNN是好像相冊(cè)一樣的東西,它只能一次給你看幾張照片,而且它看的照片是按照一定的順序排列的。

但是當(dāng)你想回憶起一個(gè)很早之前的畫面和后面的畫面之間的聯(lián)系時(shí),它可能就幫不上太大的忙了。

這等于是,Etna為追求更高的分辨率和幀數(shù),舍去了生成更長視頻的可能。

從算力上來說,這其實(shí)也是一件情理之中的事,畢竟,在生成長視頻的同時(shí),還要保持極高的分辨率和幀數(shù),這消耗的計(jì)算資源,即使是OpenAI也頂不住。

這也是為什么Sora目前只能生成每秒30幀,分辨率為720p的視頻。

但問題是,Etna為什么要做這樣的取舍?

這里有三種可能:

一是七火山本身的計(jì)算資源、底層技術(shù)不到家,所以只好用時(shí)空卷積+注意力層的辦法,讓視頻在較短的時(shí)間內(nèi),勉強(qiáng)讓畫面“動(dòng)”起來;

二是七火山的商業(yè)模式,決定了它不會(huì)走長視頻的道路,也就不會(huì)去鉆研這方面的技術(shù);

第三種情況,就是兩者兼而有之。

02 參天大樹和盆景

AI生成視頻,尤其是長視頻,對(duì)計(jì)算資源的消耗是驚人的。

之前OpenAI的CTO在接受采訪時(shí),就明確表示,雖然Sora會(huì)在今年晚些時(shí)候推出,但由于高昂的計(jì)算資源,其價(jià)格“可能會(huì)很貴”。

就目前國內(nèi)AI行業(yè)愈發(fā)謹(jǐn)慎的投資環(huán)境來說,能否說服VC或投資人,給這么一個(gè)比LLM(大語言模型)更燒錢的技術(shù)融資,要打一個(gè)大大的問號(hào)。

而商業(yè)路徑最明確,“回血”也最快的短視頻賽道,就成了視頻生成類AI最有可能被資本認(rèn)可的方向。

這種商業(yè)上的考量,或許正是Etna在架構(gòu)層面沒有往長視頻方向發(fā)展的原因。

再者,從技術(shù)方面來說,雖然Etna采用了與Sora類似的Diffusion+Transform架構(gòu),但這絕不意味著,任何一家公司,只要對(duì)著這個(gè)架構(gòu)照抄,就能做出和Sora一樣好的視頻。

換句話說,Sora在生成質(zhì)量上的亮眼表現(xiàn),其實(shí)更像是一種工藝上的精進(jìn),而非掌握了某種“秘術(shù)”。

如果說得稍微具體些,這種“工藝”上的精髓,很有可能就是Sora在多模態(tài)理解和長距離依賴方面的優(yōu)勢(shì)。

這樣的區(qū)別,決定了模型能否理解用戶給出的復(fù)雜指令,能否生成一些動(dòng)作幅度較大、或者較為復(fù)雜的片段。

能做到這點(diǎn)的模型,就是“導(dǎo)演”,否則就只能當(dāng)個(gè)“剪輯師”。

舉例來說,Sora這個(gè)“全能導(dǎo)演”不僅僅是能根據(jù)文字來生成視頻,它還能理解文字里的復(fù)雜情節(jié)和細(xì)節(jié),然后自己想象出一整套畫面來。

例如前段時(shí)間,Sora公布的一段視頻中,就出現(xiàn)了“一個(gè)男人參拜巨型貓王”的片段。畫面的提示詞是:座巨大的大教堂里全是貓。一個(gè)男人走進(jìn)大教堂,向坐在王座上的巨型貓王鞠躬。

在整個(gè)視頻中,畫面所透出的“故事感”特別強(qiáng)烈,即使沒有旁白,觀眾也能自行腦補(bǔ)一系列情節(jié)。

而到視頻的末尾,貓王甚至還湊到男人面前嗅了嗅,仿佛是在“打量”這個(gè)參拜者。

如此復(fù)雜的畫面和動(dòng)作,需要模型在多模態(tài)理解方面有很強(qiáng)的功力。

而Etna在對(duì)其進(jìn)行效仿時(shí),可能由于并未掌握其精髓,或是由于計(jì)算資源不足的原因,采用了時(shí)空卷積+注意力層的辦法,作為一種“權(quán)宜之計(jì)”,讓視頻勉強(qiáng)“動(dòng)”起來。

這也是為什么,Etna生成的視頻,大部分都是一些運(yùn)動(dòng)幅度較小的片段。

因?yàn)檫@樣的片段往往比較簡(jiǎn)單,不太涉及對(duì)復(fù)雜語義的理解,消耗的算力資源也比較小。

話說回來,Etna之所以在架構(gòu)中采用時(shí)空卷積+注意力層,最有可能的原因,就是二者在計(jì)算效上率相較于單純的Transformer架構(gòu)更高效,對(duì)算力要求更小。

因?yàn)闀r(shí)空卷積和注意力層在處理數(shù)據(jù)時(shí),通常只考慮局部信息,而不需要考慮整個(gè)序列。

這其實(shí)也挺符合七火山現(xiàn)在的短視頻戰(zhàn)略的,畢竟短視頻追求的就是一個(gè)“短、平、快”,如果有可能的話,最好能把算力的要求,降低到大部分手機(jī)都能運(yùn)行的地步。

如此一來,隨拍隨發(fā),用戶才能用得盡興,應(yīng)用的粘性才夠強(qiáng)。

七火山和快手海外 SnackVideo 也有合作

不過,這種看似“高效”的策略,總不免透著些遺憾。

畢竟,Sora這類的“導(dǎo)演”級(jí)模型,雖然很難造就,但其前景和應(yīng)用方向,無疑是更加廣闊的。之后無論是電影、電視劇,甚至是機(jī)器人、自動(dòng)駕駛訓(xùn)練所需的模擬視頻,都能讓其大展拳腳。

而相較之下,專精于短視頻的Etna,雖然也可以成為一個(gè)很好的“剪輯師”,但視頻AI的想象力,難道就該僅僅止步于短視頻嗎?

這就像是,雖然盆栽確實(shí)可以長得很精致,但只有參天大樹,才能見到更廣闊的天地。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。