夜猫成年视频免费看,91短视频版在线观看

文|阿爾法工場

這個(gè)春天，Sora幾乎成了統(tǒng)治整個(gè)AI圈的“刷屏王者”。

這個(gè)由OpenAI推出的AI視頻生成神器，憑借其驚人的創(chuàng)造力，讓人們再次見識到了AI的無限可能。而這炸裂的能力背后，蘊(yùn)含著的是指數(shù)級的財(cái)富增量。

Sora發(fā)布后，OpenAI的估值一夜之間漲到了800億美元。

在內(nèi)容消費(fèi)升級的大背景下，AI視頻生成技術(shù)，正成為資本市場的新寵。

在此熱潮下，一大批立志追趕或效仿Sora的國產(chǎn)AI企業(yè)也乘勢而起。其中，七火山科技算是步伐較快的一個(gè)。

作為一家專注于AI多模態(tài)應(yīng)用的企業(yè)，七火山旗下的產(chǎn)品包括了Lava AI視頻編輯平臺，Bromo AI圖像處理工具等，旨在為用戶提供AI換臉、AI換背景和AI優(yōu)化視頻等功能，可以說在AI視頻領(lǐng)域，七火山早有布局。

Sora公布后，七火山很快緊隨其后，發(fā)布了自身號稱國產(chǎn)版“Sora”的文生視頻大模型——Etna。并宣稱其以“4K” 、“60幀”、“15秒”等硬性指標(biāo)，打破了國內(nèi)文生視頻AI的各種紀(jì)錄。

那么，在多個(gè)耀眼的標(biāo)簽下，這個(gè)國產(chǎn)版“Sora”，成色究竟怎樣？

01 導(dǎo)演VS剪輯師

如果用一句話來評價(jià)Sora和Etna之間的差距，那么Sora更像是一個(gè)全能的導(dǎo)演，而Etna則像是一個(gè)專業(yè)的視頻編輯師。

要理解這點(diǎn)，我們就得從技術(shù)上拿捏一下Etna的“看家本領(lǐng)”。

按照七火山目前披露的信息，Etna主要的特色和優(yōu)勢分別是：

1、高幀率（每秒60幀）；

2、高分辨率（可以達(dá)到4k）；

3、較長的視頻時(shí)長（8—15秒），講真，這個(gè)時(shí)長在國內(nèi)文生視頻AI里（大部分是3~4秒）算不錯(cuò)的了。

實(shí)事求是地說，在幀數(shù)和分辨率方面，Etna已經(jīng)超越了目前Sora。因?yàn)楝F(xiàn)在Sora僅僅只能生成幀數(shù)為每秒30幀，分辨率為720p的視頻。

然而，以上幾點(diǎn)僅僅是Etna的“皮相”，真正決定其與Sora差距的，還是Etna自身的底層架構(gòu)。

不過話說回來，即使是在“皮相”的部分，Etna和Sora也存在著一些肉眼可見的差距。

例如從整體上看，Etna生成的視頻，大部分都是一些運(yùn)動幅度較小的片段，看上去更像是一些加了動效的PPT。（關(guān)于這部分原因，后面會分析）

從底層架構(gòu)上來說，雖然Etna和Sora采用的都是Diffusion+Transform架構(gòu)，但Etna較為不同的地方，就是在此基礎(chǔ)上插入了時(shí)空卷積和注意力層。

這樣做的一個(gè)好處就在于，與Transformer相比，CNN在處理高分辨率視頻時(shí)更高效，并且有助于減少計(jì)算資源和內(nèi)存的需求。

這正是主打4K分辨率的Etna所需要的。

然而，問題就在于，在處理長視頻（1分鐘以上）時(shí)，卷積神經(jīng)網(wǎng)絡(luò)（CNN）可能會受到限制，因?yàn)閭鹘y(tǒng)的CNN在處理極長序列時(shí)可能不如Transformer有效。

這主要是因?yàn)?，Transformer通過自注意力機(jī)制來處理序列數(shù)據(jù)，而CNN往往將視頻視為一系列獨(dú)立的圖像幀，然后分別逐幀處理。

其中的區(qū)別，就相當(dāng)于Transformer是一本超級詳細(xì)的日記，它可以讓你隨時(shí)查看任何一頁，而且每一頁都記錄了這部電影的所有細(xì)節(jié)，包括畫面與畫面之間的所有聯(lián)系和變化。不管你想回憶起電影的哪個(gè)部分，它都能幫你找到，并且告訴你前因后果。

而就CNN是好像相冊一樣的東西，它只能一次給你看幾張照片，而且它看的照片是按照一定的順序排列的。

但是當(dāng)你想回憶起一個(gè)很早之前的畫面和后面的畫面之間的聯(lián)系時(shí)，它可能就幫不上太大的忙了。

這等于是，Etna為追求更高的分辨率和幀數(shù)，舍去了生成更長視頻的可能。

從算力上來說，這其實(shí)也是一件情理之中的事，畢竟，在生成長視頻的同時(shí)，還要保持極高的分辨率和幀數(shù)，這消耗的計(jì)算資源，即使是OpenAI也頂不住。

這也是為什么Sora目前只能生成每秒30幀，分辨率為720p的視頻。

但問題是，Etna為什么要做這樣的取舍？

這里有三種可能：

一是七火山本身的計(jì)算資源、底層技術(shù)不到家，所以只好用時(shí)空卷積+注意力層的辦法，讓視頻在較短的時(shí)間內(nèi)，勉強(qiáng)讓畫面“動”起來；

二是七火山的商業(yè)模式，決定了它不會走長視頻的道路，也就不會去鉆研這方面的技術(shù)；

第三種情況，就是兩者兼而有之。

02 參天大樹和盆景

AI生成視頻，尤其是長視頻，對計(jì)算資源的消耗是驚人的。

之前OpenAI的CTO在接受采訪時(shí)，就明確表示，雖然Sora會在今年晚些時(shí)候推出，但由于高昂的計(jì)算資源，其價(jià)格“可能會很貴”。

就目前國內(nèi)AI行業(yè)愈發(fā)謹(jǐn)慎的投資環(huán)境來說，能否說服VC或投資人，給這么一個(gè)比LLM（大語言模型）更燒錢的技術(shù)融資，要打一個(gè)大大的問號。

而商業(yè)路徑最明確，“回血”也最快的短視頻賽道，就成了視頻生成類AI最有可能被資本認(rèn)可的方向。

這種商業(yè)上的考量，或許正是Etna在架構(gòu)層面沒有往長視頻方向發(fā)展的原因。

再者，從技術(shù)方面來說，雖然Etna采用了與Sora類似的Diffusion+Transform架構(gòu)，但這絕不意味著，任何一家公司，只要對著這個(gè)架構(gòu)照抄，就能做出和Sora一樣好的視頻。

換句話說，Sora在生成質(zhì)量上的亮眼表現(xiàn)，其實(shí)更像是一種工藝上的精進(jìn)，而非掌握了某種“秘術(shù)”。

如果說得稍微具體些，這種“工藝”上的精髓，很有可能就是Sora在多模態(tài)理解和長距離依賴方面的優(yōu)勢。

這樣的區(qū)別，決定了模型能否理解用戶給出的復(fù)雜指令，能否生成一些動作幅度較大、或者較為復(fù)雜的片段。

能做到這點(diǎn)的模型，就是“導(dǎo)演”，否則就只能當(dāng)個(gè)“剪輯師”。

舉例來說，Sora這個(gè)“全能導(dǎo)演”不僅僅是能根據(jù)文字來生成視頻，它還能理解文字里的復(fù)雜情節(jié)和細(xì)節(jié)，然后自己想象出一整套畫面來。

例如前段時(shí)間，Sora公布的一段視頻中，就出現(xiàn)了“一個(gè)男人參拜巨型貓王”的片段。畫面的提示詞是：座巨大的大教堂里全是貓。一個(gè)男人走進(jìn)大教堂，向坐在王座上的巨型貓王鞠躬。

在整個(gè)視頻中，畫面所透出的“故事感”特別強(qiáng)烈，即使沒有旁白，觀眾也能自行腦補(bǔ)一系列情節(jié)。

而到視頻的末尾，貓王甚至還湊到男人面前嗅了嗅，仿佛是在“打量”這個(gè)參拜者。

如此復(fù)雜的畫面和動作，需要模型在多模態(tài)理解方面有很強(qiáng)的功力。

而Etna在對其進(jìn)行效仿時(shí)，可能由于并未掌握其精髓，或是由于計(jì)算資源不足的原因，采用了時(shí)空卷積+注意力層的辦法，作為一種“權(quán)宜之計(jì)”，讓視頻勉強(qiáng)“動”起來。

這也是為什么，Etna生成的視頻，大部分都是一些運(yùn)動幅度較小的片段。

因?yàn)檫@樣的片段往往比較簡單，不太涉及對復(fù)雜語義的理解，消耗的算力資源也比較小。

話說回來，Etna之所以在架構(gòu)中采用時(shí)空卷積+注意力層，最有可能的原因，就是二者在計(jì)算效上率相較于單純的Transformer架構(gòu)更高效，對算力要求更小。

因?yàn)闀r(shí)空卷積和注意力層在處理數(shù)據(jù)時(shí)，通常只考慮局部信息，而不需要考慮整個(gè)序列。

這其實(shí)也挺符合七火山現(xiàn)在的短視頻戰(zhàn)略的，畢竟短視頻追求的就是一個(gè)“短、平、快”，如果有可能的話，最好能把算力的要求，降低到大部分手機(jī)都能運(yùn)行的地步。

如此一來，隨拍隨發(fā)，用戶才能用得盡興，應(yīng)用的粘性才夠強(qiáng)。

七火山和快手海外 SnackVideo 也有合作

不過，這種看似“高效”的策略，總不免透著些遺憾。

畢竟，Sora這類的“導(dǎo)演”級模型，雖然很難造就，但其前景和應(yīng)用方向，無疑是更加廣闊的。之后無論是電影、電視劇，甚至是機(jī)器人、自動駕駛訓(xùn)練所需的模擬視頻，都能讓其大展拳腳。

而相較之下，專精于短視頻的Etna，雖然也可以成為一個(gè)很好的“剪輯師”，但視頻AI的想象力，難道就該僅僅止步于短視頻嗎？

這就像是，雖然盆栽確實(shí)可以長得很精致，但只有參天大樹，才能見到更廣闊的天地。

文|阿爾法工場

這個(gè)春天，Sora幾乎成了統(tǒng)治整個(gè)AI圈的“刷屏王者”。

Sora發(fā)布后，OpenAI的估值一夜之間漲到了800億美元。

在內(nèi)容消費(fèi)升級的大背景下，AI視頻生成技術(shù)，正成為資本市場的新寵。

在此熱潮下，一大批立志追趕或效仿Sora的國產(chǎn)AI企業(yè)也乘勢而起。其中，七火山科技算是步伐較快的一個(gè)。

那么，在多個(gè)耀眼的標(biāo)簽下，這個(gè)國產(chǎn)版“Sora”，成色究竟怎樣？

01 導(dǎo)演VS剪輯師

如果用一句話來評價(jià)Sora和Etna之間的差距，那么Sora更像是一個(gè)全能的導(dǎo)演，而Etna則像是一個(gè)專業(yè)的視頻編輯師。

要理解這點(diǎn)，我們就得從技術(shù)上拿捏一下Etna的“看家本領(lǐng)”。

按照七火山目前披露的信息，Etna主要的特色和優(yōu)勢分別是：

1、高幀率（每秒60幀）；

2、高分辨率（可以達(dá)到4k）；

3、較長的視頻時(shí)長（8—15秒），講真，這個(gè)時(shí)長在國內(nèi)文生視頻AI里（大部分是3~4秒）算不錯(cuò)的了。

然而，以上幾點(diǎn)僅僅是Etna的“皮相”，真正決定其與Sora差距的，還是Etna自身的底層架構(gòu)。

不過話說回來，即使是在“皮相”的部分，Etna和Sora也存在著一些肉眼可見的差距。

例如從整體上看，Etna生成的視頻，大部分都是一些運(yùn)動幅度較小的片段，看上去更像是一些加了動效的PPT。（關(guān)于這部分原因，后面會分析）

這樣做的一個(gè)好處就在于，與Transformer相比，CNN在處理高分辨率視頻時(shí)更高效，并且有助于減少計(jì)算資源和內(nèi)存的需求。

這正是主打4K分辨率的Etna所需要的。

這主要是因?yàn)椋琓ransformer通過自注意力機(jī)制來處理序列數(shù)據(jù)，而CNN往往將視頻視為一系列獨(dú)立的圖像幀，然后分別逐幀處理。

而就CNN是好像相冊一樣的東西，它只能一次給你看幾張照片，而且它看的照片是按照一定的順序排列的。

但是當(dāng)你想回憶起一個(gè)很早之前的畫面和后面的畫面之間的聯(lián)系時(shí)，它可能就幫不上太大的忙了。

這等于是，Etna為追求更高的分辨率和幀數(shù)，舍去了生成更長視頻的可能。

這也是為什么Sora目前只能生成每秒30幀，分辨率為720p的視頻。

但問題是，Etna為什么要做這樣的取舍？

這里有三種可能：

二是七火山的商業(yè)模式，決定了它不會走長視頻的道路，也就不會去鉆研這方面的技術(shù)；

第三種情況，就是兩者兼而有之。

02 參天大樹和盆景

AI生成視頻，尤其是長視頻，對計(jì)算資源的消耗是驚人的。

之前OpenAI的CTO在接受采訪時(shí)，就明確表示，雖然Sora會在今年晚些時(shí)候推出，但由于高昂的計(jì)算資源，其價(jià)格“可能會很貴”。

而商業(yè)路徑最明確，“回血”也最快的短視頻賽道，就成了視頻生成類AI最有可能被資本認(rèn)可的方向。

這種商業(yè)上的考量，或許正是Etna在架構(gòu)層面沒有往長視頻方向發(fā)展的原因。

換句話說，Sora在生成質(zhì)量上的亮眼表現(xiàn)，其實(shí)更像是一種工藝上的精進(jìn)，而非掌握了某種“秘術(shù)”。

如果說得稍微具體些，這種“工藝”上的精髓，很有可能就是Sora在多模態(tài)理解和長距離依賴方面的優(yōu)勢。

這樣的區(qū)別，決定了模型能否理解用戶給出的復(fù)雜指令，能否生成一些動作幅度較大、或者較為復(fù)雜的片段。

能做到這點(diǎn)的模型，就是“導(dǎo)演”，否則就只能當(dāng)個(gè)“剪輯師”。

在整個(gè)視頻中，畫面所透出的“故事感”特別強(qiáng)烈，即使沒有旁白，觀眾也能自行腦補(bǔ)一系列情節(jié)。

而到視頻的末尾，貓王甚至還湊到男人面前嗅了嗅，仿佛是在“打量”這個(gè)參拜者。

如此復(fù)雜的畫面和動作，需要模型在多模態(tài)理解方面有很強(qiáng)的功力。

這也是為什么，Etna生成的視頻，大部分都是一些運(yùn)動幅度較小的片段。

因?yàn)檫@樣的片段往往比較簡單，不太涉及對復(fù)雜語義的理解，消耗的算力資源也比較小。

因?yàn)闀r(shí)空卷積和注意力層在處理數(shù)據(jù)時(shí)，通常只考慮局部信息，而不需要考慮整個(gè)序列。

如此一來，隨拍隨發(fā)，用戶才能用得盡興，應(yīng)用的粘性才夠強(qiáng)。

七火山和快手海外 SnackVideo 也有合作

不過，這種看似“高效”的策略，總不免透著些遺憾。

而相較之下，專精于短視頻的Etna，雖然也可以成為一個(gè)很好的“剪輯師”，但視頻AI的想象力，難道就該僅僅止步于短視頻嗎？

這就像是，雖然盆栽確實(shí)可以長得很精致，但只有參天大樹，才能見到更廣闊的天地。

歷史搜索全部刪除

熱門搜索

七火山要做國產(chǎn)Sora，但成色走了樣

01 導(dǎo)演VS剪輯師

02 參天大樹和盆景

評論

七火山要做國產(chǎn)Sora，但成色走了樣

01 導(dǎo)演VS剪輯師

02 參天大樹和盆景

七火山要做國產(chǎn)Sora，但成色走了樣

01 導(dǎo)演VS剪輯師

02 參天大樹和盆景

評論

七火山要做國產(chǎn)Sora，但成色走了樣

01 導(dǎo)演VS剪輯師

02 參天大樹和盆景

七火山要做國產(chǎn)Sora，但成色走了樣