人妻二乱三伦欧美精品,中文字幕在线观看91

文|定焦王璐

編輯|魏佳

自從今年年初Sora露面后，國(guó)內(nèi)國(guó)外都想用AI顛覆好萊塢，近期的AI視頻圈更是十分熱鬧，產(chǎn)品一個(gè)接一個(gè)發(fā)布，都喊著要趕超Sora。

國(guó)外兩家AI視頻初創(chuàng)公司率先開打，舊金山人工智能科技公司Luma推出Dream Machine視頻生成模型，并扔出堪稱電影級(jí)別的宣傳片，產(chǎn)品也給用戶免費(fèi)試用；另一家在AI視頻領(lǐng)域小有名氣的初創(chuàng)公司Runway，也宣布將Gen-3 Alpha模型向部分用戶開啟測(cè)試，稱能將光影這樣的細(xì)節(jié)生產(chǎn)出來(lái)。

國(guó)內(nèi)也不甘示弱，快手推出的可靈Web端，用戶能生成長(zhǎng)達(dá)10秒的視頻內(nèi)容，還具備首尾幀控制和相機(jī)鏡頭控制功能。其原創(chuàng)AI奇幻短劇《山海奇鏡之劈波斬浪》也在快手播出，畫面均由AI生成。AI科幻短劇《三星堆：未來(lái)啟示錄》也在近期播出，為字節(jié)旗下的AI視頻產(chǎn)品即夢(mèng)制作。

AI視頻如此快的更新速度讓不少網(wǎng)友直呼，“好萊塢可能又要來(lái)一次大罷工了?！?/p>

如今在AI視頻賽道上，有谷歌、微軟、Meta，阿里、字節(jié)、美圖等國(guó)內(nèi)外科技、互聯(lián)網(wǎng)巨頭，也有Runway、愛詩(shī)科技等新秀公司，據(jù)「定焦」不完全統(tǒng)計(jì)，僅國(guó)內(nèi)，便有約20家公司推出了自研AI視頻產(chǎn)品/模型。

頭豹研究院數(shù)據(jù)顯示，2021年中國(guó)AI視頻生成行業(yè)的市場(chǎng)規(guī)模為800萬(wàn)元，預(yù)計(jì)2026年，這一市場(chǎng)規(guī)模將達(dá)到92.79億元。不少業(yè)內(nèi)人士相信，2024年生成視頻賽道會(huì)迎來(lái)Midjourney時(shí)刻。

全球的Sora們發(fā)展到什么階段了？誰(shuí)最強(qiáng)？AI能干掉好萊塢嗎？

圍攻Sora：產(chǎn)品雖多，能用的少

AI視頻賽道推出的產(chǎn)品/模型不少，但真正能讓大眾使用的十分有限，國(guó)外的突出代表便是Sora，半年過(guò)去了還在內(nèi)測(cè)，僅對(duì)安全團(tuán)隊(duì)和一些視覺藝術(shù)家、設(shè)計(jì)師和電影制作人等開放。國(guó)內(nèi)情況也差不多，阿里達(dá)摩院的AI視頻產(chǎn)品“尋光”、百度的AI視頻模型UniVG都在內(nèi)測(cè)階段，至于目前正火的快手可靈，用戶想使用也需要排隊(duì)申請(qǐng)，這已經(jīng)刨去了一大半產(chǎn)品。

剩下可使用的AI視頻產(chǎn)品中，一部分設(shè)置了使用門檻，用戶需要付費(fèi)或懂一定技術(shù)。比如潞晨科技的Open-Sora，如果不懂一點(diǎn)代碼知識(shí)，使用者便無(wú)從下手。

「定焦」整理國(guó)內(nèi)外公布的AI視頻產(chǎn)品發(fā)現(xiàn)，各家的操作方式和功能差不多，用戶先用文字生成指令，同時(shí)選擇畫幅大小、圖像清晰度、生成風(fēng)格、生成秒數(shù)等功能，最終點(diǎn)擊一鍵生成。

這些功能背后的技術(shù)難度不同。其中最難的是，生成視頻的清晰度和秒數(shù)，這也是AI視頻賽道各家在宣傳時(shí)比拼的重點(diǎn)，背后與訓(xùn)練過(guò)程中使用的素材質(zhì)量和算力大小密切相關(guān)。

AI研究者Cyrus告訴「定焦」，目前國(guó)內(nèi)外大多數(shù)AI視頻支持生成480p/720p，也有少部分支持1080p的高清視頻。

他介紹，高質(zhì)量素材越多，算力越高，訓(xùn)練出來(lái)的模型能生成更高質(zhì)量的視頻，但不代表有高質(zhì)量的素材算力，就能生成高質(zhì)量素材。而用低分辨率素材訓(xùn)練的模型，若要強(qiáng)行生成高分辨視頻，會(huì)出現(xiàn)崩壞或者重復(fù)，比如多手多腳。這類問(wèn)題可以通過(guò)放大、修復(fù)和重繪之類的方式解決，不過(guò)效果和細(xì)節(jié)一般。

很多公司也把生成長(zhǎng)秒數(shù)當(dāng)賣點(diǎn)。

國(guó)內(nèi)大部分AI視頻支持2-3秒，能達(dá)到5-10秒算是比較強(qiáng)的產(chǎn)品，也有個(gè)別產(chǎn)品很卷，比如即夢(mèng)最高長(zhǎng)達(dá)12秒，不過(guò)大家都不及Sora，它曾表示最長(zhǎng)能生成一段60秒的視頻，但由于還沒有開放使用，具體表現(xiàn)如何無(wú)法驗(yàn)證。

光卷時(shí)長(zhǎng)還不夠，生成的視頻內(nèi)容也得合理。石榴AI首席研究員張恒對(duì)「定焦」表示：從技術(shù)上，可以要求AI一直輸出，毫不夸張地說(shuō)，哪怕生成一個(gè)小時(shí)的視頻，也不是問(wèn)題，但我們多數(shù)時(shí)候要的并不是一段監(jiān)控視頻，也不是一個(gè)循環(huán)播放的風(fēng)景畫動(dòng)圖，而是畫面精美有故事的短片。

「定焦」測(cè)試了5款國(guó)內(nèi)比較熱的免費(fèi)文生視頻AI產(chǎn)品，分別為字節(jié)的即夢(mèng)、Morph AI的Morph Studio、愛詩(shī)科技的PixVerse、MewXAI的藝映AI、右腦科技的Vega AI，給了它們一段相同的文字指令：“一個(gè)穿著紅裙子的小女孩，在公園里，喂一只白色的小兔子吃胡蘿卜?！?/p>

幾款產(chǎn)品的生成速度上差不多，僅需2-3分鐘，但清晰度、時(shí)長(zhǎng)差得不少，準(zhǔn)確度上更是“群魔亂舞” ，得到結(jié)果如下：

藝映AI

Vega AI

即夢(mèng)

Morph

Pix Verse各家的優(yōu)缺點(diǎn)很明顯。即夢(mèng)贏在時(shí)長(zhǎng)，但生成質(zhì)量不高，主角小女孩在后期直接變形，Vega AI也是相同的問(wèn)題。PixVerse的畫質(zhì)比較差。

相比之下，Morph生成的內(nèi)容很準(zhǔn)確，但只有短短2秒。藝映畫質(zhì)也不錯(cuò)，但對(duì)文字理解不到位，直接把兔子這一關(guān)鍵元素弄丟了，且生成視頻不夠?qū)憣?shí)，偏漫畫風(fēng)。

總之，還沒有一家產(chǎn)品能給到一段符合要求的視頻。

AI視頻難題：準(zhǔn)確性、一致性、豐富性

「定焦」的體驗(yàn)效果和各家釋放的宣傳片相差很大，AI視頻如果想要真正商用，還有相當(dāng)長(zhǎng)的一段路要走。

張恒告訴「定焦」，從技術(shù)角度看，他們主要從三個(gè)維度考量不同AI視頻模型的水平：準(zhǔn)確性、一致性、豐富性。

如何理解這三個(gè)維度，張恒舉了個(gè)例子。

比如生成一段“兩個(gè)女孩在操場(chǎng)看籃球比賽”的視頻。

準(zhǔn)確性體現(xiàn)在，一是對(duì)內(nèi)容結(jié)構(gòu)理解的準(zhǔn)確，比如視頻中出現(xiàn)的要是女孩，而且還是兩個(gè)；二是流程控制的準(zhǔn)確，比如投籃投進(jìn)后，籃球要從籃網(wǎng)中逐漸下降；最后是靜態(tài)數(shù)據(jù)建模準(zhǔn)確，比如鏡頭出現(xiàn)遮擋物時(shí)，籃球不能變成橄欖球。

一致性是指，AI在時(shí)空上的建模能力，其中又包含主體注意力和長(zhǎng)期注意力。

主體注意力可以理解為，在看籃球比賽的過(guò)程中，兩個(gè)小女孩要一直留在畫面里，不能隨便亂跑；長(zhǎng)期注意力為，在運(yùn)動(dòng)過(guò)程中，視頻中的各個(gè)元素既不能丟，也不能出現(xiàn)變形等異常情況。

豐富性則是指，AI也有自己的邏輯，即便在沒有文字提示下，能生成一些合理的細(xì)節(jié)內(nèi)容。

以上維度，市面上出現(xiàn)的AI視頻工具基本都沒能完全做到，各家也在不斷提出解決辦法。

比如在視頻很重要的人物一致性上，即夢(mèng)、可靈想到了用圖生視頻取代文生視頻。即用戶先用文字生成圖片，再用圖片生成視頻，或者直接給定一兩張圖片，AI將其連接變成動(dòng)起來(lái)的視頻。

“但這不屬于新的技術(shù)突破，且圖生視頻難度要低于文生視頻，”張恒告訴「定焦」，文生視頻的原理是，AI先對(duì)用戶輸入的文字進(jìn)行解析，拆解為一組分鏡描述，將描述轉(zhuǎn)文本再轉(zhuǎn)圖片，就得到了視頻的中間關(guān)鍵幀，將這些圖片連接起來(lái)，就能獲得連續(xù)有動(dòng)作的視頻。而圖生視頻相當(dāng)于給了AI一張可模仿的具體圖片，生成的視頻就會(huì)延續(xù)圖片中的人臉特征，實(shí)現(xiàn)主角一致性。

他還表示，在實(shí)際場(chǎng)景中，圖生視頻的效果更符合用戶預(yù)期，因?yàn)槲淖直磉_(dá)畫面細(xì)節(jié)的能力有限，有圖片作為參考，會(huì)對(duì)生成視頻有所幫助，但當(dāng)下也達(dá)不到商用的程度。直觀上說(shuō)，5秒是圖生視頻的上限，大于10秒可能意義就不大了，要么內(nèi)容出現(xiàn)重復(fù)，要么結(jié)構(gòu)扭曲質(zhì)量下降。

目前很多宣稱用AI進(jìn)行全流程制作的影視短片，大部分采用的是圖生視頻或者視頻到視頻。

即夢(mèng)的使用尾幀功能用的也是圖生視頻，「定焦」特意進(jìn)行了嘗試，結(jié)果如下：

在結(jié)合的過(guò)程中，人物出現(xiàn)了變形、失真。

Cyrus也表示，視頻講究連貫，很多AI視頻工具支持圖轉(zhuǎn)視頻也是通過(guò)單幀圖片推測(cè)后續(xù)動(dòng)作，至于推測(cè)得對(duì)不對(duì)，目前還是看運(yùn)氣。

據(jù)了解，文生視頻在實(shí)現(xiàn)主角一致性上，各家也并非純靠數(shù)據(jù)生成。張恒表示，大多數(shù)模型都是在原有底層DIT大模型的基礎(chǔ)上，疊加各種技術(shù)，比如ControlVideo（哈工大和華為云提出的一種可控的文本-視頻生成方法），從而加深A(yù)I對(duì)主角面部特征的記憶，使得人臉在運(yùn)動(dòng)過(guò)程中不會(huì)發(fā)生太大變化。

不過(guò)，目前都還在嘗試階段，即便做了技術(shù)疊加，也還沒有完全解決人物一致性問(wèn)題。

AI視頻，為什么進(jìn)化慢？

在AI圈，目前最卷的是美國(guó)和中國(guó)。

從《2023年全球最具影響力人工智能學(xué)者》（簡(jiǎn)稱“AI 2000學(xué)者”榜單）的相關(guān)報(bào)告可以看出，2020年-2023年全球“AI 2000機(jī)構(gòu)”4年累計(jì)的1071家機(jī)構(gòu)中，美國(guó)擁有443家，其次是中國(guó)，有137家，從2023年“AI 2000學(xué)者”的國(guó)別分布看，美國(guó)入選人數(shù)最多，共有1079人，占全球總數(shù)的54.0%，其次是中國(guó)，共有280人入選。

這兩年，AI除了在文生圖、文生音樂的方面取得較大進(jìn)步之外，最難突破的AI視頻也有了一些突破。

在近期舉辦的世界人工智能大會(huì)上，倚天資本合伙人樂元公開表示，視頻生成技術(shù)在近兩三年取得了遠(yuǎn)超預(yù)期的進(jìn)步。新加坡南洋理工大學(xué)助理教授劉子緯認(rèn)為，視頻生成技術(shù)目前處于GPT-3 時(shí)代，距離成熟還有半年左右的時(shí)間。

不過(guò)，樂元也強(qiáng)調(diào)，其技術(shù)水平還是不足以支撐大范圍商業(yè)化，基于語(yǔ)言模型開發(fā)應(yīng)用所使用的方法論和遇到的挑戰(zhàn)，在視頻相關(guān)的應(yīng)用領(lǐng)域也同樣適用。

年初Sora的出現(xiàn)震驚全球，它基于transformer架構(gòu)的新型擴(kuò)散模型DiT再做擴(kuò)散、生成的技術(shù)突破，提高了圖像生成質(zhì)量和寫實(shí)，使得AI視頻取得了重大突破。Cyrus表示，目前國(guó)內(nèi)外的文生視頻，大多數(shù)都沿用的是類似技術(shù)。

圖源 / Sora官網(wǎng)

此刻，大家在底層技術(shù)上基本一致，雖然各家也以此為基礎(chǔ)尋求技術(shù)突破，但更多卷的是訓(xùn)練數(shù)據(jù)，從而豐富產(chǎn)品功能。

用戶在使用字節(jié)的即夢(mèng)和Morph AI的Morph Studio時(shí)，可選擇視頻的運(yùn)鏡方式，背后原理便是數(shù)據(jù)集不同。

“以往各家在訓(xùn)練時(shí)使用的圖片都比較簡(jiǎn)單，更多是對(duì)圖片存在哪些元素進(jìn)行標(biāo)注，但沒有交代這一元素用什么鏡頭拍攝，這也讓很多公司發(fā)現(xiàn)了這一缺口，于是用3D渲染視頻數(shù)據(jù)集補(bǔ)全鏡頭特征?！睆埡惚硎?，目前這些數(shù)據(jù)來(lái)自影視行業(yè)、游戲公司的效果圖。

「定焦」也嘗試了這一功能，但鏡頭變化不是很明顯。

Sora們之所以比GPT、Midjourney們發(fā)展得慢，是因?yàn)橛执盍艘粋€(gè)時(shí)間軸，且訓(xùn)練視頻模型比文字、圖片更難?！艾F(xiàn)在能用的視頻訓(xùn)練數(shù)據(jù)，都已經(jīng)挖掘殆盡，我們也在想一些新辦法制造一系列可以拿來(lái)訓(xùn)練的數(shù)據(jù)?！睆埡阏f(shuō)。

且每個(gè)AI視頻模型都有自己擅長(zhǎng)的風(fēng)格，就像快手可靈做的吃播視頻更好，因?yàn)槠浔澈笥写罅窟@類數(shù)據(jù)支撐。

石榴AI創(chuàng)始人沈仁奎認(rèn)為，AI視頻的技術(shù)有Text to video（文本轉(zhuǎn)視頻），Image to video（圖片轉(zhuǎn)視頻），Video to video（視頻轉(zhuǎn)視頻），以及Avatar to video（數(shù)字人），能定制形象和聲音的數(shù)字人，已經(jīng)運(yùn)用到了營(yíng)銷領(lǐng)域，達(dá)到了商用程度，而文生視頻還需要解決精準(zhǔn)度和可控度問(wèn)題。

此刻，無(wú)論是由抖音和博納合作的AI科幻短劇《三星堆：未來(lái)啟示錄》，還是快手原創(chuàng)的AI奇幻短劇《山海奇鏡之劈波斬浪》，更多是大模型公司主動(dòng)找影視制作團(tuán)隊(duì)進(jìn)行合作，有推廣自家技術(shù)產(chǎn)品的需求，且作品也沒有出圈。

在短視頻領(lǐng)域，AI還有很長(zhǎng)的路要走，干掉好萊塢了的說(shuō)法更為時(shí)尚早。

文|定焦王璐

編輯|魏佳

AI視頻如此快的更新速度讓不少網(wǎng)友直呼，“好萊塢可能又要來(lái)一次大罷工了?！?/p>

全球的Sora們發(fā)展到什么階段了？誰(shuí)最強(qiáng)？AI能干掉好萊塢嗎？

圍攻Sora：產(chǎn)品雖多，能用的少

AI研究者Cyrus告訴「定焦」，目前國(guó)內(nèi)外大多數(shù)AI視頻支持生成480p/720p，也有少部分支持1080p的高清視頻。

很多公司也把生成長(zhǎng)秒數(shù)當(dāng)賣點(diǎn)。

幾款產(chǎn)品的生成速度上差不多，僅需2-3分鐘，但清晰度、時(shí)長(zhǎng)差得不少，準(zhǔn)確度上更是“群魔亂舞” ，得到結(jié)果如下：

藝映AI

Vega AI

即夢(mèng)

Morph

總之，還沒有一家產(chǎn)品能給到一段符合要求的視頻。

AI視頻難題：準(zhǔn)確性、一致性、豐富性

「定焦」的體驗(yàn)效果和各家釋放的宣傳片相差很大，AI視頻如果想要真正商用，還有相當(dāng)長(zhǎng)的一段路要走。

張恒告訴「定焦」，從技術(shù)角度看，他們主要從三個(gè)維度考量不同AI視頻模型的水平：準(zhǔn)確性、一致性、豐富性。

如何理解這三個(gè)維度，張恒舉了個(gè)例子。

比如生成一段“兩個(gè)女孩在操場(chǎng)看籃球比賽”的視頻。

一致性是指，AI在時(shí)空上的建模能力，其中又包含主體注意力和長(zhǎng)期注意力。

豐富性則是指，AI也有自己的邏輯，即便在沒有文字提示下，能生成一些合理的細(xì)節(jié)內(nèi)容。

以上維度，市面上出現(xiàn)的AI視頻工具基本都沒能完全做到，各家也在不斷提出解決辦法。

目前很多宣稱用AI進(jìn)行全流程制作的影視短片，大部分采用的是圖生視頻或者視頻到視頻。

即夢(mèng)的使用尾幀功能用的也是圖生視頻，「定焦」特意進(jìn)行了嘗試，結(jié)果如下：

在結(jié)合的過(guò)程中，人物出現(xiàn)了變形、失真。

不過(guò)，目前都還在嘗試階段，即便做了技術(shù)疊加，也還沒有完全解決人物一致性問(wèn)題。

AI視頻，為什么進(jìn)化慢？

在AI圈，目前最卷的是美國(guó)和中國(guó)。

這兩年，AI除了在文生圖、文生音樂的方面取得較大進(jìn)步之外，最難突破的AI視頻也有了一些突破。

圖源 / Sora官網(wǎng)

用戶在使用字節(jié)的即夢(mèng)和Morph AI的Morph Studio時(shí)，可選擇視頻的運(yùn)鏡方式，背后原理便是數(shù)據(jù)集不同。

「定焦」也嘗試了這一功能，但鏡頭變化不是很明顯。

且每個(gè)AI視頻模型都有自己擅長(zhǎng)的風(fēng)格，就像快手可靈做的吃播視頻更好，因?yàn)槠浔澈笥写罅窟@類數(shù)據(jù)支撐。

在短視頻領(lǐng)域，AI還有很長(zhǎng)的路要走，干掉好萊塢了的說(shuō)法更為時(shí)尚早。

歷史搜索全部刪除

熱門搜索

半年過(guò)去，AI視頻卷到哪兒了？

圍攻Sora：產(chǎn)品雖多，能用的少

AI視頻難題：準(zhǔn)確性、一致性、豐富性

AI視頻，為什么進(jìn)化慢？

評(píng)論

半年過(guò)去，AI視頻卷到哪兒了？

圍攻Sora：產(chǎn)品雖多，能用的少

AI視頻難題：準(zhǔn)確性、一致性、豐富性

AI視頻，為什么進(jìn)化慢？

半年過(guò)去，AI視頻卷到哪兒了？

圍攻Sora：產(chǎn)品雖多，能用的少

AI視頻難題：準(zhǔn)確性、一致性、豐富性

AI視頻，為什么進(jìn)化慢？

評(píng)論

半年過(guò)去，AI視頻卷到哪兒了？

圍攻Sora：產(chǎn)品雖多，能用的少

AI視頻難題：準(zhǔn)確性、一致性、豐富性

AI視頻，為什么進(jìn)化慢？

半年過(guò)去，AI視頻卷到哪兒了？

AI視頻難題：準(zhǔn)確性、一致性、豐富性

AI視頻，為什么進(jìn)化慢？

半年過(guò)去，AI視頻卷到哪兒了？

圍攻Sora：產(chǎn)品雖多，能用的少

AI視頻難題：準(zhǔn)確性、一致性、豐富性

AI視頻，為什么進(jìn)化慢？