正在閱讀:

OpenAI還有對手嗎?2024年AI視頻產品何去何從

掃一掃下載界面新聞APP

OpenAI還有對手嗎?2024年AI視頻產品何去何從

盤一盤留給其他玩家的空間。

文|適道

2024年的開年震撼同樣來自OpenAI。節(jié)后還沒開工,Altman就帶著繼ChatGPT的第二個殺手級應用Sora大殺四方。適道看完那條長達60s的演示視頻后,腦中只有一句話:大家誰都別想玩了。

快速回歸理智,Sora統(tǒng)治之下,是否還有其他機會?我們從a16z發(fā)布的展望——“Why 2023 Was AI Video’s Breakout Year, and What to Expect in 2024”入手,盤一盤這條賽道留給其他玩家哪些空間。

01 用好巨頭“殲滅戰(zhàn)”窗口期

OpenAI推出Sora不讓人意外,讓人意外的是Sora之強大難以想象。

細數(shù)2023年AI視頻賽道,有兩條非常清晰的邏輯。

一是AI生成視頻發(fā)展之迅猛。2023年初還出現(xiàn)公開的文生視頻模型。僅僅12個月后,就有Runway、Pika、Genmo和Stable Video Diffusion等數(shù)十種視頻生成產品投入使用。

a16z認為,如此巨大的進展說明我們正處于大規(guī)模變革的起步階段——這與圖像生成技術的發(fā)展存在相似之處。文本—視頻模型正在不斷演化進步,而圖像—視頻和視頻—視頻等分支也在蓬勃發(fā)展。

二是巨頭入場只是時間問題。2024年注定是多模態(tài)AI爆發(fā)之年。然而,細數(shù)2023年21個公開AI視頻模型,大多數(shù)來自初創(chuàng)公司。

表面上,Google、Meta等科技巨頭如湖水般平靜,但水面之下暗流涌動。巨頭們沒有停止發(fā)表視頻生成的相關論文;同時,他們還在不聲明模型發(fā)布時間的前提下對外發(fā)布演示版本的視頻,比如OpenAI發(fā)布Sora。

明明演示作品已經成熟,為何巨頭們不著急發(fā)布呢?a16z認為,出于法律、安全以及版權等方面的考慮,巨頭很難將科研成果轉化成產品,因此需要推遲產品發(fā)布,這就讓新玩家獲得了先發(fā)優(yōu)勢。

適道認為,最關鍵因素是“網絡效應”并不重要——首發(fā)玩家不是贏家,技術領先才是贏家。有了能生成60s視頻的Sora,你還會執(zhí)著于生成4s視頻的Pika嗎?

但這不代表初創(chuàng)公司徹底沒戲。因為在該規(guī)律下,巨頭們的動作不會太快,初創(chuàng)公司需要抓住“窗口期”,盡量快速發(fā)布產品,圈一波新用戶,賺一波快錢,尤其是在國內市場。

補充前阿里技術副總裁、目前正在從事AI架構創(chuàng)業(yè)的賈揚清的觀點:1.對標OpenAI的公司有一波被其他大廠fomo收購的機會。2. 從算法小廠的角度,要不就算法上媲美OpenAI,要不就垂直領域深耕應用,要不就選擇開源。(創(chuàng)業(yè)邦)

02  “學霸”Sora強在哪里?

目前,絕大部分AI視頻產品還未解決核心難題:可控性、時間連貫性、時長。

可控性:用文本“描述”控制畫面中人物的運動軌跡。

當然,一些公司可以為用戶提供視頻生成前的可控性。例如,Runway的Motion Brush讓用戶高亮圖像的特定區(qū)域,并決定它們的動作。

時間連貫性:人物、物體、背景在不同幀之間保持一致,不發(fā)生扭曲。

時長:能夠制作超過幾秒的視頻?

視頻的時長和時間連貫性息息相關。許多產品都限制視頻時長,因為在時長超過幾秒后就無法保證任何形式的一致性。如果你看到一個較長的視頻,很可能是由很多簡短片段構成,而且往往需要輸入幾十甚至上百條指令。

而Sora的強大在于突破了以上難題。

1、時間連貫性——前景人來人往,但主體始終保持一致

2、時長——輕輕松松生成60s

3、可控性——畫家的手部動作非常逼真

不僅如此,Sora還能更好地理解物理世界。養(yǎng)貓的人應該明白這個視頻的含金量,居然模擬出了貓咪“踩奶”!

Sora能夠實現(xiàn)如此突破,在于OpenAI走上了一條與眾不同的道路。

假設Sora是一個足不出戶的小朋友,他理解外部世界的方式是觀看五花八門的視頻和圖片。

但Sora小朋友只能看懂簡單的信息,OpenAI就為其量身打造了一套啟蒙學習課程——通過“視頻壓縮網絡”技術,將所有“復雜”的視頻和圖片壓縮成一個更低維度的表示形式,轉換成Sora更容易理解的“兒童”格式。

舉個不那么恰當?shù)睦??!耙曨l壓縮網絡”技術就是將一部成人能看懂的電影內核轉換為一集Sora更容易理解的“小豬佩奇”。

在理解“學習信息”階段,Sora進一步將壓縮后的信息數(shù)據分解為一塊塊“小拼圖”——“時空補丁”(Spacetime Patches)。

一方面,這些“小拼圖”是視覺內容的基本構建塊,無論原始視頻風格如何,Sora都可以將它們處理成一致的格式,就像每一張照片都能分解為包含獨特景觀、顏色和紋理的“小拼圖”;另一方面,因為這些“拼圖”足夠小,且包含時空信息,Sora能夠更細致地處理視頻的每一個小片段,并考慮和預測時空變化。

在生成“學習成果”階段,Sora要根據文本提示生成視頻內容。這個過程依賴于Sora的大腦——擴散變換器模型(Diffusion Transformer Model)。

通過預先訓練好的轉換器(Transformer),Sora能夠識別每塊“小拼圖”的內容,并根據文本提示快速找到自己學習過的“小拼圖”,把它們拼在一起,生成與文本匹配的視頻內容。

通過擴散模型(Diffusion Models),Sora可以消除不必要的“噪音”,將混亂的視頻信息變得逐步清晰。例如,涂鴉本上有很多無意義的線條,Sora通過文本指令,將這些無意義的線條優(yōu)化為一幅帶有明確主題的圖畫。

而此前的AI視頻模型大多是通過循環(huán)網絡、生成對抗網絡、自回歸Transformer和擴散模型等技術對視頻數(shù)據建模。

結果就是“學霸”Sora明白了物理世界動態(tài)變化的原理,實現(xiàn)一通百通。而其他選手在學習每一道題解法后,只會照葫蘆畫瓢,被“吊打”也是在情理之中。

03 未來AI視頻產品如何發(fā)展?

根據a16z的展望,AI視頻產品還存在一些待解決空間。

首先,高質量訓練數(shù)據從何而來?

和其他內容模態(tài)相比,視頻模型的訓練難度更大,主要是沒有那么多高質量、標簽化的訓練數(shù)據。語言模型通常在公共數(shù)據集(如 Common Crawl)上進行訓練,而圖像模型則在標簽化數(shù)據集(文本-圖像對)(如 LAION 和 ImageNet)上進行訓練。

視頻數(shù)據則較難獲得。雖然 YouTube 和 TikTok 等平臺不乏可公開觀看的視頻,但這些視頻都沒有標簽,而且可能不夠多樣化(例如貓咪視頻和網紅道歉等內容在數(shù)據集中比例可能過高)。

基于此,a16z認為視頻數(shù)據的“圣杯”可能來自工作室或制作公司,它們擁有從多個角度拍攝的長視頻,并附有腳本和說明。不過,他們是否愿意將這些數(shù)據授權用于訓練,目前還不得而知。

適道認為,除了科技巨頭,長期來看,以國外Netflix、Disney;國內“愛優(yōu)騰”為代表的行業(yè)大佬也不容忽視。這些公司積攢了數(shù)十億條會員評價,熟知觀眾的習慣和需求,擁有數(shù)據壁壘和應用場景。去年1月,Netflix就發(fā)布了一支AI動畫短片《犬與少年(Dog and Boy)》。其中動畫場景的繪制工作由AI完成。對標到國內,AI視頻賽道大概率依然是互聯(lián)網大廠的天下。

其次,用例如何在平臺/模型間細分?

a16z認為,一種模型不能“勝任”所有用例。例如,Midjourney、Ideogram和DALL-E都具有獨特的風格,擅長生成不同類型的圖像。預計視頻模型也會有類似的動態(tài)變化。圍繞這些模式開發(fā)的產品可能會在工作流程方面進一步分化,并服務于不同的終端市場。例如,動畫人物頭像(HeyGen)、視覺特效(Wonder Dynamics)和視頻到視頻( DomoAI)。

適道認為,這些問題最終都會被Sora一舉解決。但對于國內玩家而言,或許也是一個“中間商賺差價”的機會。

第三,誰將支配工作流程?

目前大多數(shù)產品只專注于一種類型的內容,且功能有限。我們經常可以看到這樣的視頻:先由 Midjourney 做圖,再放進Pika制作動畫,接著在Topaz上放大。然后,創(chuàng)作者將視頻導入 Capcut 或 Kapwing 等編輯平臺,并添加配樂和畫外音(由Suno和ElevenLabs或其他產品生成)。

這個過程顯然不夠“智能”,對于用戶而言,非常希望出現(xiàn)“一鍵生成”式平臺。

據a16z展望,一些新興的生成產品將增加更多的工作流程功能,并擴展到其他類型的內容生成——可以通過訓練自己的模型、利用開源模型或與其他廠商合作來實現(xiàn)。

其一,視頻生成平臺會開始添加一些功能。例如,Pika允許用戶在其網站上對視頻進行放大處理。此外,目前Sora也可以創(chuàng)建完美循環(huán)視頻、動畫靜態(tài)圖像、向前或向后擴展視頻等等,具備了視頻編輯的能力。但編輯效果具體如何,我們還要等開放后的測試。

其二,AI原生編輯平臺已經出現(xiàn),能夠讓用戶 “插入”不同模型,并將這些內容拼湊在一起。

可以預見的是,未來大批內容制作者將同時采用AI和人工生成內容。因此,能夠“絲滑”編輯這兩類內容的產品將大受歡迎。這或許是玩家們的最新機會。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。

OpenAI

  • 【獨家】字節(jié)即夢將在Sora發(fā)布前上線視頻生成模型PixelDance
  • OpenAI首個AI助理產品或將于明年1月發(fā)布

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

OpenAI還有對手嗎?2024年AI視頻產品何去何從

盤一盤留給其他玩家的空間。

文|適道

2024年的開年震撼同樣來自OpenAI。節(jié)后還沒開工,Altman就帶著繼ChatGPT的第二個殺手級應用Sora大殺四方。適道看完那條長達60s的演示視頻后,腦中只有一句話:大家誰都別想玩了。

快速回歸理智,Sora統(tǒng)治之下,是否還有其他機會?我們從a16z發(fā)布的展望——“Why 2023 Was AI Video’s Breakout Year, and What to Expect in 2024”入手,盤一盤這條賽道留給其他玩家哪些空間。

01 用好巨頭“殲滅戰(zhàn)”窗口期

OpenAI推出Sora不讓人意外,讓人意外的是Sora之強大難以想象。

細數(shù)2023年AI視頻賽道,有兩條非常清晰的邏輯。

一是AI生成視頻發(fā)展之迅猛。2023年初還出現(xiàn)公開的文生視頻模型。僅僅12個月后,就有Runway、Pika、Genmo和Stable Video Diffusion等數(shù)十種視頻生成產品投入使用。

a16z認為,如此巨大的進展說明我們正處于大規(guī)模變革的起步階段——這與圖像生成技術的發(fā)展存在相似之處。文本—視頻模型正在不斷演化進步,而圖像—視頻和視頻—視頻等分支也在蓬勃發(fā)展。

二是巨頭入場只是時間問題。2024年注定是多模態(tài)AI爆發(fā)之年。然而,細數(shù)2023年21個公開AI視頻模型,大多數(shù)來自初創(chuàng)公司。

表面上,Google、Meta等科技巨頭如湖水般平靜,但水面之下暗流涌動。巨頭們沒有停止發(fā)表視頻生成的相關論文;同時,他們還在不聲明模型發(fā)布時間的前提下對外發(fā)布演示版本的視頻,比如OpenAI發(fā)布Sora。

明明演示作品已經成熟,為何巨頭們不著急發(fā)布呢?a16z認為,出于法律、安全以及版權等方面的考慮,巨頭很難將科研成果轉化成產品,因此需要推遲產品發(fā)布,這就讓新玩家獲得了先發(fā)優(yōu)勢。

適道認為,最關鍵因素是“網絡效應”并不重要——首發(fā)玩家不是贏家,技術領先才是贏家。有了能生成60s視頻的Sora,你還會執(zhí)著于生成4s視頻的Pika嗎?

但這不代表初創(chuàng)公司徹底沒戲。因為在該規(guī)律下,巨頭們的動作不會太快,初創(chuàng)公司需要抓住“窗口期”,盡量快速發(fā)布產品,圈一波新用戶,賺一波快錢,尤其是在國內市場。

補充前阿里技術副總裁、目前正在從事AI架構創(chuàng)業(yè)的賈揚清的觀點:1.對標OpenAI的公司有一波被其他大廠fomo收購的機會。2. 從算法小廠的角度,要不就算法上媲美OpenAI,要不就垂直領域深耕應用,要不就選擇開源。(創(chuàng)業(yè)邦)

02  “學霸”Sora強在哪里?

目前,絕大部分AI視頻產品還未解決核心難題:可控性、時間連貫性、時長。

可控性:用文本“描述”控制畫面中人物的運動軌跡。

當然,一些公司可以為用戶提供視頻生成前的可控性。例如,Runway的Motion Brush讓用戶高亮圖像的特定區(qū)域,并決定它們的動作。

時間連貫性:人物、物體、背景在不同幀之間保持一致,不發(fā)生扭曲。

時長:能夠制作超過幾秒的視頻?

視頻的時長和時間連貫性息息相關。許多產品都限制視頻時長,因為在時長超過幾秒后就無法保證任何形式的一致性。如果你看到一個較長的視頻,很可能是由很多簡短片段構成,而且往往需要輸入幾十甚至上百條指令。

而Sora的強大在于突破了以上難題。

1、時間連貫性——前景人來人往,但主體始終保持一致

2、時長——輕輕松松生成60s

3、可控性——畫家的手部動作非常逼真

不僅如此,Sora還能更好地理解物理世界。養(yǎng)貓的人應該明白這個視頻的含金量,居然模擬出了貓咪“踩奶”!

Sora能夠實現(xiàn)如此突破,在于OpenAI走上了一條與眾不同的道路。

假設Sora是一個足不出戶的小朋友,他理解外部世界的方式是觀看五花八門的視頻和圖片。

但Sora小朋友只能看懂簡單的信息,OpenAI就為其量身打造了一套啟蒙學習課程——通過“視頻壓縮網絡”技術,將所有“復雜”的視頻和圖片壓縮成一個更低維度的表示形式,轉換成Sora更容易理解的“兒童”格式。

舉個不那么恰當?shù)睦?。“視頻壓縮網絡”技術就是將一部成人能看懂的電影內核轉換為一集Sora更容易理解的“小豬佩奇”。

在理解“學習信息”階段,Sora進一步將壓縮后的信息數(shù)據分解為一塊塊“小拼圖”——“時空補丁”(Spacetime Patches)。

一方面,這些“小拼圖”是視覺內容的基本構建塊,無論原始視頻風格如何,Sora都可以將它們處理成一致的格式,就像每一張照片都能分解為包含獨特景觀、顏色和紋理的“小拼圖”;另一方面,因為這些“拼圖”足夠小,且包含時空信息,Sora能夠更細致地處理視頻的每一個小片段,并考慮和預測時空變化。

在生成“學習成果”階段,Sora要根據文本提示生成視頻內容。這個過程依賴于Sora的大腦——擴散變換器模型(Diffusion Transformer Model)。

通過預先訓練好的轉換器(Transformer),Sora能夠識別每塊“小拼圖”的內容,并根據文本提示快速找到自己學習過的“小拼圖”,把它們拼在一起,生成與文本匹配的視頻內容。

通過擴散模型(Diffusion Models),Sora可以消除不必要的“噪音”,將混亂的視頻信息變得逐步清晰。例如,涂鴉本上有很多無意義的線條,Sora通過文本指令,將這些無意義的線條優(yōu)化為一幅帶有明確主題的圖畫。

而此前的AI視頻模型大多是通過循環(huán)網絡、生成對抗網絡、自回歸Transformer和擴散模型等技術對視頻數(shù)據建模。

結果就是“學霸”Sora明白了物理世界動態(tài)變化的原理,實現(xiàn)一通百通。而其他選手在學習每一道題解法后,只會照葫蘆畫瓢,被“吊打”也是在情理之中。

03 未來AI視頻產品如何發(fā)展?

根據a16z的展望,AI視頻產品還存在一些待解決空間。

首先,高質量訓練數(shù)據從何而來?

和其他內容模態(tài)相比,視頻模型的訓練難度更大,主要是沒有那么多高質量、標簽化的訓練數(shù)據。語言模型通常在公共數(shù)據集(如 Common Crawl)上進行訓練,而圖像模型則在標簽化數(shù)據集(文本-圖像對)(如 LAION 和 ImageNet)上進行訓練。

視頻數(shù)據則較難獲得。雖然 YouTube 和 TikTok 等平臺不乏可公開觀看的視頻,但這些視頻都沒有標簽,而且可能不夠多樣化(例如貓咪視頻和網紅道歉等內容在數(shù)據集中比例可能過高)。

基于此,a16z認為視頻數(shù)據的“圣杯”可能來自工作室或制作公司,它們擁有從多個角度拍攝的長視頻,并附有腳本和說明。不過,他們是否愿意將這些數(shù)據授權用于訓練,目前還不得而知。

適道認為,除了科技巨頭,長期來看,以國外Netflix、Disney;國內“愛優(yōu)騰”為代表的行業(yè)大佬也不容忽視。這些公司積攢了數(shù)十億條會員評價,熟知觀眾的習慣和需求,擁有數(shù)據壁壘和應用場景。去年1月,Netflix就發(fā)布了一支AI動畫短片《犬與少年(Dog and Boy)》。其中動畫場景的繪制工作由AI完成。對標到國內,AI視頻賽道大概率依然是互聯(lián)網大廠的天下。

其次,用例如何在平臺/模型間細分?

a16z認為,一種模型不能“勝任”所有用例。例如,Midjourney、Ideogram和DALL-E都具有獨特的風格,擅長生成不同類型的圖像。預計視頻模型也會有類似的動態(tài)變化。圍繞這些模式開發(fā)的產品可能會在工作流程方面進一步分化,并服務于不同的終端市場。例如,動畫人物頭像(HeyGen)、視覺特效(Wonder Dynamics)和視頻到視頻( DomoAI)。

適道認為,這些問題最終都會被Sora一舉解決。但對于國內玩家而言,或許也是一個“中間商賺差價”的機會。

第三,誰將支配工作流程?

目前大多數(shù)產品只專注于一種類型的內容,且功能有限。我們經??梢钥吹竭@樣的視頻:先由 Midjourney 做圖,再放進Pika制作動畫,接著在Topaz上放大。然后,創(chuàng)作者將視頻導入 Capcut 或 Kapwing 等編輯平臺,并添加配樂和畫外音(由Suno和ElevenLabs或其他產品生成)。

這個過程顯然不夠“智能”,對于用戶而言,非常希望出現(xiàn)“一鍵生成”式平臺。

據a16z展望,一些新興的生成產品將增加更多的工作流程功能,并擴展到其他類型的內容生成——可以通過訓練自己的模型、利用開源模型或與其他廠商合作來實現(xiàn)。

其一,視頻生成平臺會開始添加一些功能。例如,Pika允許用戶在其網站上對視頻進行放大處理。此外,目前Sora也可以創(chuàng)建完美循環(huán)視頻、動畫靜態(tài)圖像、向前或向后擴展視頻等等,具備了視頻編輯的能力。但編輯效果具體如何,我們還要等開放后的測試。

其二,AI原生編輯平臺已經出現(xiàn),能夠讓用戶 “插入”不同模型,并將這些內容拼湊在一起。

可以預見的是,未來大批內容制作者將同時采用AI和人工生成內容。因此,能夠“絲滑”編輯這兩類內容的產品將大受歡迎。這或許是玩家們的最新機會。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。