文|阿爾法工場
在當下的AI賽道上,AI生文、生圖的應用,早已層出不窮,相關的技術,也在不斷日新月異。
而與之相比,AI文生視頻,卻是一個遲遲未被“攻下”的陣地。
抖動、閃現(xiàn)、時長太短,這一系列缺陷,讓AI生成的視頻只能停留在“圖一樂”的層面,很難拿來使用,更不要說提供商業(yè)上的賦能。
直到最近,某個爆火的應用,再次燃起了人們對這一賽道的關注。
關于這個叫做Pika的文生視頻AI,這些天想必大家已經(jīng)了解了很多。
因此,這里不再贅述Pika的各種功能、特點,而是單刀直入地探討一個問題,那就是:
Pika的出現(xiàn),是否意味著AI文生視頻距離人們期望中的理想效果,還有多遠?
01 難題與瓶頸
實事求是地說,目前的AI文生視頻賽道,難度和價值都很大。
而其中最大的難點,莫過于讓畫面變得“抽風”的抖動問題。
關于這一點,任何使用過Gen-2 Runway 等文生視頻AI的人,都會深有體會。
抖動、閃現(xiàn),以及不時出現(xiàn)的畫面突變,讓人們很難獲得一個穩(wěn)定的生成效果。
而這種“鬼畜”現(xiàn)象的背后,其實是幀與幀之間聯(lián)系不緊密導致的。
具體來說,目前AI生成視頻技術,與早期的手繪動畫很相似,都是先繪制很多幀靜止的圖像,之后將這些圖像連接起來,并通過一幀幀圖像的漸變,實現(xiàn)畫面的運動。
但無論是手繪動畫還是AI生成的視頻,首先都需要確定關鍵幀。因為關鍵幀定義了角色或物體在特定時刻的位置和狀態(tài)。
之后,為了讓畫面看起來更流暢,人們需要在這些關鍵幀之間添加一些過渡畫面(也稱為“過渡幀”或“內(nèi)插幀”)。
可問題就在于,在生成這些“過渡幀”時,AI生成的幾十幀圖像,看起來雖然風格差不多,但連起來細節(jié)差異卻非常大,視頻也就容易出現(xiàn)閃爍現(xiàn)象。
這樣的缺陷,也成了AI生成視頻最大的瓶頸之一。
而背后的根本原因,仍舊是所謂的“泛化”問題導致的。
用大白話說,AI的對視頻的學習,依賴于大量的訓練數(shù)據(jù)。如果訓練數(shù)據(jù)中沒有涵蓋某種特定的過渡效果或動作,AI就很難學會如何在生成視頻時應用這些效果。
這種情況,在處理某些復雜場景和動作時,就顯得尤為突出。
除了關鍵幀的問題外,AI生成視頻還面臨著諸多挑戰(zhàn),而這些挑戰(zhàn),與AI生圖這種靜態(tài)的任務相比,難度根本不在一個層面。
例如:動作的連貫性:為了讓視頻看起來自然,AI需要理解動作的內(nèi)在規(guī)律,預測物體和角色在時間線上的運動軌跡。長期依賴和短期依賴:在生成視頻時,一些變化可能在較長的時間范圍內(nèi)發(fā)生(如角色的長期動作),而另一些變化可能在較短的時間范圍內(nèi)發(fā)生(如物體的瞬時運動)。
為了解決這些難點,研究人員采用了各種方法,如使用循環(huán)神經(jīng)網(wǎng)絡(RNN)、長短時記憶網(wǎng)絡(LSTM)和門控循環(huán)單元(GRU)來捕捉時間上的依賴關系等等。
但關鍵在于,目前的AI文生視頻,并沒有形成像LLM那樣統(tǒng)一的,明確的技術范式,關于怎樣生成穩(wěn)定的視頻,業(yè)界其實都還處于探索階段。
02 難而正確的事
AI文生視頻賽道,難度和價值都很大。其價值,就在于其能真切地解決很多行業(yè)的痛點和需求,而不是像現(xiàn)在的很多“套殼”應用那樣,要么錦上添花,要么圈地自萌。
關于這點,可以從“時間”和“空間”兩個維度上,對AI文生視頻的將來的價值空間做一番審視。
從時間維度上來說,判斷一種技術是不是“假風口”、假繁榮,一個最重要的標準,就是看人們對這類技術的未來使用頻率。
根據(jù)月狐iAPP統(tǒng)計的數(shù)據(jù),從2022年Q2到今年6月,在移動互聯(lián)網(wǎng)的所有類別的APP中,短視頻的使用時長占比均高達30%以上,為所有類別中最高。
除了時間這一“縱向”維度外,倘若要在空間維度上,考量一種技術的生命力,最關鍵的指標,就是看其究竟能使多大范圍內(nèi)的群體受益。
因為任何技術想要“活”下來,就必須像生物體那樣,不斷地傳播、擴散自己,并在不同環(huán)境中自我調(diào)整,從而增加多樣性和穩(wěn)定性。
例如在媒體領域,根據(jù)Tubular Labs的《2021年全球視頻指數(shù)報告》,新聞類別的視頻觀看量在2020年同比增長了40%。
同樣地,在電子商務方面,根據(jù)Adobe的一項調(diào)查,大約60%的消費者在購物時更愿意觀看產(chǎn)品視頻,而不是閱讀產(chǎn)品描述。
而在醫(yī)療領域,根據(jù)MarketsandMarkets的報告,全球醫(yī)學動畫市場預計從2020年到2025年將以12.5%的復合年增長率增長。
在金融行業(yè)中,HubSpot的一項研究表明,視頻內(nèi)容在轉(zhuǎn)化率方面表現(xiàn)優(yōu)異。視頻內(nèi)容的轉(zhuǎn)化率比圖文內(nèi)容高出4倍以上。
這樣的需求,表明了從時間、空間這兩個維度上來說,視頻制作領域,都是一個蘊含著巨大增量的“蓄水池”。
然而,要想將這個“蓄水池”的潛力完全釋放出來,卻并不是一件容易的事。
因為在各個行業(yè)中,對于非專業(yè)人士來說,學習如何使用復雜的視頻制作工具(如Adobe Premiere Pro、Final Cut Pro或DaVinci Resolve)可能非常困難。
而對于專業(yè)人士來說,制作視頻還是個耗時的過程。他們得從故事板開始,規(guī)劃整個視頻的內(nèi)容和結(jié)構(gòu),然后進行拍攝、剪輯、調(diào)色等等。有時候,僅僅一分半的廣告視頻,就可能耗時一個月之久。
從這個角度來說,打開了AI文生視頻這條賽道,就相當于疏通了連接在這個蓄水池管道里的“堵塞物”。
在這之后,暗藏的財富之泉,將噴涌而出,為各個行業(yè)帶來新的增量與繁榮。
從這樣的角度來看,文生視頻這條賽道,即使再難,也是正確的,值得的。
03 行業(yè)引領者
賽道既已確定,接下來更重要的,就是判斷在這樣的賽道中,有哪些企業(yè)或團隊會脫穎而出,成為行業(yè)的引領者。
目前,在AI文生視頻這條賽道上,除了之前提到的Pika,其他同類企業(yè)也動作頻繁。
科技巨頭Adobe Systems收購了Rephrase.ai,Meta推出了Emu Video,Stability AI發(fā)布了Stable Video Diffusion,Runway對RunwayML進行了更新。
而就在昨天,AI視頻新秀NeverEnds也推出了最新的2.0版本。
從目前來看,Pika、Emu Video、NeverEnds等應用,已經(jīng)顯示出了不俗的實力,其生成的視頻,已大體上能保持穩(wěn)定,并減少了抖動。
但從長遠來看,要想在AI文生視頻領域持續(xù)保持領先,至少需要具備三個方面的條件:1、強大的算力
在視頻領域,AI對算力的要求,比以往的LLM更甚。
這是因為,視頻數(shù)據(jù)包含的時間維度和空間維度,都要比圖片和文字數(shù)據(jù)更高。同時為了捕捉視頻中的時間動態(tài)信息,視頻模型通常需要具有更復雜的結(jié)構(gòu)。
更復雜的結(jié)構(gòu),就意味著更多的參數(shù),而更多的參數(shù),則意味著所需的算力倍增。
因此,在將來的AI視頻賽道上,算力資源仍舊是一個必須跨過的“硬門檻”。2、跨領域合作
與圖片或文字大模型相比,視頻大模型通常涉及更多的領域,綜合性更強。
其需要整合多種技術,例如來實現(xiàn)高效的視頻分析、生成和處理。包括但不限于:圖像識別、目標檢測、圖像分割、語義理解等。
如果將當前的生成式AI比作一棵樹,那么LLM就是樹的主干,文生圖模型則是主干延伸出的枝葉和花朵,而視頻大模型,則是汲取了各個部位(不同類型數(shù)據(jù))的養(yǎng)分后,結(jié)出的最復雜的果實。
因此,如何通過較強的資源整合能力,進行跨領域的交流、合作,就成了決定團隊創(chuàng)新力的關鍵。3、技術自主性
誠如之前所說,在目前的文生視頻領域,業(yè)界并沒有形成像LLM那樣明確的、統(tǒng)一的技術路線。業(yè)界都在往各種方向嘗試。
而在一個未確定的技術方向上,如何給予一線的技術人員較大的包容度,讓其不斷試錯,探索,就成了打造團隊創(chuàng)新機制的關鍵。
對于這個問題,最好解決辦法,就是讓技術人員親自掛帥,使其具有最大的“技術自主性”。
誠如Pika Labs的創(chuàng)始人Chenlin所說:“如果訓練數(shù)據(jù)集不夠好看,模型學到的人物也不會好看,因此最終你需要一個具有藝術審美修養(yǎng)的人,來選擇數(shù)據(jù)集,把控標注的質(zhì)量。
在各企業(yè)、團隊不斷競爭,行業(yè)新品不斷涌現(xiàn)的情況下,文生視頻AI的爆發(fā)期,就成了一件十分具體的,可以預期的態(tài)勢。
按照Pika Labs創(chuàng)始人Demi的判斷,行業(yè)也許會在明年迎來AI視頻的“GPT時刻”。
盡管技術的發(fā)展,有時并不會以人的意志為轉(zhuǎn)移,但當對一種技術的渴望,成為業(yè)界的共識,并使越來越多的資源向其傾斜時,變革的風暴,就終將會到來。