文|鋅刻度 孟會(huì)緣
編輯|黎文婕
前有《我們一起搖太陽(yáng)》《紅毯先生》等四部影片宣布撤檔,讓春節(jié)檔開啟“撤檔元年”,后有人工智能(AI)巨頭OpenAI發(fā)布首個(gè)文生視頻模型Sora,迎來AI視頻的“GPT時(shí)刻”。這個(gè)龍年春節(jié),奏響了獨(dú)屬于影視從業(yè)者的“冰與火之歌”。
通過Sora生成的視頻,能看到主角、背景人物,都展現(xiàn)了極強(qiáng)的一致性,可以支持60秒一鏡到底,并包含高細(xì)致背景、多角度鏡頭,以及富有情感的多個(gè)角色……即意味著,只需輸入一段文字描述,或許每個(gè)使用Sora技術(shù)的普通人,不用親身上陣痛苦減肥也能當(dāng)上如賈玲這樣的“大導(dǎo)演”。
上一次能如此快速引爆網(wǎng)絡(luò)關(guān)注的還是在2022年11月推出的ChatGPT,而如今,ChatGPT不僅引領(lǐng)了全球大模型的蓬勃發(fā)展,也開始在文本等相關(guān)行業(yè)展現(xiàn)其強(qiáng)大的生產(chǎn)力。作為今年的開年“王炸”,Sora自然被外界廣泛期待著可以承接起ChatGPT的衣缽,改寫視頻等產(chǎn)業(yè)的發(fā)展。
不過,目前60秒的生成視頻還撐不起一部電影,真想實(shí)現(xiàn)自己的“導(dǎo)演夢(mèng)”,還得讓技術(shù)“再飛一會(huì)兒”。
震撼全球的“60秒”
“OpenAI發(fā)布文生視頻模型Sora,AI視頻進(jìn)入大規(guī)模應(yīng)用前夜?!?/p>
“從相關(guān)受益細(xì)分行業(yè)來看,下游應(yīng)用側(cè)包括但不限于視頻美化、廣告營(yíng)銷、短劇、游戲、辦公軟件等?!?/p>
“Sora三大亮點(diǎn)突出,實(shí)現(xiàn)AIGC領(lǐng)域的里程碑式進(jìn)展。”
“AI視頻生成等多模態(tài)模型有望在影視、動(dòng)畫、游戲、音樂等IP開發(fā)中發(fā)揮更大作用,繼續(xù)推動(dòng)IP開發(fā)降本增效,帶來增量變現(xiàn)空間,并拉動(dòng)算力需求。”
……
自16日凌晨發(fā)布以來,不過短短幾天時(shí)間就有超過14家券商發(fā)布逾19份相關(guān)研報(bào),均對(duì)Sora給予了極高評(píng)價(jià)。
同樣對(duì)Sora的出現(xiàn)飽含驚嘆的還有不少科技圈名人。
針對(duì)網(wǎng)友“貝夫?杰索斯”在社交平臺(tái)上轉(zhuǎn)發(fā)的一段Sora演示視頻,配文聲稱“gg Pixar”,馬斯克在這條推文下方表示,“gg humans”(gg是網(wǎng)絡(luò)游戲的用語(yǔ)之一,原指游戲結(jié)束時(shí)玩家互相致意,后引申為“游戲結(jié)束”),并借此盛贊,“在未來的幾年里,人類借助 AI 的力量,將創(chuàng)造出卓越的作品?!?/p>
360公司董事長(zhǎng)周鴻祎在朋友圈發(fā)文稱,“一旦AI能夠接上攝像頭,觀看并理解世界上所有的電影,它對(duì)世界的理解能力將遠(yuǎn)遠(yuǎn)超過僅僅通過文字學(xué)習(xí)所能達(dá)到的水平。在這種情況下,實(shí)現(xiàn)通用人工智能不再是遙不可及的夢(mèng)想。”
前阿里巴巴副總裁,Lepton AI公司創(chuàng)始人賈揚(yáng)清則直接評(píng)價(jià)Sora“真的非常?!保硎?,“Sora的問世可能會(huì)給對(duì)作OpenAI的公司帶來一波被大廠FOMO(害怕錯(cuò)過機(jī)會(huì)而導(dǎo)致的收購(gòu))收購(gòu)的機(jī)會(huì)?!?/p>
關(guān)鍵是,Sora為什么會(huì)被業(yè)界廣泛視作影視行業(yè)的領(lǐng)航技術(shù)?
其實(shí)在Sora出現(xiàn)之前,類似的AI視頻模型也有:谷歌在去年12月21日發(fā)布一個(gè)全新的視頻生成模型VideoPoet,能夠執(zhí)行包括文本到視頻、圖像到視頻、視頻風(fēng)格化等操作;Meta發(fā)布的Emu Video,能夠基于文本和圖像輸入生成視頻剪輯;Runway的Gen2具有Motion Brush動(dòng)態(tài)筆刷功能,只需要在圖像中的任意位置一刷,就能使圖像中靜止的物體動(dòng)起來;Stable AI推出Stable Video Diffusion,可以根據(jù)圖像自動(dòng)生成高品質(zhì)的視頻剪輯;此前一夜爆紅的文生視頻軟件Pika,更是掀起了AI視頻的應(yīng)用熱潮。
但就像OpenAI的技術(shù)報(bào)告所說的那樣,“Sora能夠深刻地理解運(yùn)動(dòng)中的物理世界,堪稱為真正的「世界模型」”。
Sora有別于上述AI視頻模型的優(yōu)勢(shì)在于,既能準(zhǔn)確呈現(xiàn)細(xì)節(jié),又能理解物體在物理世界中的存在,并生成具有豐富情感的角色,甚至該模型還可以根據(jù)提示、靜止圖像甚至填補(bǔ)現(xiàn)有視頻中的缺失幀來生成視頻。
新京報(bào)的實(shí)測(cè)對(duì)比結(jié)果顯示,在相同的提示詞下,Pika僅能生成3秒的視頻,Gen-2video則可以生成4秒的視頻,Sora生成的視頻時(shí)間最多可達(dá)1分鐘。在內(nèi)容方面,無(wú)論是Pika還是Gen-2video都難以始終保持同一人物的連貫性,而Sora不僅體現(xiàn)了提示詞中的全部細(xì)節(jié),而且還很好地保持了人物的連貫性,使得該視頻幾乎可以“以假亂真”。
新王上位,誰(shuí)在蠢蠢欲動(dòng)
眼看Sora“高開瘋走”的勢(shì)頭如此明顯,其競(jìng)爭(zhēng)對(duì)手也坐不住了。
在Sora出現(xiàn)之前,AI生成視頻的默認(rèn)選擇是Runway,尤其是自去年11月推出第二代模型Gen-2以來,不僅解決了第一代AI生成視頻中每幀之間連貫性過低的問題,在從圖像生成視頻的過程中也能給出很好的結(jié)果,因此還被稱為“AI視頻界的MidJourney”。
但在Sora發(fā)布后,Runway的CEO克里斯托瓦爾·巴倫蘇埃拉只在X平臺(tái)上給出了一個(gè)簡(jiǎn)短的宣言:“Game On(比賽開始了)?!?/p>
國(guó)內(nèi)針對(duì)AI視頻相關(guān)研發(fā)和布局多模態(tài)大模型的企業(yè),追趕前沿技術(shù)的腳步同樣不曾停歇。
據(jù)不完全統(tǒng)計(jì),包括萬(wàn)興科技、博匯科技、當(dāng)虹科技、易點(diǎn)天下、數(shù)碼視訊、漢王科技、神思電子、東方國(guó)信、因賽集團(tuán)、拓爾思、國(guó)脈文化、佳都科技在內(nèi)的超10家A股上市公司近三個(gè)月以來在互動(dòng)平臺(tái)披露視頻生成模型領(lǐng)域的業(yè)務(wù)情況。
其中,易點(diǎn)天下在2月4日在投資者互動(dòng)平臺(tái)表示,公司旗下AIGC創(chuàng)作平臺(tái)KreadoAI可以幫助企業(yè)實(shí)現(xiàn)從腳本撰寫、語(yǔ)音克隆、個(gè)性化數(shù)字人選擇到輸出口播視頻的內(nèi)容生產(chǎn)AI化全鏈路閉環(huán)。
萬(wàn)興科技2月2日在互動(dòng)平臺(tái)表示,其視頻創(chuàng)意產(chǎn)品萬(wàn)興喵影/Filmora可用于各類視頻的創(chuàng)作和剪輯,“天幕”大模型是以視頻創(chuàng)意類AI技術(shù)為核心的多媒體大模型涵蓋音頻、圖像、視頻等多模態(tài)能力。
當(dāng)虹科技1月5日在互動(dòng)平臺(tái)表示,公司擁有自研的AIGC工具集,發(fā)布了以靜態(tài)照片生成三維體積視頻的方案,并且通過點(diǎn)云模型轉(zhuǎn)換及壓縮算法實(shí)現(xiàn)高達(dá)800倍的視覺無(wú)損壓縮,實(shí)現(xiàn)不同模態(tài)之間相互切換。
更甚至于,自2023年下半年以來,國(guó)內(nèi)科技巨頭在多模態(tài)AI上投入的不少資源已經(jīng)取得了實(shí)質(zhì)性進(jìn)展,如阿里巴巴的Animate Anyone和字節(jié)跳動(dòng)的Magic Animate,都是圖片轉(zhuǎn)視頻技術(shù)的落地應(yīng)用??梢?,得益于全球生成式AI技術(shù)的持續(xù)發(fā)展,不僅是來自視頻生成模型領(lǐng)域的企業(yè)在積極“備戰(zhàn)”,包括文生圖、視頻、音樂、代碼等多方面應(yīng)用的迭代更新,還有望長(zhǎng)期給更多相關(guān)行業(yè)帶來“革命”發(fā)展的機(jī)會(huì)——以全球視角來看,算力產(chǎn)業(yè)鏈從上游硬件、中游服務(wù)器/交換機(jī)、下游應(yīng)用側(cè)閉環(huán)現(xiàn)愈發(fā)清晰,從云側(cè)到端側(cè)、從硬件到軟件均呈現(xiàn)生機(jī)勃勃之景。
這也意味著,從全球算力產(chǎn)業(yè)鏈核心廠商,到端側(cè)AI相關(guān)企業(yè),再到國(guó)產(chǎn)化算力公司(包括AI服務(wù)器零部件、服務(wù)器整機(jī)、算力租賃、數(shù)據(jù)中心等環(huán)節(jié))的整個(gè)輻射范圍,均是以Sora的出現(xiàn)為契機(jī),開啟屬于自己的爆發(fā)式更新,更為實(shí)現(xiàn)普通人的“導(dǎo)演夢(mèng)”打下了堅(jiān)實(shí)的技術(shù)基礎(chǔ)。
下個(gè)春節(jié)檔,也許人人皆導(dǎo)演
“人人都能當(dāng)導(dǎo)演的日子臨近了?!闭缫晃痪W(wǎng)友的發(fā)言,用戶的期待永遠(yuǎn)比技術(shù)落地的腳步更快一些。
盡管Sora發(fā)布的視頻中時(shí)間最長(zhǎng)的只有一分鐘,但業(yè)內(nèi)人士預(yù)測(cè),按照OpenAI的迭代速度,生產(chǎn)出幾十分鐘的AI視頻也不遠(yuǎn)了,“未來數(shù)年內(nèi),將對(duì)整個(gè)影視制作和短視頻行業(yè)帶來顛覆性沖擊,元宇宙的高光時(shí)刻也會(huì)越來越近?!?/p>
不過Sora所生成的視頻內(nèi)容在網(wǎng)絡(luò)上爆火的同時(shí),也有不少人發(fā)現(xiàn)了其中的不足之處:雖然在視頻畫質(zhì)、細(xì)節(jié)、光影和色彩等方面表現(xiàn)出色,但在涉及鏡頭運(yùn)動(dòng)角度和更精細(xì)內(nèi)容調(diào)控方面仍稍遜一籌,如一分鐘的東京街頭女郎漫步場(chǎng)景中,女郎走路過程中存在腿部變形、腿部交叉換位時(shí)錯(cuò)亂等錯(cuò)誤。
對(duì)此,Perplexity AI的首席執(zhí)行官表示,“Sora雖然令人驚嘆,但還沒有準(zhǔn)備好對(duì)物理進(jìn)行準(zhǔn)確的建模。并且Sora的作者非常機(jī)智,在博客的技術(shù)報(bào)告部分提到了這一點(diǎn),比如打碎的玻璃無(wú)法很好地建模?!?/p>
而針對(duì)目前Sora存在的不成熟之處,OpenAI方面也表示承認(rèn)并正在積極改進(jìn),還稱其將繼續(xù)努力提升Sora的性能和精度,以期在未來為影視行業(yè)帶來更多創(chuàng)新和突破。
實(shí)際上,基于目前Sora已經(jīng)展現(xiàn)出來的技術(shù)特點(diǎn),不少影視從業(yè)者認(rèn)為,要應(yīng)用到影視行業(yè)制作上,AI生成視頻技術(shù)至少要做到能對(duì)細(xì)節(jié)之處隨時(shí)調(diào)整,并且生成的視頻具有一定穩(wěn)定性,不能有變化,顯然Sora目前的精細(xì)度還達(dá)不到這樣的要求,但將其用于前期開發(fā)(尤其是概念設(shè)計(jì))已經(jīng)夠用,甚至基于當(dāng)下高昂的人工制作成本,如果未來Sora的技術(shù)迭代能達(dá)到投入影視行業(yè)商業(yè)應(yīng)用階段,其發(fā)展空間之大也是可以預(yù)見的。
Sora距離用戶期待的樣子似乎只需經(jīng)過一段時(shí)間的等待,但需要注意的是,從實(shí)際情況來看,AI視頻技術(shù)落地還充滿了不確定性,尤其是從技術(shù)的復(fù)雜性到倫理及版權(quán)問題上。
中國(guó)社會(huì)科學(xué)院法學(xué)研究所副研究員唐林垚認(rèn)為,AI生成視頻帶來的挑戰(zhàn)包括但不限于如何有效區(qū)分真實(shí)和虛假內(nèi)容,以及如何確保人工智能作品不被用于誤導(dǎo)公眾或其他非法目的;更進(jìn)一步的法治挑戰(zhàn)在于,如何平衡強(qiáng)監(jiān)管與行業(yè)發(fā)展之間的張力。
對(duì)于視頻生成技術(shù)的濫用以及AI模型的透明度和可解釋性,業(yè)界仍在尋求答案和解決方案。而當(dāng)下,我們能做的也只是讓技術(shù)“再飛一會(huì)兒”。