文|偲睿洞察 Renee
編輯|孫越
在AI的長河里,從不缺一鳴驚人、一夜成名的技術(shù)。上圖,便是從Sora的示范視頻上截取的,無論是略顯蓬松的貓毛,還是主人被吵醒緊蹙的眉毛,與真實世界里的畫面,別無兩樣。
半個月前,Open AI發(fā)布了首個文生視頻模型Sora,再次讓AI界沸騰——其是第一個能夠根據(jù)人類指令生成長達一分鐘視頻的模型,上一個討論度這么高的產(chǎn)品,還是ChatGPT。
從ChatGPT到Sora,這16個月里,AI界的戰(zhàn)火已從千模大戰(zhàn)的戰(zhàn)場上,蔓延到各個細分應用之中。
對于普通人來說,就是原先你可以問諸如文心一言、訊飛星火等通用大模型各種問題,生成各種文字、圖片答案,現(xiàn)在可以通過文字描述,生成還原度極高的視頻。以下便是OpenAI的示范視頻,提示詞是一架無人機在阿馬爾菲海岸的巖石露頭上環(huán)繞著一座美麗而歷史悠久的教堂······
更令人驚訝的是,以往的視頻模型是多個真實圖片的組合,并不具備理解力,而Sora是“聽懂”人話后,進行視頻的建構(gòu)。
(圖源:Open AI)
我們能看到,在OpenAI Sora 官方介紹頁里,紙飛機有了自我意識,自由翱翔。這或許就是 OpenAI 終極的目標,也將是無數(shù)AI大廠的愿景。
現(xiàn)下,Sora已然敲響戰(zhàn)鼓,百度、字節(jié)等以AI為標簽的大廠們是否會緊跟腳步,以及能不能造出類似模型,是擺在李彥宏、張一鳴們面前的問題。但目前大廠們都在靜默之中,等待著屬于自己的質(zhì)變。
當然,一旦造出來,類Sora模型變現(xiàn)路徑倒是要比ChatGPT“現(xiàn)實”不少。
其可以是抖音、好看視頻等視頻平臺的高效創(chuàng)作工具,也可以制作簡單的特效,給近日爆火的微短劇提供更多題材。更進一步的猜測是,影視作品中大部分特效成本、人力成本都可以省去。
不過,對于國內(nèi)以大模型創(chuàng)業(yè)的企業(yè)來說,又增加了一道坎——還沒把ChatGPT消化掉,又來了個新課題。跟,沒有更多的精力,不跟,沒有熱度有可能涼得更快。
01 Sora到底牛在哪里?
一系列文章、視頻展現(xiàn)效果顯示,Sora的出世意味著細分應用文生視頻模型迎來了iPhone時刻。
事實上,文生視頻并不是新鮮事兒,去年年底,全球AI企業(yè)陸陸續(xù)續(xù)發(fā)布了自己的文生視頻模型。去年11月份,Meta發(fā)布了視頻生成模型 Emu Video。從官方示例中可以看出,其局限于較為簡單的動作。
緊接著,Stability.ai也發(fā)布了開源視頻生成模型 Stable Video Diffusion (SVD),并且也在官方論文中大方承認自己的不足——生成的視頻相對缺少動態(tài)性。
也就是說,生成有高度一致性且有豐富動態(tài)性的視頻,讓視頻內(nèi)容真正地動起來,是去年年底視頻生成領(lǐng)域中的最大挑戰(zhàn)。
在Sora發(fā)布以前表現(xiàn)最好的,莫過于PixelDance。從展示的結(jié)果來看,在基礎(chǔ)模式下(用戶只需要提供一張指導圖片+文本描述),人物動作、臉部表情、相機視角控制、特效動作,Pixeldance都可以很好地完成。
國內(nèi)大廠也同樣是去年年底開始布局。
字節(jié)跳動于去年11月18日推出了文生視頻模型PixelDance,可生成有高度一致性且有豐富動態(tài)性的視頻。阿里緊隨其后也上線了Animate Anyone模型,一張人物照片,再配合骨骼動畫引導,就能生成動畫視頻。
23年末,百度發(fā)布了文生視頻工具“度加剪輯”,據(jù)稱可以一鍵獲取最新熱點、ai生成文案、一鍵生成視頻。同時一大批“應ChatGPT而生”的AI創(chuàng)業(yè)公司也在去年年底參與進來,共同探索AI大模型應用。
而時間來到2024年2月中旬,OpenAI的Sora還是憑借更逼真、流暢的效果,遙遙領(lǐng)先。
為何 Sora 可以一騎絕塵?紅衣大叔周鴻祎給出了答案,大概的意思是,在這之前我們做視頻、做圖用的都是Diffusion,我們可以把視頻看成是多個真實圖片的組合,它并沒有真正掌握這個世界的知識。
但 Sora 能像人一樣理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會出現(xiàn)汽車撞毀坦克的情況。OpenAl 利用它的大語言模型優(yōu)勢,把 LLM 和 Diffusion 結(jié)合起來訓練,讓 Sora 實現(xiàn)了對現(xiàn)實世界的理解和對世界的模擬兩層能力。
自Transformer架構(gòu)引領(lǐng)通用大模型浪潮后,LLM+Diffusion這一新興研究框架或許又會有大批量的追隨者。
開源后跟不跟,不開源搞不搞,成為每個AI廠商面前的難題。
02 誰都能玩得起嗎?
事實上,要不要跟隨Sora這個問題,或許并不再取決于個人/公司意愿,而是一些硬性條件+軟實力。例如,公司還有足夠的芯片嗎?
去年,據(jù)偲睿洞察測算,ChatGPT光是訪問階段就要耗去3萬多個A100,這儼然已是巨頭們的游戲。按照去年一份流傳出的交流紀要顯示,大廠們手握著豐厚的資源——阿里云AI專家提到,阿里云在云上有上萬片的A100,整體能夠達到10萬片,集團體量應該是阿里云的5倍。騰訊云利用H800加速卡打造的大模型算力集群,集群規(guī)模達到了數(shù)千臺服務器。
盡管Sora只是一個視頻模型,但對算力的渴求也不小。目前,訓練端由于暫無明確算法架構(gòu)和訓練詳細數(shù)據(jù)。據(jù)民生證券測算,一個月內(nèi)訓練完Youtube全部新增視頻需要約231片A100??紤]到模型都是經(jīng)過多次訓練得到,算力需求仍有較大程度提高的可能性。而推理端的需求量更是驚人,假設(shè)Sora模型參數(shù)為30億,則對應1846萬個A100需求。
緊接著,第二個致命的問題是,公司有高質(zhì)量的數(shù)據(jù)集嗎?現(xiàn)階段,谷歌、OpenAI等國際大廠們,都在爭搶高質(zhì)量的文本數(shù)據(jù)集。
根據(jù)第一批大模型弄潮兒的經(jīng)驗,若是沒有備足充足的彈藥,很有可能會草草離場。
據(jù)智東西不完全統(tǒng)計,2023年11月-2024年1月,有4家AI大模型創(chuàng)企宣布關(guān)停。在這之中,其中有大廠獨立出來的團隊,有明星產(chǎn)品創(chuàng)始人新成立的公司,也有已經(jīng)走過十余年的“老牌”企業(yè)。有的缺錢、有的缺精準定位,想要玩AI,空有一腔熱血遠遠不夠。
事實上,更致命的問題是,公司有AI天才嗎?
周鴻祎表示,科技競爭最終比拼的是人才密度和深厚積累。這里的人才密度,絕不是說規(guī)模——畢竟OpenAI的Sora團隊只有13個人,應屆博士帶隊,00后參與。
我們不得不佩服OpenAI的勇氣,將“選賢舉能”發(fā)揮得淋漓盡致,除了未知的潛能,年輕人還有一個最大的優(yōu)勢——能熬。據(jù)謝賽寧透露,Sora是Bill他們在OpenAI的嘔心瀝血之作,“雖然不知道細節(jié),但他們每天基本不睡覺高強度工作了一年”。
從以上部分團隊成員背景可以看出,其門檻極高——大部分都是名校博士畢業(yè)+實習/工作經(jīng)驗,有本科學生,不過也要有著創(chuàng)業(yè)經(jīng)歷、多段工作經(jīng)歷。無論是OpenAI公司,還是人才本人,都積累了無數(shù)個量變,為質(zhì)變做準備。
或許,包括OpenAI在內(nèi)的AI公司們,都在等哪個“無名小卒”(要么是MIT、清北級別的學生,要么3-5年創(chuàng)業(yè)、大廠經(jīng)歷,要么是二者的結(jié)合)悟得了AI的真理,一戰(zhàn)成名,成為AI大神。
ChatGPT和Sora告訴我們的是,A100、高質(zhì)量數(shù)據(jù)、AI天才,是新時代的稀缺物資,國內(nèi)大廠尚有欠缺,從零開始的大模型創(chuàng)業(yè)公司們怕是跟不上熱度,也跟不上速度。
03 微短劇,或許是現(xiàn)下大廠高性價比變現(xiàn)方式
在AI各類資源都很有限的情況下,All in AI的大廠們在跟隨之前,必然會考慮投資回報比,也就是Sora能夠極大地改變哪些行業(yè)的模式?同時還和大廠已有業(yè)務密切相關(guān)?
答案,非短視頻行業(yè)莫屬。
對于定位于熱點話題視頻的創(chuàng)作者們,Sora可謂是極大地提高了工作效率。畢竟熱點話題比拼的是時效,大家很難有二創(chuàng)的空間,只要學會了,便能快速拉開差距。目前在國內(nèi),已經(jīng)有電商服務機構(gòu)向帶貨主播推出“AI根據(jù)熱梗自動撰寫視頻腳本”的服務。
而對于一些深度話題,創(chuàng)作者們則可以與AI分工合作。
創(chuàng)作者產(chǎn)出事件/產(chǎn)品的差異化內(nèi)容、確認文章大綱;而AI負責重復勞動的部分,例如展現(xiàn)產(chǎn)品的特性,給文字自動加背景視頻,無需創(chuàng)作者去各大網(wǎng)站搜羅。也就是說,創(chuàng)作者們能夠靠著AI省去不少事,出現(xiàn)更多的“靈光一現(xiàn)”,吸引更多的用戶停留。
在這之中,最大的受益人便是平臺。于是,我們也就不難理解為何2月7日,抖音集團CEO張楠辭去集團CEO一職,把精力聚焦在剪映的發(fā)展上。據(jù)了解過去一年,張楠已經(jīng)把絕大多數(shù)精力傾斜到剪映相關(guān)業(yè)務上,并親自帶隊在AI輔助創(chuàng)作上尋求突破,即將推出一個AI生圖和視頻的產(chǎn)品。
視頻平臺快手必然會在這個方向努力:在去年的那一波卷大模型的浪潮中,快手宣布已組建大模型研發(fā)團隊,推進在搜索、AIGC 輔助生成圖文視頻方面的應用。
百度,也正在跟上節(jié)奏。盡管好看視頻在百度的存在感并不高,但每年都在實打?qū)嵉赝七M該業(yè)務:2020年下半年開始,百度開始一系列大手筆運作。百度先后投資MCN機構(gòu)牧云文化、引入宋健(內(nèi)容生態(tài)平臺總經(jīng)理,年前已離職),以及在11月17日宣布斥資36億美元并購YY中國。
2024年微短劇爆火,百度也在不斷加碼該市場。據(jù)光子星球報道,百度將在上半年完成與微短劇適配的基礎(chǔ)設(shè)施建設(shè),包括創(chuàng)作者生態(tài)、分發(fā)邏輯、用戶運營等,并嘗試跑通變現(xiàn)路徑。
微短劇,或許是百度等類Sora視頻模型的“用武之地”。
相比于大型的影視大作,微短劇的特效制作、內(nèi)容創(chuàng)作各方面門檻都較低,與此同時,類Sora模型能給近日爆火的微短劇提供更多題材范圍,例如科幻等。若是人物細節(jié)逼真,演員的片酬都可能為零,如果分攤成本極低的話,視頻內(nèi)容行業(yè)將很快被洗牌。
百度們亟需推出中國Sora,除了因為新業(yè)務的需要,還需考慮到站位的問題。作為上一個千模大戰(zhàn)的發(fā)起者,百度再次迎來證明自己的時刻。2024年的春天,來得很晚,無論是真實的天氣,還是AI行業(yè)。
去年冬天,研究部門能拿著以往AI積累,趕上大模型的浪潮,市場部門也能借此開大會、與友商們一起打響千模大戰(zhàn)。
今年冬天,研究員們還在加班加點想著怎么把通用大模型落實到千行萬業(yè)時,文生視頻這一細分領(lǐng)域又出現(xiàn)一個勁敵。
永遠在黑暗中前行,永遠有人走得更快,國內(nèi)AI大廠們的黎明,忽近忽遠。不過,離黎明更近的Sora,也需加強常識學習——在完整看完頭圖的原視頻之后發(fā)現(xiàn),女孩的胳膊與手并不在同一個維度。