正在閱讀:

快手可靈,把壓力給到了抖音剪映

掃一掃下載界面新聞APP

快手可靈,把壓力給到了抖音剪映

?視頻生成大模型會(huì)是下一個(gè)競爭高地嗎?

圖片來源:界面新聞 匡達(dá)

 

文|藍(lán)洞商業(yè) 趙衛(wèi)衛(wèi)

快手自研視頻生成大模型「可靈」上線后,截至目前,申請(qǐng)使用的預(yù)約人數(shù)已經(jīng)超過 6.5 萬。一時(shí)間,引發(fā)行業(yè)轟動(dòng)。

原因很簡單,OpenAI 的文生視頻 Sora 發(fā)布后,一直處于內(nèi)測狀態(tài),外界無緣得以使用;而快手「可靈」發(fā)布即測試,通過快手旗下創(chuàng)作工具快影 App,用戶可以直接申請(qǐng)公測,通過后可生成 2 分鐘左右、分辨率為 1080p 的文生視頻,視覺效果并不弱于 OpenAI 的 Sora。

文生視頻需要耗費(fèi)巨大的算力資源,對(duì)模型的能力維度要求更高,是國內(nèi)大模型廠商尚未充分競爭的領(lǐng)地。讓人意外的是,快手「可靈」成為國產(chǎn)大模型中最先「交卷」的一家,早于字節(jié)。

但快手這種領(lǐng)先優(yōu)勢(shì)并不會(huì)維持太久,「字節(jié)跳動(dòng)的視頻生成大模型也在內(nèi)測中,估計(jì)很快(發(fā)布)了。」行業(yè)知情人士透露,預(yù)計(jì)跟快手類似,字節(jié)旗下視頻生成大模型也將通過旗下創(chuàng)作工具剪映最先上線。

此外,就在「可靈」上線一周后的 6 月 13 日,Luma AI 發(fā)布最新文生視頻模型 Dream Machine,向所有用戶免費(fèi)開放使用,其效率可以達(dá)到每 120 秒就能生成 120 幀畫面,還能快速生成 5 秒鐘的電影級(jí)別視覺效果的視頻片段,此外,Luma的模型超越快手可靈的地方,還有豐富的美學(xué)風(fēng)格選項(xiàng)。

更多競爭的對(duì)手正在趕來的路上。「6月底之前,大模型廠商都會(huì)不斷放出 Sora 類模型產(chǎn)品,文生視頻和圖生視頻大模型將遍地開花。」大模型行業(yè)分析人士認(rèn)為,此前各家大模型廠商都具備了視頻生成能力,只是礙于算力成本以及視頻效果尚未全面優(yōu)化,所以并未全面鋪開。

大模型之戰(zhàn),從技術(shù)卷到應(yīng)用,從百模大戰(zhàn)卷到價(jià)格戰(zhàn),視頻生成大模型會(huì)是下一個(gè)競爭高地嗎?答案正在揭曉。

彎道超車字節(jié)?

「可靈的效果是目前中國 Sora 類的第一,非常意外的是來自快手團(tuán)隊(duì)?!剐袠I(yè)分析人士認(rèn)為。

快手自研視頻生成大模型「可靈」上線后,讓外界意外的,一方面是視頻生成的效果可以比肩 Sora;另外一方面是其來自快手團(tuán)隊(duì)。因?yàn)?,在此前的大模型競爭中,快手并不是引人關(guān)注的第一梯隊(duì)成員??焓执饲鞍l(fā)布通用大語言模型「快意」、文生圖大模型產(chǎn)品「可圖」,影響范圍都很有限,直到如今的「可靈」。

從快手「可靈」公布的數(shù)據(jù)看,中國版 Sora 確實(shí)是其對(duì)標(biāo)的目標(biāo)。

從技術(shù)路線上看,快手「可靈」采用的是跟 Sora 雷同的 DiT 架構(gòu),用 Transformer 代替了傳統(tǒng)擴(kuò)散模型中基于卷積網(wǎng)絡(luò)的 U-Net??焓执竽P蛨F(tuán)隊(duì)還自研了一款 3D 時(shí)空聯(lián)合注意力模塊和 3D VAE 網(wǎng)絡(luò),以實(shí)現(xiàn)更好的時(shí)空運(yùn)動(dòng)建模與更高效的隱空間編/解碼。

而從「可靈」的官方網(wǎng)站上,可以一目了然其產(chǎn)品賣點(diǎn)。

最引人注意的是,可靈支持生成長達(dá) 2 分鐘的 30 幀視頻,分辨率最高 1080p,自由定制寬高比,這一點(diǎn)遠(yuǎn)超 Sora 和國內(nèi)大模型廠商。而在生成視頻的效果上,可靈強(qiáng)調(diào)自己的能力包括生成大幅度的合理運(yùn)動(dòng)、模擬物理世界特性、具備概念組合能力和想象力這三大優(yōu)勢(shì)。

而從傳播上,「可靈」也區(qū)別于以往國內(nèi)大模型的發(fā)布,最先從國外社交媒體上引起關(guān)注,然后在國內(nèi)熱度升高,實(shí)現(xiàn)了「出口轉(zhuǎn)內(nèi)銷」或者「墻內(nèi)開花墻外香」的特點(diǎn)。

在推特上,對(duì)「可靈」的使用評(píng)價(jià)和評(píng)測非常廣泛。

「感覺大家也別等 Sora 這種又貴又費(fèi)時(shí)的工業(yè)級(jí) AI 了,先可靈免費(fèi)用起來??焓诌@次真是讓人驚喜?!?/p>

「與國外的 Sora 視頻生成大模型相比,中國大模型開發(fā)者更理解本土文化,大模型生成的內(nèi)容也更能滿足本土用戶的需求?!?/p>

「下午充了一個(gè)快影的年費(fèi)會(huì)員,好像就跳過了快手可靈的排隊(duì),直接可以通過更改 prompt 生成視頻了,效果很驚艷呀。生成一個(gè)視頻的時(shí)間,在 VIP 會(huì)員下,大概需要 3 分鐘。」

正是靠著國外社交媒體的熱度,「可靈」的熱度水漲船高。發(fā)布一周之后,快手才正式在官方公眾號(hào)上推薦這款產(chǎn)品,標(biāo)題為「今天你‘可靈’了嗎?」

事實(shí)上,騰訊和字節(jié)等互聯(lián)網(wǎng)公司,同樣擁有視頻生成大模型,只是尚未完全公測或者效果不盡人意。字節(jié)跳動(dòng)剪映旗下的產(chǎn)品「即夢(mèng)」就具備短視頻生成功能,可以選擇運(yùn)鏡類型、視頻比例和運(yùn)動(dòng)速度,生成 3-6 秒的視頻,但在視頻呈現(xiàn)效果和時(shí)間長度上,并沒有展示出比肩 Sora 的優(yōu)勢(shì)。

這也更凸顯了快手「可靈」令人驚訝的優(yōu)勢(shì),因?yàn)樾袠I(yè)一直認(rèn)為要對(duì)模型訓(xùn)練做扎實(shí),本質(zhì)上不存在彎道超車,如果基礎(chǔ)模型做不好,文生文和文生圖都做不好,何談文生視頻。但意外就在于,快手的視頻大模型奇襲成功了。

可靈背后的人

誰才是「可靈」背后的決定性人物?這可能是一個(gè)人才流動(dòng)前仆后繼的故事。

就在快手「可靈」正式發(fā)布的前幾天,快手專家研究員王鑫濤對(duì)外做過一個(gè)《視頻生成的初探及其可控性研究》學(xué)術(shù)分享,這被認(rèn)為是快手內(nèi)部對(duì)「可靈」大模型技術(shù)層面的思考,相關(guān) PPT 也很快流傳出來成為大模型行業(yè)研究的資料。

「可靈」發(fā)布之后,王鑫濤又出現(xiàn)在深圳的一次人工智能學(xué)術(shù)分享會(huì)中,王鑫濤提到在追趕 Sora 的過程中,面臨的核心挑戰(zhàn)在于,如何實(shí)現(xiàn)在長視頻和長鏡頭中學(xué)習(xí)到物理規(guī)律,從而確保生成的視頻具有高度的物理一致性。

因而這是王鑫濤認(rèn)為最值得深入研究的問題,「傳統(tǒng)上,AI 生成的視頻往往局限于單一鏡頭,缺乏復(fù)雜場景下的連貫性和真實(shí)感。然而,Sora 卻能在復(fù)雜的長視頻中實(shí)現(xiàn)鏡頭的流暢切換,同時(shí)保持強(qiáng)大的三維、時(shí)序和物理一致性?!?/p>

事實(shí)上,王鑫濤入職快手的時(shí)間并不長,目前是快手視覺生成與互動(dòng)中心的高級(jí)研究員,隸屬于快手多模型與 AIGC 部門,負(fù)責(zé)視覺內(nèi)容生成方面的研究。公開資料顯示,去年他還是騰訊 AI 實(shí)驗(yàn)室的高級(jí)研究員,領(lǐng)導(dǎo)了視覺內(nèi)容生成 (AIGC)方面的工作。

可以說,快手「可靈」奇襲的背后,離不開王鑫濤這樣的騰訊前 AI 力量的貢獻(xiàn)。

此前騰訊混元開源混元大模型時(shí),就已經(jīng)公開其具備文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力,已經(jīng)支持 16s 視頻生成。當(dāng)時(shí)混元大模型文生圖負(fù)責(zé)人蘆清林就提到,不同模態(tài)之間的對(duì)齊是難點(diǎn)之一,混元想做視頻和音頻的同時(shí)生成,但要解決二者用一個(gè)模型輸出的對(duì)齊有很大混淆。

而另外一方面,「可靈」出圈的背后,也意味著昔日快手 AI 團(tuán)隊(duì)成員的某種失落。

前快手技術(shù)副總裁王仲遠(yuǎn),如今已經(jīng)是北京智源人工智能研究院院長。去年 12月,快手組織架構(gòu)大調(diào)整中,主站、電商與商業(yè)化三個(gè)事業(yè)部下屬都擁抱了變化,而負(fù)責(zé) AI 業(yè)務(wù)的王仲遠(yuǎn)不再擔(dān)任任何職務(wù)。

僅僅半年前,王仲遠(yuǎn)作為快手 AI &用戶增長業(yè)務(wù)負(fù)責(zé)人,在快手創(chuàng)作者大會(huì)上首次公布了快手 AIGC 的進(jìn)展,其核心旨在提升短視頻內(nèi)容的創(chuàng)作力和生產(chǎn)力。當(dāng)時(shí)快手已經(jīng)開放了「可圖」大模型產(chǎn)品,支持文生圖和圖生圖兩類功能,已上線 20 余種 AI 圖像玩法。

整個(gè) 2023 年,是快手缺少 CTO 的一年,也是快手大模型組建團(tuán)隊(duì)和業(yè)務(wù)的落地之年。從組織架構(gòu)上看,快手大模型團(tuán)隊(duì)隸屬于快手社區(qū)科學(xué)線,而業(yè)務(wù)包含大語言模型、文生圖大模型、視頻生成大模型等多個(gè)方向,但大語言模型和文生圖模型相比同行都乏善可陳。

中國版的 Sora 肯定也是王仲遠(yuǎn)的期待之一,只是不知道他如何看待「可靈」。

離開快手之后,王仲遠(yuǎn)代表智源研究院對(duì)外接受過采訪,談及 AGI(通用人工智能)正在加速到來,過去他覺得實(shí)現(xiàn)科幻片里超級(jí)人工智能的場景還有四五十年,現(xiàn)在他感覺可能再用四五年 AGI 就會(huì)誕生。

「Sora 的出現(xiàn)也是一個(gè)劃時(shí)代的時(shí)刻,它真正的價(jià)值不是文字生成精美的視頻,而是說明大模型可能具備了理解三維世界的能力。換句話說,Sora 初步展現(xiàn)了世界模型上的 scaling law(規(guī)模法則)?!雇踔龠h(yuǎn)認(rèn)為。

第一能維持多久?

當(dāng)下的快手「可靈」備受好評(píng),但國內(nèi) Sora 第一的位置能維持多久?

「可靈」唯一的使用渠道就是快手創(chuàng)作工具快影 App,但快影 App 的下載數(shù)據(jù)并沒有太大的波動(dòng)。根據(jù)七麥數(shù)據(jù),App Store 近七日日均下載量仍舊維持在 2 萬左右,在應(yīng)用(免費(fèi))和攝影與錄像(免費(fèi))榜單上的排名依然保持穩(wěn)定,并沒有太大的變化曲線。

從商業(yè)路徑上看,目前「可靈」吸引的更多還是 C 端消費(fèi)者。相比文生圖和文生文等模型在廣告等領(lǐng)域已經(jīng)有廣泛的使用場景,文生視頻大模型的使用場景依然有限,所以策略往往先服務(wù)于內(nèi)容生產(chǎn)者,不斷擴(kuò)展消費(fèi)端的使用場景,最終吸引 B 端客戶和商家付費(fèi)使用。

更重要的是,國內(nèi) Sora 第一的競爭對(duì)手正在趕來的路上。

一方面是國內(nèi)市場,根據(jù)消息人士透露,字節(jié)跳動(dòng)旗下視頻生成大模型也在內(nèi)測中,估計(jì)很快發(fā)布,也將依靠旗下創(chuàng)作工具剪映上線。對(duì)剪映來說,此前已經(jīng)上線的「即夢(mèng)」已經(jīng)實(shí)現(xiàn)了文生視頻大模型的相應(yīng)功能,只是目前這部分功能優(yōu)化程度不足而已。

而變化更快的是國際市場,就在 6月 13 日,Luma AI 首發(fā)了自己的視頻生成模型 Dream Machine,用戶可以通過文字或圖片生成高質(zhì)量的高清視頻,比快手「可靈」更進(jìn)一步的是,Luma 實(shí)現(xiàn)了免費(fèi)全量開放,登錄即用并不用預(yù)約等待。

但與快手「可靈」面臨的問題一樣,Luma AI 也面臨算力不足的問題,使用時(shí)需要長時(shí)間等待,等待結(jié)果也有可能是生成內(nèi)容失敗,所以算力是制約文生視頻大模型最大的瓶頸。

大模型行業(yè)此前公開過相關(guān)數(shù)據(jù),大模型要實(shí)現(xiàn) Sora 類似的水平,就需要有千卡級(jí)別的算力,進(jìn)一步優(yōu)化能力則需要萬卡級(jí)別的算力,這意味著大規(guī)模算力集群的調(diào)動(dòng)能力,不論是使用英偉達(dá)的旗艦 GPU 芯片,還是華為昇騰的國產(chǎn) AI 芯片。

大模型競爭依然處于初期,AI 大模型本身對(duì)云服務(wù)來說是錦上添花,如何把應(yīng)用落地做好,把成本最低,依然是當(dāng)下大模型行業(yè)面臨的共同命題。

相比于字節(jié)跳動(dòng)的大模型策略,快手在大模型上的策略僅僅有「可靈」依然是不夠的。字節(jié)跳動(dòng)豆包大模型最明顯的策略和標(biāo)簽就是成本低,通過價(jià)格戰(zhàn)大幅降低模型推理的單位成本,吸引 B 端客戶進(jìn)入火山引擎的云服務(wù)之中。如果字節(jié)跳動(dòng)發(fā)布視頻生成大模型,那一定是實(shí)現(xiàn)了成本更低的一條路。

無論如何,追趕 Sora,已經(jīng)成為大模型行業(yè)在 2024 年的主要共識(shí)和任務(wù)之一,快手要穩(wěn)住國內(nèi) Sora 第一的位置,還要面臨殘酷的考驗(yàn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

快手可靈,把壓力給到了抖音剪映

?視頻生成大模型會(huì)是下一個(gè)競爭高地嗎?

圖片來源:界面新聞 匡達(dá)

 

文|藍(lán)洞商業(yè) 趙衛(wèi)衛(wèi)

快手自研視頻生成大模型「可靈」上線后,截至目前,申請(qǐng)使用的預(yù)約人數(shù)已經(jīng)超過 6.5 萬。一時(shí)間,引發(fā)行業(yè)轟動(dòng)。

原因很簡單,OpenAI 的文生視頻 Sora 發(fā)布后,一直處于內(nèi)測狀態(tài),外界無緣得以使用;而快手「可靈」發(fā)布即測試,通過快手旗下創(chuàng)作工具快影 App,用戶可以直接申請(qǐng)公測,通過后可生成 2 分鐘左右、分辨率為 1080p 的文生視頻,視覺效果并不弱于 OpenAI 的 Sora。

文生視頻需要耗費(fèi)巨大的算力資源,對(duì)模型的能力維度要求更高,是國內(nèi)大模型廠商尚未充分競爭的領(lǐng)地。讓人意外的是,快手「可靈」成為國產(chǎn)大模型中最先「交卷」的一家,早于字節(jié)。

但快手這種領(lǐng)先優(yōu)勢(shì)并不會(huì)維持太久,「字節(jié)跳動(dòng)的視頻生成大模型也在內(nèi)測中,估計(jì)很快(發(fā)布)了?!剐袠I(yè)知情人士透露,預(yù)計(jì)跟快手類似,字節(jié)旗下視頻生成大模型也將通過旗下創(chuàng)作工具剪映最先上線。

此外,就在「可靈」上線一周后的 6 月 13 日,Luma AI 發(fā)布最新文生視頻模型 Dream Machine,向所有用戶免費(fèi)開放使用,其效率可以達(dá)到每 120 秒就能生成 120 幀畫面,還能快速生成 5 秒鐘的電影級(jí)別視覺效果的視頻片段,此外,Luma的模型超越快手可靈的地方,還有豐富的美學(xué)風(fēng)格選項(xiàng)。

更多競爭的對(duì)手正在趕來的路上?!?月底之前,大模型廠商都會(huì)不斷放出 Sora 類模型產(chǎn)品,文生視頻和圖生視頻大模型將遍地開花?!勾竽P托袠I(yè)分析人士認(rèn)為,此前各家大模型廠商都具備了視頻生成能力,只是礙于算力成本以及視頻效果尚未全面優(yōu)化,所以并未全面鋪開。

大模型之戰(zhàn),從技術(shù)卷到應(yīng)用,從百模大戰(zhàn)卷到價(jià)格戰(zhàn),視頻生成大模型會(huì)是下一個(gè)競爭高地嗎?答案正在揭曉。

彎道超車字節(jié)?

「可靈的效果是目前中國 Sora 類的第一,非常意外的是來自快手團(tuán)隊(duì)?!剐袠I(yè)分析人士認(rèn)為。

快手自研視頻生成大模型「可靈」上線后,讓外界意外的,一方面是視頻生成的效果可以比肩 Sora;另外一方面是其來自快手團(tuán)隊(duì)。因?yàn)?,在此前的大模型競爭中,快手并不是引人關(guān)注的第一梯隊(duì)成員??焓执饲鞍l(fā)布通用大語言模型「快意」、文生圖大模型產(chǎn)品「可圖」,影響范圍都很有限,直到如今的「可靈」。

從快手「可靈」公布的數(shù)據(jù)看,中國版 Sora 確實(shí)是其對(duì)標(biāo)的目標(biāo)。

從技術(shù)路線上看,快手「可靈」采用的是跟 Sora 雷同的 DiT 架構(gòu),用 Transformer 代替了傳統(tǒng)擴(kuò)散模型中基于卷積網(wǎng)絡(luò)的 U-Net??焓执竽P蛨F(tuán)隊(duì)還自研了一款 3D 時(shí)空聯(lián)合注意力模塊和 3D VAE 網(wǎng)絡(luò),以實(shí)現(xiàn)更好的時(shí)空運(yùn)動(dòng)建模與更高效的隱空間編/解碼。

而從「可靈」的官方網(wǎng)站上,可以一目了然其產(chǎn)品賣點(diǎn)。

最引人注意的是,可靈支持生成長達(dá) 2 分鐘的 30 幀視頻,分辨率最高 1080p,自由定制寬高比,這一點(diǎn)遠(yuǎn)超 Sora 和國內(nèi)大模型廠商。而在生成視頻的效果上,可靈強(qiáng)調(diào)自己的能力包括生成大幅度的合理運(yùn)動(dòng)、模擬物理世界特性、具備概念組合能力和想象力這三大優(yōu)勢(shì)。

而從傳播上,「可靈」也區(qū)別于以往國內(nèi)大模型的發(fā)布,最先從國外社交媒體上引起關(guān)注,然后在國內(nèi)熱度升高,實(shí)現(xiàn)了「出口轉(zhuǎn)內(nèi)銷」或者「墻內(nèi)開花墻外香」的特點(diǎn)。

在推特上,對(duì)「可靈」的使用評(píng)價(jià)和評(píng)測非常廣泛。

「感覺大家也別等 Sora 這種又貴又費(fèi)時(shí)的工業(yè)級(jí) AI 了,先可靈免費(fèi)用起來??焓诌@次真是讓人驚喜?!?/p>

「與國外的 Sora 視頻生成大模型相比,中國大模型開發(fā)者更理解本土文化,大模型生成的內(nèi)容也更能滿足本土用戶的需求?!?/p>

「下午充了一個(gè)快影的年費(fèi)會(huì)員,好像就跳過了快手可靈的排隊(duì),直接可以通過更改 prompt 生成視頻了,效果很驚艷呀。生成一個(gè)視頻的時(shí)間,在 VIP 會(huì)員下,大概需要 3 分鐘?!?/p>

正是靠著國外社交媒體的熱度,「可靈」的熱度水漲船高。發(fā)布一周之后,快手才正式在官方公眾號(hào)上推薦這款產(chǎn)品,標(biāo)題為「今天你‘可靈’了嗎?」

事實(shí)上,騰訊和字節(jié)等互聯(lián)網(wǎng)公司,同樣擁有視頻生成大模型,只是尚未完全公測或者效果不盡人意。字節(jié)跳動(dòng)剪映旗下的產(chǎn)品「即夢(mèng)」就具備短視頻生成功能,可以選擇運(yùn)鏡類型、視頻比例和運(yùn)動(dòng)速度,生成 3-6 秒的視頻,但在視頻呈現(xiàn)效果和時(shí)間長度上,并沒有展示出比肩 Sora 的優(yōu)勢(shì)。

這也更凸顯了快手「可靈」令人驚訝的優(yōu)勢(shì),因?yàn)樾袠I(yè)一直認(rèn)為要對(duì)模型訓(xùn)練做扎實(shí),本質(zhì)上不存在彎道超車,如果基礎(chǔ)模型做不好,文生文和文生圖都做不好,何談文生視頻。但意外就在于,快手的視頻大模型奇襲成功了。

可靈背后的人

誰才是「可靈」背后的決定性人物?這可能是一個(gè)人才流動(dòng)前仆后繼的故事。

就在快手「可靈」正式發(fā)布的前幾天,快手專家研究員王鑫濤對(duì)外做過一個(gè)《視頻生成的初探及其可控性研究》學(xué)術(shù)分享,這被認(rèn)為是快手內(nèi)部對(duì)「可靈」大模型技術(shù)層面的思考,相關(guān) PPT 也很快流傳出來成為大模型行業(yè)研究的資料。

「可靈」發(fā)布之后,王鑫濤又出現(xiàn)在深圳的一次人工智能學(xué)術(shù)分享會(huì)中,王鑫濤提到在追趕 Sora 的過程中,面臨的核心挑戰(zhàn)在于,如何實(shí)現(xiàn)在長視頻和長鏡頭中學(xué)習(xí)到物理規(guī)律,從而確保生成的視頻具有高度的物理一致性。

因而這是王鑫濤認(rèn)為最值得深入研究的問題,「傳統(tǒng)上,AI 生成的視頻往往局限于單一鏡頭,缺乏復(fù)雜場景下的連貫性和真實(shí)感。然而,Sora 卻能在復(fù)雜的長視頻中實(shí)現(xiàn)鏡頭的流暢切換,同時(shí)保持強(qiáng)大的三維、時(shí)序和物理一致性?!?/p>

事實(shí)上,王鑫濤入職快手的時(shí)間并不長,目前是快手視覺生成與互動(dòng)中心的高級(jí)研究員,隸屬于快手多模型與 AIGC 部門,負(fù)責(zé)視覺內(nèi)容生成方面的研究。公開資料顯示,去年他還是騰訊 AI 實(shí)驗(yàn)室的高級(jí)研究員,領(lǐng)導(dǎo)了視覺內(nèi)容生成 (AIGC)方面的工作。

可以說,快手「可靈」奇襲的背后,離不開王鑫濤這樣的騰訊前 AI 力量的貢獻(xiàn)。

此前騰訊混元開源混元大模型時(shí),就已經(jīng)公開其具備文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力,已經(jīng)支持 16s 視頻生成。當(dāng)時(shí)混元大模型文生圖負(fù)責(zé)人蘆清林就提到,不同模態(tài)之間的對(duì)齊是難點(diǎn)之一,混元想做視頻和音頻的同時(shí)生成,但要解決二者用一個(gè)模型輸出的對(duì)齊有很大混淆。

而另外一方面,「可靈」出圈的背后,也意味著昔日快手 AI 團(tuán)隊(duì)成員的某種失落。

前快手技術(shù)副總裁王仲遠(yuǎn),如今已經(jīng)是北京智源人工智能研究院院長。去年 12月,快手組織架構(gòu)大調(diào)整中,主站、電商與商業(yè)化三個(gè)事業(yè)部下屬都擁抱了變化,而負(fù)責(zé) AI 業(yè)務(wù)的王仲遠(yuǎn)不再擔(dān)任任何職務(wù)。

僅僅半年前,王仲遠(yuǎn)作為快手 AI &用戶增長業(yè)務(wù)負(fù)責(zé)人,在快手創(chuàng)作者大會(huì)上首次公布了快手 AIGC 的進(jìn)展,其核心旨在提升短視頻內(nèi)容的創(chuàng)作力和生產(chǎn)力。當(dāng)時(shí)快手已經(jīng)開放了「可圖」大模型產(chǎn)品,支持文生圖和圖生圖兩類功能,已上線 20 余種 AI 圖像玩法。

整個(gè) 2023 年,是快手缺少 CTO 的一年,也是快手大模型組建團(tuán)隊(duì)和業(yè)務(wù)的落地之年。從組織架構(gòu)上看,快手大模型團(tuán)隊(duì)隸屬于快手社區(qū)科學(xué)線,而業(yè)務(wù)包含大語言模型、文生圖大模型、視頻生成大模型等多個(gè)方向,但大語言模型和文生圖模型相比同行都乏善可陳。

中國版的 Sora 肯定也是王仲遠(yuǎn)的期待之一,只是不知道他如何看待「可靈」。

離開快手之后,王仲遠(yuǎn)代表智源研究院對(duì)外接受過采訪,談及 AGI(通用人工智能)正在加速到來,過去他覺得實(shí)現(xiàn)科幻片里超級(jí)人工智能的場景還有四五十年,現(xiàn)在他感覺可能再用四五年 AGI 就會(huì)誕生。

「Sora 的出現(xiàn)也是一個(gè)劃時(shí)代的時(shí)刻,它真正的價(jià)值不是文字生成精美的視頻,而是說明大模型可能具備了理解三維世界的能力。換句話說,Sora 初步展現(xiàn)了世界模型上的 scaling law(規(guī)模法則)?!雇踔龠h(yuǎn)認(rèn)為。

第一能維持多久?

當(dāng)下的快手「可靈」備受好評(píng),但國內(nèi) Sora 第一的位置能維持多久?

「可靈」唯一的使用渠道就是快手創(chuàng)作工具快影 App,但快影 App 的下載數(shù)據(jù)并沒有太大的波動(dòng)。根據(jù)七麥數(shù)據(jù),App Store 近七日日均下載量仍舊維持在 2 萬左右,在應(yīng)用(免費(fèi))和攝影與錄像(免費(fèi))榜單上的排名依然保持穩(wěn)定,并沒有太大的變化曲線。

從商業(yè)路徑上看,目前「可靈」吸引的更多還是 C 端消費(fèi)者。相比文生圖和文生文等模型在廣告等領(lǐng)域已經(jīng)有廣泛的使用場景,文生視頻大模型的使用場景依然有限,所以策略往往先服務(wù)于內(nèi)容生產(chǎn)者,不斷擴(kuò)展消費(fèi)端的使用場景,最終吸引 B 端客戶和商家付費(fèi)使用。

更重要的是,國內(nèi) Sora 第一的競爭對(duì)手正在趕來的路上。

一方面是國內(nèi)市場,根據(jù)消息人士透露,字節(jié)跳動(dòng)旗下視頻生成大模型也在內(nèi)測中,估計(jì)很快發(fā)布,也將依靠旗下創(chuàng)作工具剪映上線。對(duì)剪映來說,此前已經(jīng)上線的「即夢(mèng)」已經(jīng)實(shí)現(xiàn)了文生視頻大模型的相應(yīng)功能,只是目前這部分功能優(yōu)化程度不足而已。

而變化更快的是國際市場,就在 6月 13 日,Luma AI 首發(fā)了自己的視頻生成模型 Dream Machine,用戶可以通過文字或圖片生成高質(zhì)量的高清視頻,比快手「可靈」更進(jìn)一步的是,Luma 實(shí)現(xiàn)了免費(fèi)全量開放,登錄即用并不用預(yù)約等待。

但與快手「可靈」面臨的問題一樣,Luma AI 也面臨算力不足的問題,使用時(shí)需要長時(shí)間等待,等待結(jié)果也有可能是生成內(nèi)容失敗,所以算力是制約文生視頻大模型最大的瓶頸。

大模型行業(yè)此前公開過相關(guān)數(shù)據(jù),大模型要實(shí)現(xiàn) Sora 類似的水平,就需要有千卡級(jí)別的算力,進(jìn)一步優(yōu)化能力則需要萬卡級(jí)別的算力,這意味著大規(guī)模算力集群的調(diào)動(dòng)能力,不論是使用英偉達(dá)的旗艦 GPU 芯片,還是華為昇騰的國產(chǎn) AI 芯片。

大模型競爭依然處于初期,AI 大模型本身對(duì)云服務(wù)來說是錦上添花,如何把應(yīng)用落地做好,把成本最低,依然是當(dāng)下大模型行業(yè)面臨的共同命題。

相比于字節(jié)跳動(dòng)的大模型策略,快手在大模型上的策略僅僅有「可靈」依然是不夠的。字節(jié)跳動(dòng)豆包大模型最明顯的策略和標(biāo)簽就是成本低,通過價(jià)格戰(zhàn)大幅降低模型推理的單位成本,吸引 B 端客戶進(jìn)入火山引擎的云服務(wù)之中。如果字節(jié)跳動(dòng)發(fā)布視頻生成大模型,那一定是實(shí)現(xiàn)了成本更低的一條路。

無論如何,追趕 Sora,已經(jīng)成為大模型行業(yè)在 2024 年的主要共識(shí)和任務(wù)之一,快手要穩(wěn)住國內(nèi) Sora 第一的位置,還要面臨殘酷的考驗(yàn)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。