正在閱讀:

李彥宏堅(jiān)稱(chēng)不做視頻生成模型,中國(guó)版Sora到底值不值得做?

掃一掃下載界面新聞APP

李彥宏堅(jiān)稱(chēng)不做視頻生成模型,中國(guó)版Sora到底值不值得做?

國(guó)內(nèi)視頻生成模型領(lǐng)域雖然看起來(lái)火熱,但確實(shí)面臨著非常嚴(yán)峻的挑戰(zhàn)。

圖片來(lái)源:界面圖庫(kù)

界面新聞?dòng)浾?| 肖芳

界面新聞編輯 | 宋佳楠

近日,百度CEO李彥宏稱(chēng)百度不做Sora演講被媒體曝光,有關(guān)“中國(guó)Sora到底值不值得做”話題又在微博、小紅書(shū)社交媒體引發(fā)眾多爭(zhēng)論。

李彥宏內(nèi)部講話稱(chēng)Sora這種視頻生成模型投入周期太長(zhǎng),1020可能拿不到業(yè)務(wù)收益,無(wú)論多火,百度不去

反對(duì)聲音認(rèn)為,這屬于百度自身業(yè)務(wù)問(wèn)題。國(guó)內(nèi)目前在視頻生成模型最有希望的公司是快手字節(jié)跳動(dòng),二者業(yè)務(wù)視頻更近,待其視頻生成足夠優(yōu)秀之后會(huì)快速完成拉新,并帶動(dòng)用戶(hù)體驗(yàn)提升

快手字節(jié)跳動(dòng)國(guó)內(nèi)互聯(lián)網(wǎng)大廠中積極布局視頻生成大模型公司。Sora發(fā)布,快手便推出文生視頻大模型“可靈”,其背后的技術(shù)原理和OpenAI的Sora類(lèi)似,都是把常用于視頻生成人工智能的擴(kuò)散模型與Transformer架構(gòu)相結(jié)合,依托于快手短視頻平臺(tái),擁有大量可用于訓(xùn)練的視頻數(shù)據(jù)“可靈”發(fā)布幾個(gè)月之后,字節(jié)跳動(dòng)旗下火山引擎發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,面向企業(yè)市場(chǎng)開(kāi)啟邀測(cè)。

字節(jié)跳動(dòng)快手之外,今年發(fā)布視頻生成模型公司包括阿里云、Minimax、生數(shù)科技智譜AI公司。

國(guó)內(nèi)視頻生成模型領(lǐng)域雖然看起來(lái)火熱,確實(shí)面臨非常嚴(yán)峻挑戰(zhàn),李彥宏對(duì)視頻生成做出判斷并非無(wú)稽之談

界面新聞從一位負(fù)責(zé)視頻生成模型技術(shù)人士處了解,生成式AI技術(shù)正大幅降低視頻生成的門(mén)檻,導(dǎo)致視頻數(shù)據(jù)以20倍左右的速度增長(zhǎng),對(duì)計(jì)算成本和效率提出了嚴(yán)峻的挑戰(zhàn)。以Sora模型為例,其訓(xùn)練和推理所需的算力需求分別達(dá)到了GPT-4的4.5倍和近400倍

中國(guó)銀河證券研究院報(bào)告顯示,Sora對(duì)算力需求呈指數(shù)級(jí)增長(zhǎng)根據(jù)Sora參數(shù)規(guī)模推演訓(xùn)練單次算力需求或可達(dá)到2.6×10^24Flops,相當(dāng)于GPT-3175B的8.2倍。目前Sora還在初級(jí)階段,伴隨不斷迭代調(diào)優(yōu),其訓(xùn)練數(shù)據(jù)集規(guī)模將進(jìn)一步增大,未來(lái)算力需求會(huì)大幅增加。

上述技術(shù)人士表示,編解碼層框架層,視頻生成模型面臨諸多挑戰(zhàn)。一方面效率問(wèn)題另一方面是在計(jì)算需求日益增長(zhǎng)的情況下,能否靈活處理越來(lái)越復(fù)雜需求。

這些都對(duì)視頻生成模型形成巨大考驗(yàn),但其商業(yè)化形勢(shì)仍然不夠明朗,一定程度上使訓(xùn)練推理成本挑戰(zhàn)更為嚴(yán)峻

據(jù)界面新聞了解,目前視頻生成模型的落地大多在影視制作、電商營(yíng)銷(xiāo)等領(lǐng)域處于概念多于實(shí)質(zhì)階段。

快手曾高調(diào)推出由可靈深度參與制作的奇幻微短劇《山海奇鏡之劈波斬浪》,并于近日聯(lián)合李少紅、賈樟柯等9位知名導(dǎo)演,啟動(dòng)了完全依托視頻生成大模型制作電影短片“可靈AI”導(dǎo)演共創(chuàng)計(jì)劃,試圖以此來(lái)證明視頻生成大模型在影視制作領(lǐng)域的可用性。

《山海奇鏡之劈波斬浪》整部影片并不是由AI一氣呵成,而是使用可靈大模型的文生圖和圖生視頻功能生成了很多時(shí)長(zhǎng)5秒的分鏡頭,再由后期剪輯團(tuán)隊(duì)剪輯而成。其在成本整體的降幅不超過(guò)四分之一,遠(yuǎn)不如外界預(yù)期的那么大

快手近期一系列動(dòng)作來(lái)看,仍然可靈AI落地尋找更多應(yīng)用場(chǎng)景比如,快手試圖通過(guò)資源流量扶植方式,品牌方、制作機(jī)構(gòu)、媒體等需求方能夠與AIGC創(chuàng)作者進(jìn)行商務(wù)合作支持使用可靈AI的創(chuàng)作者獲得變現(xiàn)機(jī)會(huì)。一定程度反映AIGC變現(xiàn)并不像想象那么容易。

這些挑戰(zhàn)之下,視頻生成模型領(lǐng)域一個(gè)發(fā)展趨勢(shì)降本。雖然很多公司依然積極投入視頻生成模型盡可能降低訓(xùn)練和推理成本,已經(jīng)很多公司都在探索方向。

預(yù)處理過(guò)程統(tǒng)一視頻的數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量、實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、減少數(shù)據(jù)量以及處理標(biāo)注信息,則是其他一些公司降本的重點(diǎn)。抖音一位視頻架構(gòu)技術(shù)負(fù)責(zé)人表示超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集導(dǎo)致計(jì)算和處理成本激增、視頻樣本數(shù)據(jù)參差不齊,以及處理鏈路環(huán)節(jié)多、工程復(fù)雜等,都視頻生成模型訓(xùn)練和推理成本增加。同時(shí),對(duì)GPU、CPU、ARM等多種異構(gòu)算力資源的調(diào)度部署也是挑戰(zhàn)之一

據(jù)界面新聞了解,豆包視頻生成模型自研了多媒體處理框架BMF來(lái)應(yīng)對(duì)模型訓(xùn)練的算力成本挑戰(zhàn),該方案可使用大量潮汐資源,為模型訓(xùn)練提供支撐。

除此之外,通過(guò)自研芯片在同等視頻壓縮效率下實(shí)現(xiàn)視頻大模型訓(xùn)練和推理成本降低,是部分互聯(lián)網(wǎng)大廠選擇方向。而一些AIGC公司則在探索將低質(zhì)量視頻與高質(zhì)量圖像相結(jié)合,保障視頻輸出畫(huà)質(zhì)基礎(chǔ)上降低訓(xùn)練模型成本方法。當(dāng)成本真的降下來(lái),視頻生成模型的未來(lái)之路也會(huì)更加明晰。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

快手

5.1k
  • 機(jī)構(gòu):第三季度中國(guó)電子紙平板線上零售38.2萬(wàn)臺(tái),同比增長(zhǎng)77.0%
  • 48只港股昨日獲公司回購(gòu),友邦保險(xiǎn)、快手、太古股份公司A回購(gòu)金額最大

百度

6k
  • 盤(pán)前機(jī)會(huì)前瞻| 工信部最新發(fā)聲!高級(jí)自動(dòng)駕駛技術(shù)有望實(shí)現(xiàn)重大突破,這幾家公司與百度、小鵬深度合作部分產(chǎn)品已經(jīng)量產(chǎn)(附概念股)
  • 百度智能云海東數(shù)據(jù)標(biāo)注基地正式啟動(dòng)

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

李彥宏堅(jiān)稱(chēng)不做視頻生成模型,中國(guó)版Sora到底值不值得做?

國(guó)內(nèi)視頻生成模型領(lǐng)域雖然看起來(lái)火熱,但確實(shí)面臨著非常嚴(yán)峻的挑戰(zhàn)。

圖片來(lái)源:界面圖庫(kù)

界面新聞?dòng)浾?| 肖芳

界面新聞編輯 | 宋佳楠

近日,百度CEO李彥宏稱(chēng)百度不做Sora演講被媒體曝光有關(guān)“中國(guó)Sora到底值不值得做”話題又在微博、小紅書(shū)社交媒體引發(fā)眾多爭(zhēng)論。

李彥宏內(nèi)部講話稱(chēng),Sora這種視頻生成模型投入周期太長(zhǎng),10、20可能拿不到業(yè)務(wù)收益,無(wú)論多火,百度不去

反對(duì)聲音認(rèn)為,這屬于百度自身業(yè)務(wù)問(wèn)題國(guó)內(nèi)目前在視頻生成模型最有希望的公司是快手字節(jié)跳動(dòng),二者業(yè)務(wù)視頻更近,待其視頻生成足夠優(yōu)秀之后會(huì)快速完成拉新,并帶動(dòng)用戶(hù)體驗(yàn)提升。

快手字節(jié)跳動(dòng)國(guó)內(nèi)互聯(lián)網(wǎng)大廠中積極布局視頻生成大模型公司。Sora發(fā)布,快手便推出文生視頻大模型“可靈”,其背后的技術(shù)原理和OpenAI的Sora類(lèi)似,都是把常用于視頻生成人工智能的擴(kuò)散模型與Transformer架構(gòu)相結(jié)合,依托于快手短視頻平臺(tái),擁有大量可用于訓(xùn)練的視頻數(shù)據(jù)。“可靈”發(fā)布幾個(gè)月之后字節(jié)跳動(dòng)旗下火山引擎發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型,面向企業(yè)市場(chǎng)開(kāi)啟邀測(cè)。

字節(jié)跳動(dòng)快手之外今年發(fā)布視頻生成模型公司包括阿里云、Minimax生數(shù)科技、智譜AI公司

國(guó)內(nèi)視頻生成模型領(lǐng)域雖然看起來(lái)火熱,確實(shí)面臨非常嚴(yán)峻挑戰(zhàn)李彥宏對(duì)視頻生成做出判斷并非無(wú)稽之談。

界面新聞從一位負(fù)責(zé)視頻生成模型技術(shù)人士處了解生成式AI技術(shù)正大幅降低視頻生成的門(mén)檻,導(dǎo)致視頻數(shù)據(jù)以20倍左右的速度增長(zhǎng),對(duì)計(jì)算成本和效率提出了嚴(yán)峻的挑戰(zhàn)。以Sora模型為例,其訓(xùn)練和推理所需的算力需求分別達(dá)到了GPT-4的4.5倍和近400倍。

中國(guó)銀河證券研究院報(bào)告顯示,Sora對(duì)算力需求呈指數(shù)級(jí)增長(zhǎng)根據(jù)Sora參數(shù)規(guī)模推演訓(xùn)練單次算力需求或可達(dá)到2.6×10^24Flops,相當(dāng)于GPT-3175B的8.2倍。目前Sora還在初級(jí)階段,伴隨不斷迭代調(diào)優(yōu),其訓(xùn)練數(shù)據(jù)集規(guī)模將進(jìn)一步增大,未來(lái)算力需求會(huì)大幅增加

上述技術(shù)人士表示,編解碼層框架層,視頻生成模型面臨諸多挑戰(zhàn)一方面效率問(wèn)題,另一方面是在計(jì)算需求日益增長(zhǎng)的情況下,能否靈活處理越來(lái)越復(fù)雜需求。

這些都對(duì)視頻生成模型形成巨大考驗(yàn),但其商業(yè)化形勢(shì)仍然不夠明朗,一定程度上使訓(xùn)練推理成本挑戰(zhàn)更為嚴(yán)峻

據(jù)界面新聞了解,目前視頻生成模型的落地大多在影視制作、電商營(yíng)銷(xiāo)等領(lǐng)域,處于概念多于實(shí)質(zhì)階段。

快手曾高調(diào)推出由可靈深度參與制作的奇幻微短劇《山海奇鏡之劈波斬浪》,并于近日聯(lián)合李少紅、賈樟柯等9位知名導(dǎo)演,啟動(dòng)了完全依托視頻生成大模型制作電影短片“可靈AI”導(dǎo)演共創(chuàng)計(jì)劃,試圖以此來(lái)證明視頻生成大模型在影視制作領(lǐng)域的可用性。

《山海奇鏡之劈波斬浪》整部影片并不是由AI一氣呵成,而是使用可靈大模型的文生圖和圖生視頻功能生成了很多時(shí)長(zhǎng)5秒的分鏡頭,再由后期剪輯團(tuán)隊(duì)剪輯而成。其在成本整體的降幅不超過(guò)四分之一遠(yuǎn)不如外界預(yù)期的那么大。

快手近期一系列動(dòng)作來(lái)看仍然可靈AI落地尋找更多應(yīng)用場(chǎng)景。比如快手試圖通過(guò)資源流量扶植方式,品牌方、制作機(jī)構(gòu)、媒體等需求方能夠與AIGC創(chuàng)作者進(jìn)行商務(wù)合作,支持使用可靈AI的創(chuàng)作者獲得變現(xiàn)機(jī)會(huì)。一定程度反映AIGC變現(xiàn)并不像想象那么容易。

這些挑戰(zhàn)之下,視頻生成模型領(lǐng)域一個(gè)發(fā)展趨勢(shì)降本。雖然很多公司依然積極投入視頻生成模型,盡可能降低訓(xùn)練和推理成本,已經(jīng)很多公司都在探索方向。

預(yù)處理過(guò)程統(tǒng)一視頻的數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量、實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、減少數(shù)據(jù)量以及處理標(biāo)注信息,則是其他一些公司降本的重點(diǎn)。抖音一位視頻架構(gòu)技術(shù)負(fù)責(zé)人表示超大規(guī)模視頻訓(xùn)練數(shù)據(jù)集導(dǎo)致計(jì)算和處理成本激增、視頻樣本數(shù)據(jù)參差不齊,以及處理鏈路環(huán)節(jié)多、工程復(fù)雜等,都視頻生成模型訓(xùn)練和推理成本增加。同時(shí),對(duì)GPU、CPU、ARM等多種異構(gòu)算力資源的調(diào)度部署也是挑戰(zhàn)之一

據(jù)界面新聞了解,豆包視頻生成模型自研了多媒體處理框架BMF來(lái)應(yīng)對(duì)模型訓(xùn)練的算力成本挑戰(zhàn),該方案可使用大量潮汐資源,為模型訓(xùn)練提供支撐

除此之外,通過(guò)自研芯片在同等視頻壓縮效率下實(shí)現(xiàn)視頻大模型訓(xùn)練和推理成本降低,是部分互聯(lián)網(wǎng)大廠選擇方向。而一些AIGC公司則在探索將低質(zhì)量視頻與高質(zhì)量圖像相結(jié)合,保障視頻輸出畫(huà)質(zhì)基礎(chǔ)上降低訓(xùn)練模型成本方法。當(dāng)成本真的降下來(lái),視頻生成模型的未來(lái)之路也會(huì)更加明晰。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。