婷深夜综合成人aⅴ网站。,青草青草久热精品视频在线网站

文｜新莓daybreak 翟文婷

2024年最后一個(gè)月，國產(chǎn)大模型落地應(yīng)用突然加速。尤其視頻生成模型，就像密集射出子彈后的槍管，熱得發(fā)燙。

12月19日，快手可靈更新了1.6模型，相比兩周前高調(diào)擴(kuò)散AI導(dǎo)演共創(chuàng)計(jì)劃，這個(gè)動(dòng)作顯得安靜很多。但是快手選擇升級模型的這個(gè)時(shí)間點(diǎn)，似乎有些深意。

因?yàn)橐惶烨暗?2月18日，字節(jié)火山原動(dòng)力大會(huì)，第一次對外發(fā)布豆包視頻生成大模型。同時(shí)張楠從抖音來到剪映成為掌門人之后，首次對外亮相。她簡短介紹了今年5月份就推出的即夢，一款跟可靈類似的視頻生成工具。

會(huì)上，張楠給出即夢的明確含義：想象力相機(jī)，以此對應(yīng)抖音的現(xiàn)實(shí)相機(jī)。但是她沒有講太多產(chǎn)品細(xì)節(jié)，只是播放了兩個(gè)樣片。她說產(chǎn)品和技術(shù)都還在早期階段。

這可能是避免外界將即夢和一周前公布的Sora Turbo做直接對比。

OpenAI年底為期12天的直播，重頭戲是在12月10日，長達(dá)10個(gè)月的鋪墊之后，Sora終于揭開面紗。

其中最大亮點(diǎn)是「故事板」（view story）功能，提示詞可以直接轉(zhuǎn)化劇本。此外新版Sora視頻生成速度更快，編輯功能更實(shí)用。為此，用戶每月要付出200美元的成本。所以雖然產(chǎn)品發(fā)布當(dāng)天，服務(wù)器被海量流量沖擊崩潰，但吐槽聲音不斷。

不管怎樣，在大模型先鋒OpenAI之后發(fā)布產(chǎn)品總是壓力不小，除非有更驚喜強(qiáng)大的產(chǎn)品亮點(diǎn)，否則容易黯然失色。

因此，騰訊混元在12月初就搶先一步推出視頻生成大模型，且將應(yīng)用名字稱作「元寶」。不過，相比Sora、可靈、即夢等既能文生視頻也能圖生視頻的工具，騰訊混元目前只能文生視頻。

問題在于，目前大模型對語義理解水平能力有限，所有文生視頻的應(yīng)用效果遠(yuǎn)遠(yuǎn)達(dá)不到令人滿意的地步，也很難吸引AGIC創(chuàng)作者積極使用。

騰訊自然是明白的。所以產(chǎn)品發(fā)布當(dāng)天，開源是騰訊積極釋放的信號。

雖然國產(chǎn)視頻生成應(yīng)用也近10多款，從過去20天的情況來看，國產(chǎn)視頻生成模型還是掌握在大公司手里，這不僅跟大模型水平、算力有關(guān)，視頻數(shù)據(jù)積累更是決定性因素。而且大模型早期彌漫的一種FOMO情緒（Fear of Missing Out），此刻依然有跡可循。

只是正如張楠所說，產(chǎn)品和技術(shù)還處在早期。如果你了解到現(xiàn)在的AI視頻是怎么做出來的，就不會(huì)被渲染的畫面迷惑，只是發(fā)出一聲驚嘆。

此刻僅僅是發(fā)令槍響起，不要太早下結(jié)論。

01 圖生視頻是主流？

在我們接收到的信息中，大模型生成視頻似乎易如反掌，一段文字還你一段視頻，且效果比肩影視大片。人人都是大導(dǎo)演，近在遲尺。

事實(shí)是，AI視頻的確降低了生產(chǎn)門檻，只是那些制作精良的廣告宣傳片、短劇類AI視頻，還是少數(shù)人掌握的技能。

有必要先講下一個(gè)2分鐘的AI短片是怎么做出來的。

首先，跟傳統(tǒng)創(chuàng)作類似，創(chuàng)作者要先拿出腳本，只不過是基于AI能力可以實(shí)現(xiàn)的內(nèi)容。這個(gè)步驟是可以借助AI工具，ChatGPT、Kimi和智譜清言是被提及最多的。

其次，根據(jù)視頻腳本拆解細(xì)化的分鏡內(nèi)容，創(chuàng)作者用AI文生圖工具將分鏡先以靜態(tài)圖的方式展現(xiàn)。

如果是有專業(yè)或者商業(yè)要求，比如廣告，宣傳片，短劇等，希望達(dá)到傳統(tǒng)拍攝的專業(yè)與合理性，在將靜態(tài)分鏡圖轉(zhuǎn)成視頻之前，需要?jiǎng)?chuàng)作者將生成的靜態(tài)圖進(jìn)行PS后期及圖片超分辨率處理來提高圖片的原始質(zhì)量，以次保證圖生視頻的質(zhì)量基礎(chǔ)。

之后，將這些圖片給到AI視頻工具進(jìn)行動(dòng)態(tài)分鏡生成。Sora的720p單次可以生成最長20秒的視頻，國產(chǎn)大模型一次都只能生成5-10秒的視頻。

需要注意的是，除了Sora，國產(chǎn)AI還做不到基于生成視頻進(jìn)行修改編輯，所以一個(gè)5-6秒的視頻需要多次生成才能拿到滿意結(jié)果也是有可能的。

現(xiàn)在我們看到的2-3分鐘AI視頻，絕大部分都是圖生視頻，而且原料是經(jīng)過專業(yè)處理的圖片，需要多次續(xù)寫并配合后期剪輯而成。

雖然目前國產(chǎn)視頻生成模型中，只有騰訊混元是免費(fèi)的，沒有收費(fèi)項(xiàng)目，但文生視頻依然面臨激勵(lì)創(chuàng)作者使用的障礙（今年5月份騰訊生成式AI產(chǎn)業(yè)峰會(huì)上，騰訊公布的多模態(tài)能力中，其中提到混元支持圖文等形態(tài)生成視頻能力，只是還沒有圖生視頻的落地應(yīng)用）：

首先是大模型語義理解能力局限，視頻最終呈現(xiàn)的是不是文字描述的東西，以及是不是符合創(chuàng)作者腦海設(shè)想的畫面？

其次在于一致性。比如，你希望以「一個(gè)穿著淡黃色長裙的女生」為主角，生成一個(gè)長1-2分鐘的連續(xù)視頻。

按照現(xiàn)在大模型能力，你可能要不斷續(xù)寫幾十次甚至上百次才有可能最終實(shí)現(xiàn)。但是可能你每次文字輸入生成的視頻中，這個(gè)女生的五官和穿的長裙款式都不一樣，五官可能存在年齡與樣貌偏差，服裝顏色可能是淺黃、深黃或是橙黃，這就是一致性問題。

但是圖生視頻可以提前確定統(tǒng)一色調(diào)，在圖片處理方面配合Comfy UI（一款基于節(jié)點(diǎn)工作流穩(wěn)定擴(kuò)散算法的圖形界面）的換臉、換服裝等功能做到人物一致性。

文生視頻也不是被束之高閣，如果你要的就是短短五六秒的東西，或者一鍵讓靜圖活動(dòng)起來，使用門檻要更低一些。在文生視頻領(lǐng)域，尚在內(nèi)測階段的騰訊混元（一天只能測試6次）的確是超出現(xiàn)在行業(yè)平均水平的。

但是也有創(chuàng)作者有過新的嘗試，《烈焰天街》是作者夢羅浮創(chuàng)作的一部AI電影，全片660個(gè)鏡頭，其中70%是文生視頻，每個(gè)鏡頭需要200-300字的提示詞。他在分享創(chuàng)作心得時(shí)解釋，「之所以用文生視頻做主體創(chuàng)作，因?yàn)樗砬楹椭w動(dòng)作比圖生視頻真實(shí)。」

他提到，即夢文生視頻效果很像圖生視頻，「放眼望去，人人都是主演，多人內(nèi)容場景模型不崩壞」。

不管怎樣，現(xiàn)在看到絕美或是接近物理現(xiàn)實(shí)的AI視頻，是少數(shù)懂得設(shè)計(jì)、審美，熟練操作各種工具的專業(yè)人士做出來的。你也可以理解為，這些人是AI視頻的種子用戶。一年前，他們中大部分是AI繪畫工具的熟練掌握者，活躍在小紅書平臺(tái)。

因此，相比豆包、Kimi等AI對話類產(chǎn)品上來就海量投放轉(zhuǎn)化的動(dòng)作，可靈、即夢前期更多是在盡可能網(wǎng)羅種子用戶的參與，激勵(lì)他們創(chuàng)作更多作品，各個(gè)社群這些創(chuàng)作者都是被爭取的對象。其中一些敏銳的創(chuàng)作者，靠售賣AIGC培訓(xùn)教程，抓住了一波變現(xiàn)紅利。

成為各個(gè)應(yīng)用的超創(chuàng)，創(chuàng)作者可以有機(jī)會(huì)獲得平臺(tái)推送的商單，免費(fèi)積分，包括于電視臺(tái)合作的支持。但可能平臺(tái)也會(huì)要求超創(chuàng)每月輸出一定的視頻創(chuàng)作，甚至免費(fèi)配合產(chǎn)品宣講教程。

從大廠的一些動(dòng)作也透露出應(yīng)用在引導(dǎo)的用戶群體和使用場景。

可靈從影視專業(yè)人員群體攻入，之前他們也提出AI+短劇的計(jì)劃，意圖就是在影視、廣告、游戲等領(lǐng)域嫁接AI。自上而下滲透的意圖顯而易見。

騰訊混元在介紹中就明確提出，可在工業(yè)級商業(yè)場景例如廣告宣傳、動(dòng)畫制作等場景。騰訊廣告妙思平臺(tái)就已經(jīng)接入文生圖模式，降低廣告主的創(chuàng)作門檻。

02 看不見的決定因素

盡管即夢和可靈具備圖生視頻的能力，已經(jīng)占據(jù)一定的用戶心智，但對于他們而言，依然前路漫漫。

除了我們所能感知到的產(chǎn)品特征和差異，國產(chǎn)AI視頻應(yīng)用的底層模型架構(gòu)，有很大的相似性。

騰訊混元和快手可靈都是采用了跟Sora類似的DiT（Diffusion Transformer）模型架構(gòu)。包括MiniMax的海螺AI也是如此選擇。

一種觀點(diǎn)認(rèn)為，與OpenAI其他產(chǎn)品不同，在算力充足的前提下，DiT架構(gòu)路徑復(fù)刻難度相對較低。這也是國產(chǎn)視頻生成大模型在短短幾個(gè)月，布局速度和落地結(jié)果超出預(yù)期的原因。

但是接下來在一些關(guān)鍵性問題解決上，就看各家公司的底層優(yōu)化能力和數(shù)據(jù)訓(xùn)練結(jié)果。

AGIC創(chuàng)作者溫維斯Wenvis告訴新莓daybreak，他對AI視頻應(yīng)用實(shí)現(xiàn)的結(jié)果有兩個(gè)期望：一是快速展現(xiàn)出自己腦海的想法，且跟預(yù)期是比較相符的；二是成為自己的靈感激發(fā)器，不一定是成品，但想法會(huì)被啟發(fā)或提升。

在可靈發(fā)起的AI導(dǎo)演共創(chuàng)計(jì)劃中，溫維斯是導(dǎo)演王子川的AI合作者，他們共同創(chuàng)作了《雛菊》，前期一個(gè)基本想法就是，盡量避開AI不擅長的地方。

就目前而言，視頻生成模型共同努力方向有幾個(gè)：一致性，視覺真實(shí)度，動(dòng)態(tài)幅度，提示詞的語義理解能力等。

比如盡管很多產(chǎn)品宣稱一致性表現(xiàn)不錯(cuò)，但幾乎所有公司都還在默默努力。只有創(chuàng)業(yè)公司生數(shù)科技曾在今年9月高調(diào)發(fā)布所謂「全球首個(gè)支持多主體一致性的多模態(tài)大模型」，公司旗下產(chǎn)品Vidu現(xiàn)在已經(jīng)開放使用，測評反饋在2D及多主體一致上表現(xiàn)不錯(cuò)，缺點(diǎn)是畫面太糊，即使是會(huì)員可以享受高分辨率的用戶也依然存在這個(gè)問題。

再比如，不論國內(nèi)國外，AI視頻軟件的動(dòng)態(tài)幅度都有待提升。最基本的人物開口說話，做一些特定的肢體動(dòng)作，比如武術(shù)，運(yùn)動(dòng)體操這類大幅動(dòng)作，目前所有工具表現(xiàn)都不盡如人意。

導(dǎo)演俞白眉接觸AI最想探索的就是與動(dòng)作連接的部分，他知道AI在規(guī)定鏡頭的運(yùn)動(dòng)方面，不是強(qiáng)項(xiàng)，也不擅長真人動(dòng)作。但他還是積極參與了可靈的導(dǎo)演計(jì)劃，希望嘗試創(chuàng)作出一些之前沒有見過的動(dòng)作片段。

談及整個(gè)創(chuàng)作過程，他說一言難盡，結(jié)果也差強(qiáng)人意，「這些作品都是涂鴉」。但他也提到，中間有趣味存在，學(xué)到了很多東西。

俞白眉的體感可能會(huì)得到不少共鳴。所以，創(chuàng)作者會(huì)根據(jù)不同題材，不同需求，使用不同的AI視頻工具。也許個(gè)人創(chuàng)作偏好會(huì)導(dǎo)致他使用某個(gè)工具多一些，但現(xiàn)在遠(yuǎn)不到哪款產(chǎn)品形成絕對優(yōu)勢的地步。

國產(chǎn)AI生成視頻應(yīng)用，快手旗下的可靈是唯一公布過數(shù)據(jù)的。

快手第三季度財(cái)報(bào)發(fā)布時(shí)，可靈9月份月活超150萬。到了12月10日，累計(jì)用戶數(shù)達(dá)到600萬，生成視頻數(shù)量為6500萬，圖片超1.75億張?？焓诌€公布過商業(yè)化成績，單月流水超過千萬元，據(jù)說為此內(nèi)部還切蛋糕，小小慶祝了一下。

可靈是國產(chǎn)大模型生成視頻動(dòng)作相對較快的一個(gè)，有種搶跑加速的焦慮感。

今年6月產(chǎn)品上線，當(dāng)月就推出圖生視頻，以及續(xù)寫視頻，從一開始的最長2分鐘延伸至3分鐘。而且很早就明確跟短劇、影視相結(jié)合，可靈生成最早流傳到海外的視頻還被馬斯克看到并點(diǎn)評。

即夢推出時(shí)間比可靈要更早，對外釋放的信息和動(dòng)作沒有可靈頻繁。但是因?yàn)樽止?jié)AI部署能力和廣泛用戶基礎(chǔ)，即夢在創(chuàng)作者群體的呼聲也很高。

葉錦添有兩句話說得非常好：如果用3D傳統(tǒng)的方式，每次想試一樣?xùn)|西都要花同樣的時(shí)間，但AI是不用的。這給了我不同的速度感，我就開始去領(lǐng)會(huì)，AI會(huì)影響我怎么看這個(gè)世界。他還說，AI有時(shí)候走得比我們快，所以有可能帶來另外一種經(jīng)驗(yàn)。

AI一天，人間一年。

文｜新莓daybreak 翟文婷

2024年最后一個(gè)月，國產(chǎn)大模型落地應(yīng)用突然加速。尤其視頻生成模型，就像密集射出子彈后的槍管，熱得發(fā)燙。

這可能是避免外界將即夢和一周前公布的Sora Turbo做直接對比。

OpenAI年底為期12天的直播，重頭戲是在12月10日，長達(dá)10個(gè)月的鋪墊之后，Sora終于揭開面紗。

不管怎樣，在大模型先鋒OpenAI之后發(fā)布產(chǎn)品總是壓力不小，除非有更驚喜強(qiáng)大的產(chǎn)品亮點(diǎn)，否則容易黯然失色。

騰訊自然是明白的。所以產(chǎn)品發(fā)布當(dāng)天，開源是騰訊積極釋放的信號。

此刻僅僅是發(fā)令槍響起，不要太早下結(jié)論。

01 圖生視頻是主流？

在我們接收到的信息中，大模型生成視頻似乎易如反掌，一段文字還你一段視頻，且效果比肩影視大片。人人都是大導(dǎo)演，近在遲尺。

事實(shí)是，AI視頻的確降低了生產(chǎn)門檻，只是那些制作精良的廣告宣傳片、短劇類AI視頻，還是少數(shù)人掌握的技能。

有必要先講下一個(gè)2分鐘的AI短片是怎么做出來的。

其次，根據(jù)視頻腳本拆解細(xì)化的分鏡內(nèi)容，創(chuàng)作者用AI文生圖工具將分鏡先以靜態(tài)圖的方式展現(xiàn)。

現(xiàn)在我們看到的2-3分鐘AI視頻，絕大部分都是圖生視頻，而且原料是經(jīng)過專業(yè)處理的圖片，需要多次續(xù)寫并配合后期剪輯而成。

首先是大模型語義理解能力局限，視頻最終呈現(xiàn)的是不是文字描述的東西，以及是不是符合創(chuàng)作者腦海設(shè)想的畫面？

其次在于一致性。比如，你希望以「一個(gè)穿著淡黃色長裙的女生」為主角，生成一個(gè)長1-2分鐘的連續(xù)視頻。

他提到，即夢文生視頻效果很像圖生視頻，「放眼望去，人人都是主演，多人內(nèi)容場景模型不崩壞」。

從大廠的一些動(dòng)作也透露出應(yīng)用在引導(dǎo)的用戶群體和使用場景。

02 看不見的決定因素

盡管即夢和可靈具備圖生視頻的能力，已經(jīng)占據(jù)一定的用戶心智，但對于他們而言，依然前路漫漫。

除了我們所能感知到的產(chǎn)品特征和差異，國產(chǎn)AI視頻應(yīng)用的底層模型架構(gòu)，有很大的相似性。

騰訊混元和快手可靈都是采用了跟Sora類似的DiT（Diffusion Transformer）模型架構(gòu)。包括MiniMax的海螺AI也是如此選擇。

但是接下來在一些關(guān)鍵性問題解決上，就看各家公司的底層優(yōu)化能力和數(shù)據(jù)訓(xùn)練結(jié)果。

就目前而言，視頻生成模型共同努力方向有幾個(gè)：一致性，視覺真實(shí)度，動(dòng)態(tài)幅度，提示詞的語義理解能力等。

國產(chǎn)AI生成視頻應(yīng)用，快手旗下的可靈是唯一公布過數(shù)據(jù)的。

可靈是國產(chǎn)大模型生成視頻動(dòng)作相對較快的一個(gè)，有種搶跑加速的焦慮感。

AI一天，人間一年。

歷史搜索全部刪除

熱門搜索

視頻生成大模型賽道，只是看上去擁擠

01 圖生視頻是主流？

02 看不見的決定因素

評論

視頻生成大模型賽道，只是看上去擁擠

01 圖生視頻是主流？

02 看不見的決定因素

視頻生成大模型賽道，只是看上去擁擠

01 圖生視頻是主流？

02 看不見的決定因素

評論

視頻生成大模型賽道，只是看上去擁擠

01 圖生視頻是主流？

02 看不見的決定因素

視頻生成大模型賽道，只是看上去擁擠

01 圖生視頻是主流？

視頻生成大模型賽道，只是看上去擁擠