手机看片福利,亚洲乱码中文字幕手机在线

文|藍洞商業(yè) 趙衛(wèi)衛(wèi)

快手自研視頻生成大模型「可靈」上線后，截至目前，申請使用的預約人數(shù)已經(jīng)超過 6.5 萬。一時間，引發(fā)行業(yè)轟動。

原因很簡單，OpenAI 的文生視頻 Sora 發(fā)布后，一直處于內(nèi)測狀態(tài)，外界無緣得以使用；而快手「可靈」發(fā)布即測試，通過快手旗下創(chuàng)作工具快影 App，用戶可以直接申請公測，通過后可生成 2 分鐘左右、分辨率為 1080p 的文生視頻，視覺效果并不弱于 OpenAI 的 Sora。

文生視頻需要耗費巨大的算力資源，對模型的能力維度要求更高，是國內(nèi)大模型廠商尚未充分競爭的領地。讓人意外的是，快手「可靈」成為國產(chǎn)大模型中最先「交卷」的一家，早于字節(jié)。

但快手這種領先優(yōu)勢并不會維持太久，「字節(jié)跳動的視頻生成大模型也在內(nèi)測中，估計很快（發(fā)布）了。」行業(yè)知情人士透露，預計跟快手類似，字節(jié)旗下視頻生成大模型也將通過旗下創(chuàng)作工具剪映最先上線。

此外，就在「可靈」上線一周后的 6 月 13 日，Luma AI 發(fā)布最新文生視頻模型 Dream Machine，向所有用戶免費開放使用，其效率可以達到每 120 秒就能生成 120 幀畫面，還能快速生成 5 秒鐘的電影級別視覺效果的視頻片段，此外，Luma的模型超越快手可靈的地方，還有豐富的美學風格選項。

更多競爭的對手正在趕來的路上。「6月底之前，大模型廠商都會不斷放出 Sora 類模型產(chǎn)品，文生視頻和圖生視頻大模型將遍地開花?！勾竽Ｐ托袠I(yè)分析人士認為，此前各家大模型廠商都具備了視頻生成能力，只是礙于算力成本以及視頻效果尚未全面優(yōu)化，所以并未全面鋪開。

大模型之戰(zhàn)，從技術卷到應用，從百模大戰(zhàn)卷到價格戰(zhàn)，視頻生成大模型會是下一個競爭高地嗎？答案正在揭曉。

彎道超車字節(jié)？

「可靈的效果是目前中國 Sora 類的第一，非常意外的是來自快手團隊?！剐袠I(yè)分析人士認為。

快手自研視頻生成大模型「可靈」上線后，讓外界意外的，一方面是視頻生成的效果可以比肩 Sora；另外一方面是其來自快手團隊。因為，在此前的大模型競爭中，快手并不是引人關注的第一梯隊成員?？焓执饲鞍l(fā)布通用大語言模型「快意」、文生圖大模型產(chǎn)品「可圖」，影響范圍都很有限，直到如今的「可靈」。

從快手「可靈」公布的數(shù)據(jù)看，中國版 Sora 確實是其對標的目標。

從技術路線上看，快手「可靈」采用的是跟 Sora 雷同的 DiT 架構，用 Transformer 代替了傳統(tǒng)擴散模型中基于卷積網(wǎng)絡的 U-Net。快手大模型團隊還自研了一款 3D 時空聯(lián)合注意力模塊和 3D VAE 網(wǎng)絡，以實現(xiàn)更好的時空運動建模與更高效的隱空間編/解碼。

而從「可靈」的官方網(wǎng)站上，可以一目了然其產(chǎn)品賣點。

最引人注意的是，可靈支持生成長達 2 分鐘的 30 幀視頻，分辨率最高 1080p，自由定制寬高比，這一點遠超 Sora 和國內(nèi)大模型廠商。而在生成視頻的效果上，可靈強調(diào)自己的能力包括生成大幅度的合理運動、模擬物理世界特性、具備概念組合能力和想象力這三大優(yōu)勢。

而從傳播上，「可靈」也區(qū)別于以往國內(nèi)大模型的發(fā)布，最先從國外社交媒體上引起關注，然后在國內(nèi)熱度升高，實現(xiàn)了「出口轉(zhuǎn)內(nèi)銷」或者「墻內(nèi)開花墻外香」的特點。

在推特上，對「可靈」的使用評價和評測非常廣泛。

「感覺大家也別等 Sora 這種又貴又費時的工業(yè)級 AI 了，先可靈免費用起來?？焓诌@次真是讓人驚喜?！?/p>

「與國外的 Sora 視頻生成大模型相比，中國大模型開發(fā)者更理解本土文化，大模型生成的內(nèi)容也更能滿足本土用戶的需求?！?/p>

「下午充了一個快影的年費會員，好像就跳過了快手可靈的排隊，直接可以通過更改 prompt 生成視頻了，效果很驚艷呀。生成一個視頻的時間，在 VIP 會員下，大概需要 3 分鐘?！?/p>

正是靠著國外社交媒體的熱度，「可靈」的熱度水漲船高。發(fā)布一周之后，快手才正式在官方公眾號上推薦這款產(chǎn)品，標題為「今天你‘可靈’了嗎？」

事實上，騰訊和字節(jié)等互聯(lián)網(wǎng)公司，同樣擁有視頻生成大模型，只是尚未完全公測或者效果不盡人意。字節(jié)跳動剪映旗下的產(chǎn)品「即夢」就具備短視頻生成功能，可以選擇運鏡類型、視頻比例和運動速度，生成 3-6 秒的視頻，但在視頻呈現(xiàn)效果和時間長度上，并沒有展示出比肩 Sora 的優(yōu)勢。

這也更凸顯了快手「可靈」令人驚訝的優(yōu)勢，因為行業(yè)一直認為要對模型訓練做扎實，本質(zhì)上不存在彎道超車，如果基礎模型做不好，文生文和文生圖都做不好，何談文生視頻。但意外就在于，快手的視頻大模型奇襲成功了。

可靈背后的人

誰才是「可靈」背后的決定性人物？這可能是一個人才流動前仆后繼的故事。

就在快手「可靈」正式發(fā)布的前幾天，快手專家研究員王鑫濤對外做過一個《視頻生成的初探及其可控性研究》學術分享，這被認為是快手內(nèi)部對「可靈」大模型技術層面的思考，相關 PPT 也很快流傳出來成為大模型行業(yè)研究的資料。

「可靈」發(fā)布之后，王鑫濤又出現(xiàn)在深圳的一次人工智能學術分享會中，王鑫濤提到在追趕 Sora 的過程中，面臨的核心挑戰(zhàn)在于，如何實現(xiàn)在長視頻和長鏡頭中學習到物理規(guī)律，從而確保生成的視頻具有高度的物理一致性。

因而這是王鑫濤認為最值得深入研究的問題，「傳統(tǒng)上，AI 生成的視頻往往局限于單一鏡頭，缺乏復雜場景下的連貫性和真實感。然而，Sora 卻能在復雜的長視頻中實現(xiàn)鏡頭的流暢切換，同時保持強大的三維、時序和物理一致性?！?/p>

事實上，王鑫濤入職快手的時間并不長，目前是快手視覺生成與互動中心的高級研究員，隸屬于快手多模型與 AIGC 部門，負責視覺內(nèi)容生成方面的研究。公開資料顯示，去年他還是騰訊 AI 實驗室的高級研究員，領導了視覺內(nèi)容生成 (AIGC)方面的工作。

可以說，快手「可靈」奇襲的背后，離不開王鑫濤這樣的騰訊前 AI 力量的貢獻。

此前騰訊混元開源混元大模型時，就已經(jīng)公開其具備文生視頻、圖生視頻、圖文生視頻、視頻生視頻等多種視頻生成能力，已經(jīng)支持 16s 視頻生成。當時混元大模型文生圖負責人蘆清林就提到，不同模態(tài)之間的對齊是難點之一，混元想做視頻和音頻的同時生成，但要解決二者用一個模型輸出的對齊有很大混淆。

而另外一方面，「可靈」出圈的背后，也意味著昔日快手 AI 團隊成員的某種失落。

前快手技術副總裁王仲遠，如今已經(jīng)是北京智源人工智能研究院院長。去年 12月，快手組織架構大調(diào)整中，主站、電商與商業(yè)化三個事業(yè)部下屬都擁抱了變化，而負責 AI 業(yè)務的王仲遠不再擔任任何職務。

僅僅半年前，王仲遠作為快手 AI &用戶增長業(yè)務負責人，在快手創(chuàng)作者大會上首次公布了快手 AIGC 的進展，其核心旨在提升短視頻內(nèi)容的創(chuàng)作力和生產(chǎn)力。當時快手已經(jīng)開放了「可圖」大模型產(chǎn)品，支持文生圖和圖生圖兩類功能，已上線 20 余種 AI 圖像玩法。

整個 2023 年，是快手缺少 CTO 的一年，也是快手大模型組建團隊和業(yè)務的落地之年。從組織架構上看，快手大模型團隊隸屬于快手社區(qū)科學線，而業(yè)務包含大語言模型、文生圖大模型、視頻生成大模型等多個方向，但大語言模型和文生圖模型相比同行都乏善可陳。

中國版的 Sora 肯定也是王仲遠的期待之一，只是不知道他如何看待「可靈」。

離開快手之后，王仲遠代表智源研究院對外接受過采訪，談及 AGI(通用人工智能）正在加速到來，過去他覺得實現(xiàn)科幻片里超級人工智能的場景還有四五十年，現(xiàn)在他感覺可能再用四五年 AGI 就會誕生。

「Sora 的出現(xiàn)也是一個劃時代的時刻，它真正的價值不是文字生成精美的視頻，而是說明大模型可能具備了理解三維世界的能力。換句話說，Sora 初步展現(xiàn)了世界模型上的 scaling law（規(guī)模法則）?！雇踔龠h認為。

第一能維持多久？

當下的快手「可靈」備受好評，但國內(nèi) Sora 第一的位置能維持多久？

「可靈」唯一的使用渠道就是快手創(chuàng)作工具快影 App，但快影 App 的下載數(shù)據(jù)并沒有太大的波動。根據(jù)七麥數(shù)據(jù)，App Store 近七日日均下載量仍舊維持在 2 萬左右，在應用（免費）和攝影與錄像（免費）榜單上的排名依然保持穩(wěn)定，并沒有太大的變化曲線。

從商業(yè)路徑上看，目前「可靈」吸引的更多還是 C 端消費者。相比文生圖和文生文等模型在廣告等領域已經(jīng)有廣泛的使用場景，文生視頻大模型的使用場景依然有限，所以策略往往先服務于內(nèi)容生產(chǎn)者，不斷擴展消費端的使用場景，最終吸引 B 端客戶和商家付費使用。

更重要的是，國內(nèi) Sora 第一的競爭對手正在趕來的路上。

一方面是國內(nèi)市場，根據(jù)消息人士透露，字節(jié)跳動旗下視頻生成大模型也在內(nèi)測中，估計很快發(fā)布，也將依靠旗下創(chuàng)作工具剪映上線。對剪映來說，此前已經(jīng)上線的「即夢」已經(jīng)實現(xiàn)了文生視頻大模型的相應功能，只是目前這部分功能優(yōu)化程度不足而已。

而變化更快的是國際市場，就在 6月 13 日，Luma AI 首發(fā)了自己的視頻生成模型 Dream Machine，用戶可以通過文字或圖片生成高質(zhì)量的高清視頻，比快手「可靈」更進一步的是，Luma 實現(xiàn)了免費全量開放，登錄即用并不用預約等待。

但與快手「可靈」面臨的問題一樣，Luma AI 也面臨算力不足的問題，使用時需要長時間等待，等待結果也有可能是生成內(nèi)容失敗，所以算力是制約文生視頻大模型最大的瓶頸。

大模型行業(yè)此前公開過相關數(shù)據(jù)，大模型要實現(xiàn) Sora 類似的水平，就需要有千卡級別的算力，進一步優(yōu)化能力則需要萬卡級別的算力，這意味著大規(guī)模算力集群的調(diào)動能力，不論是使用英偉達的旗艦 GPU 芯片，還是華為昇騰的國產(chǎn) AI 芯片。

大模型競爭依然處于初期，AI 大模型本身對云服務來說是錦上添花，如何把應用落地做好，把成本最低，依然是當下大模型行業(yè)面臨的共同命題。

相比于字節(jié)跳動的大模型策略，快手在大模型上的策略僅僅有「可靈」依然是不夠的。字節(jié)跳動豆包大模型最明顯的策略和標簽就是成本低，通過價格戰(zhàn)大幅降低模型推理的單位成本，吸引 B 端客戶進入火山引擎的云服務之中。如果字節(jié)跳動發(fā)布視頻生成大模型，那一定是實現(xiàn)了成本更低的一條路。

無論如何，追趕 Sora，已經(jīng)成為大模型行業(yè)在 2024 年的主要共識和任務之一，快手要穩(wěn)住國內(nèi) Sora 第一的位置，還要面臨殘酷的考驗。

文|藍洞商業(yè) 趙衛(wèi)衛(wèi)

快手自研視頻生成大模型「可靈」上線后，截至目前，申請使用的預約人數(shù)已經(jīng)超過 6.5 萬。一時間，引發(fā)行業(yè)轟動。

但快手這種領先優(yōu)勢并不會維持太久，「字節(jié)跳動的視頻生成大模型也在內(nèi)測中，估計很快（發(fā)布）了?！剐袠I(yè)知情人士透露，預計跟快手類似，字節(jié)旗下視頻生成大模型也將通過旗下創(chuàng)作工具剪映最先上線。

更多競爭的對手正在趕來的路上。「6月底之前，大模型廠商都會不斷放出 Sora 類模型產(chǎn)品，文生視頻和圖生視頻大模型將遍地開花。」大模型行業(yè)分析人士認為，此前各家大模型廠商都具備了視頻生成能力，只是礙于算力成本以及視頻效果尚未全面優(yōu)化，所以并未全面鋪開。

大模型之戰(zhàn)，從技術卷到應用，從百模大戰(zhàn)卷到價格戰(zhàn)，視頻生成大模型會是下一個競爭高地嗎？答案正在揭曉。

彎道超車字節(jié)？

「可靈的效果是目前中國 Sora 類的第一，非常意外的是來自快手團隊?！剐袠I(yè)分析人士認為。

從快手「可靈」公布的數(shù)據(jù)看，中國版 Sora 確實是其對標的目標。

從技術路線上看，快手「可靈」采用的是跟 Sora 雷同的 DiT 架構，用 Transformer 代替了傳統(tǒng)擴散模型中基于卷積網(wǎng)絡的 U-Net?？焓执竽Ｐ蛨F隊還自研了一款 3D 時空聯(lián)合注意力模塊和 3D VAE 網(wǎng)絡，以實現(xiàn)更好的時空運動建模與更高效的隱空間編/解碼。

而從「可靈」的官方網(wǎng)站上，可以一目了然其產(chǎn)品賣點。

在推特上，對「可靈」的使用評價和評測非常廣泛。

「感覺大家也別等 Sora 這種又貴又費時的工業(yè)級 AI 了，先可靈免費用起來。快手這次真是讓人驚喜。」

「與國外的 Sora 視頻生成大模型相比，中國大模型開發(fā)者更理解本土文化，大模型生成的內(nèi)容也更能滿足本土用戶的需求。」

可靈背后的人

誰才是「可靈」背后的決定性人物？這可能是一個人才流動前仆后繼的故事。

因而這是王鑫濤認為最值得深入研究的問題，「傳統(tǒng)上，AI 生成的視頻往往局限于單一鏡頭，缺乏復雜場景下的連貫性和真實感。然而，Sora 卻能在復雜的長視頻中實現(xiàn)鏡頭的流暢切換，同時保持強大的三維、時序和物理一致性。」

可以說，快手「可靈」奇襲的背后，離不開王鑫濤這樣的騰訊前 AI 力量的貢獻。

而另外一方面，「可靈」出圈的背后，也意味著昔日快手 AI 團隊成員的某種失落。

中國版的 Sora 肯定也是王仲遠的期待之一，只是不知道他如何看待「可靈」。

第一能維持多久？

當下的快手「可靈」備受好評，但國內(nèi) Sora 第一的位置能維持多久？

更重要的是，國內(nèi) Sora 第一的競爭對手正在趕來的路上。

大模型競爭依然處于初期，AI 大模型本身對云服務來說是錦上添花，如何把應用落地做好，把成本最低，依然是當下大模型行業(yè)面臨的共同命題。

歷史搜索全部刪除

熱門搜索

快手可靈，把壓力給到了抖音剪映

彎道超車字節(jié)？

可靈背后的人

第一能維持多久？

快手

評論

快手可靈，把壓力給到了抖音剪映

彎道超車字節(jié)？

可靈背后的人

第一能維持多久？

快手可靈，把壓力給到了抖音剪映

彎道超車字節(jié)？

可靈背后的人

第一能維持多久？

快手

評論

快手可靈，把壓力給到了抖音剪映

彎道超車字節(jié)？

可靈背后的人

第一能維持多久？

快手可靈，把壓力給到了抖音剪映

彎道超車字節(jié)？

第一能維持多久？

快手可靈，把壓力給到了抖音剪映

第一能維持多久？