界面新聞記者 | 陳振芳
界面新聞編輯 | 文姝琪
9月6日上午,在界面新聞舉辦的2024 REAL科技大會上, 商湯數(shù)字文娛事業(yè)部總經(jīng)理欒青在演講中介紹,商湯為AI大模型全方位布局,覆蓋算力基礎(chǔ)層、AI模型層與上層應(yīng)用。
商湯大裝置管理的算力實現(xiàn)了全國聯(lián)網(wǎng)的統(tǒng)一調(diào)度,在上海、深圳、廣州、福州、濟南、重慶等地都拓展了新的計算節(jié)點,截止2024年7月,總算力規(guī)模高達(dá)20000 petaFLOPS ,已有超5.4萬塊GPU。
今年7月,商湯發(fā)布“日日新5o”模型,交互體驗對標(biāo)GPT-4o,實現(xiàn)全新AI交互模式。該模型能夠整合跨模態(tài)信息,通過基于聲音、文本、圖像和視頻等多種形式,呈現(xiàn)實時的流式多模態(tài)交互。
在視頻生成領(lǐng)域,商湯在7月發(fā)布首個“可控”人物視頻生成大模型Vimi,該模型主要面向C端用戶,支持聊天、唱歌、舞動等多種娛樂互動場景。Vimi可生成長達(dá)1分鐘的單鏡頭人物類視頻,畫面效果不會隨著時間的變化而劣化或失真,通過一張任意風(fēng)格的照片就能生成和目標(biāo)動作一致的人物類視頻,通過已有人物視頻、動畫、聲音、文字等多種元素進(jìn)行驅(qū)動。
欒青提出,2024年將成為AI視頻的應(yīng)用元年,未來三到五年,更多應(yīng)用場景將隨著模型能力提升和推理成本下降逐步解鎖。
其次,AI視頻生成將重塑傳統(tǒng)視頻制作工作,整合音視頻創(chuàng)作的流程方法變?yōu)橐粋€整體,降低AI視頻內(nèi)容的制作門檻,并以全新視頻交互界面展現(xiàn)。
過去十幾年,視頻產(chǎn)業(yè)一直不斷地發(fā)展,制作一個視頻從幾百人的團隊,精簡至幾十個人的網(wǎng)劇團隊,再到個人也可以創(chuàng)作短視頻。技術(shù)推動下,視頻團隊和制作時間不斷精簡,而視頻數(shù)量卻在指數(shù)級的爆增,人類的消費習(xí)慣從曾經(jīng)的看文案、圖片、新聞,變成了看視頻。
欒青認(rèn)為,當(dāng)視頻的生成速度更快,甚至達(dá)到實時生成視頻,AI能夠帶來新的交互體驗,例如通過算法自動地控制人物動作,實時可交互的視頻。
當(dāng)前,AI視頻生成有兩大方向,一是用文字提示生成視頻;另一個則是用其他信號,比如可控的邏輯性信號。例如動畫設(shè)計師會捕捉人體和自然信號,再讓人工智能學(xué)習(xí),最終完成。這樣生成的人物不僅合理,還能隨著可控的信號進(jìn)行變化。
欒青也提到,AI視頻大模型在人物類視頻生成上存在三大挑戰(zhàn):人物動作、表情難以精確控制,出效果僅靠大量“抽卡” ;人物身份穩(wěn)定性不高,“常常換長相” ;僅支持穩(wěn)定生成3-4秒時長,難以滿足需求。因此,日常視頻創(chuàng)作尚未達(dá)到可用的階段。
“當(dāng)前人們每天看到的視頻80%都是人物為主題的視頻?!?/p>
欒青介紹,商湯正在嘗試用APP幫助用戶來生成視頻寫真大片,利用AI算法控制運鏡、光影變化、人物背景,讓內(nèi)容變得更真實和自然。例如用戶輸入一張照片,大模型產(chǎn)品也可以用不同的動畫方式去制作內(nèi)容,讓內(nèi)容形式更為豐富。
欒青認(rèn)為,隨著AGI技術(shù)在視頻領(lǐng)域的深入,除了生產(chǎn)效率的變化,更多的是全新體驗。大模型的能力可以讓普通人更好的進(jìn)行創(chuàng)作。