文|第一新聲 夏雨
編輯|也行
校對(duì)/Tina、Rita
策劃/Eason
據(jù)IDC預(yù)測,中國數(shù)字人市場規(guī)模預(yù)計(jì)到2026年達(dá)102.4億元。這其中不僅包括正在快速發(fā)展中的B端市場,還有被視為潛力股的C端市場。尤其是在AIGC大模型高速發(fā)展的當(dāng)下節(jié)點(diǎn),數(shù)字人的滲透率將會(huì)增強(qiáng)。
目前,諸多廠商已經(jīng)入局。今年8月,華為宣布推出盤古數(shù)字人大模型,可幫助用戶 12 小時(shí)完成數(shù)字人生成。此前騰訊推出了一些基于特定場景的虛擬數(shù)字人,如平安普惠數(shù)字員工、新華社主播“新小微”、航天員“小諍”、3D手語翻譯官“聆語”、故宮博物館導(dǎo)游“福大人”等。阿里巴巴的虛擬數(shù)字人為自身業(yè)務(wù)需求服務(wù),仍是以直播帶貨為主......
那么,在AIGC大模型浪潮下的數(shù)字人發(fā)展情況究竟如何?數(shù)字人將會(huì)應(yīng)用到哪些場景?面臨哪些技術(shù)挑戰(zhàn)?成本多少?本篇內(nèi)容采訪了心識(shí)宇宙產(chǎn)品VP陳陽、世優(yōu)科技創(chuàng)始人&CEO 紀(jì)智輝、行業(yè)從業(yè)者李元(化名)等,試圖解答上述問題。
01、AIGC加持下,數(shù)字人開始狂飆?
騰訊發(fā)布《數(shù)字人產(chǎn)業(yè)報(bào)告》中,將數(shù)字人界定為“以數(shù)字形式存在于數(shù)字空間中,具有擬人或真人的外貌、行為和特點(diǎn)的虛擬人物?!?nbsp;
2023年,隨著AIGC的強(qiáng)勢崛起和類ChatGPT語言大模型的問世,數(shù)字人賽道變得越發(fā)熱鬧起來。開始頻繁出現(xiàn)在各大應(yīng)用場景,以及文旅、電商、金融等多個(gè)行業(yè),形形色色的虛擬數(shù)字人正代替真人,充當(dāng)著代言人、主播、播報(bào)員、客服和智能助理的角色。
市場的參與者也肉眼可見變多。互聯(lián)網(wǎng)大廠、創(chuàng)業(yè)公司、老牌AI公司和一些此前做智能客服營銷的數(shù)字服務(wù)商和資方都躬身入局。
銳觀網(wǎng)數(shù)據(jù)顯示,截至2022年12月,中國數(shù)字人行業(yè)投融資事件超過140件。據(jù)IDC發(fā)布的《中國AI數(shù)字人市場現(xiàn)狀與機(jī)會(huì)分析2022》報(bào)告中,預(yù)計(jì)到2026年中國AI數(shù)字人市場規(guī)模將達(dá)到102.4億元。
對(duì)于數(shù)字人產(chǎn)業(yè)越來越熱的現(xiàn)象,多位受訪人總結(jié)出三個(gè)原因。
一是從技術(shù)上來看,AIGC的出現(xiàn)解決了數(shù)字人“只會(huì)念稿、不能交互”等諸多痛點(diǎn)。 生成算法提高了內(nèi)容創(chuàng)作的效率和便捷性,降低了成本和門檻,同時(shí)還豐富了內(nèi)容創(chuàng)作的多樣性和個(gè)性化,滿足了用戶的不同需求和喜好。自然語言處理大模型有助于提升數(shù)字人交互體驗(yàn),讓數(shù)字人從過去的“沒有大腦沒有靈魂”找到了一個(gè)比較好的出口。
與此同時(shí),建模渲染、 AI生成動(dòng)作捕捉等技術(shù)也在不斷的進(jìn)步,讓整個(gè)數(shù)字人的表現(xiàn)比普通的 AI機(jī)器人更加像自然人,對(duì)信息、知識(shí)的挖掘和梳理更充分,對(duì)語句的處理更加貼近人類的日常交流表達(dá)習(xí)慣。
二是90后、00后為代表的“網(wǎng)絡(luò)原住民”,對(duì)虛擬角色的接受程度逐漸深入,很容易對(duì)虛擬角色投入情感。
三是國內(nèi)數(shù)字經(jīng)濟(jì)的進(jìn)一步發(fā)展趨勢下,讓企業(yè)降本增效的經(jīng)營需求起到了助推作用。
行業(yè)從業(yè)者李元(化名)同意該觀點(diǎn),并以直播場景為例解釋,真人直播需要花費(fèi)一定成本來搭建直播場景,而且隨著抖音、美團(tuán)等平臺(tái)開啟本地生活直播,人才缺口也是一個(gè)問題,數(shù)字人恰好能填補(bǔ)這個(gè)缺口,而且能夠做到7×24小時(shí)無休。
“公司通過AI技術(shù)在數(shù)字人‘造人、養(yǎng)人、用人’三個(gè)不同階段均實(shí)現(xiàn)成本控制、規(guī)?;a(chǎn)能力。在AI產(chǎn)品方面,今年世優(yōu)科技推出了世優(yōu)BOTA、世優(yōu)AI數(shù)字人直播系統(tǒng)AI數(shù)字人產(chǎn)品體系。通過AI與數(shù)字人的結(jié)合應(yīng)用,實(shí)現(xiàn)批量化打造虛擬人,為行業(yè)降本增效。”世優(yōu)科技創(chuàng)始人&CEO 紀(jì)智輝說道。
當(dāng)前,數(shù)字人的應(yīng)用越來越廣泛,無論是B端還是C端都出現(xiàn)了數(shù)字人的身影。清華大學(xué)發(fā)布的《虛擬數(shù)字人研究報(bào)告2.0版》顯示,數(shù)字人已經(jīng)滲透到各行各業(yè),成為新一代的生產(chǎn)力和創(chuàng)造力。從頭部企業(yè)的布局來看,數(shù)字人產(chǎn)品服務(wù)在B端占有79%的市場,而在C端占比36%。
在數(shù)字人的B端應(yīng)用場景方面,心識(shí)宇宙產(chǎn)品VP陳陽坦言:“主要是做客服、營銷、文旅導(dǎo)游以及AI直播等, 因?yàn)锳I直播本質(zhì)上也是在與觀看直播的用戶互動(dòng)、回答用戶提出的問題。難點(diǎn)在于數(shù)字人客服如何快速的為交流對(duì)象提供正確的答案?基于ChatGPT大語言模型,數(shù)字人可以得到很多信息,但同時(shí)也會(huì)出現(xiàn)無法準(zhǔn)確回答交流對(duì)象、甚至是編造答案的現(xiàn)象。這對(duì)客服場景會(huì)帶來致命的傷害。”
在數(shù)字人的行業(yè)應(yīng)用落地方面,IDC的相關(guān)報(bào)告介紹,金融行業(yè)是當(dāng)下數(shù)字人應(yīng)用相對(duì)更成熟的領(lǐng)域,到2025年,超過80%的銀行都將部署數(shù)字人,承擔(dān)90%的客服和理財(cái)咨詢服務(wù)。 例如浦發(fā)銀行是國內(nèi)最早“聘用”數(shù)字員工的銀行,目前3D數(shù)字人“小浦”已經(jīng)在20多個(gè)崗位任職,包括財(cái)富規(guī)劃師、文檔審核員、大堂經(jīng)理、電話客服等。
此外,企業(yè)的數(shù)字人可以與內(nèi)部系統(tǒng)綁定,員工可以跟它交流了解公司的規(guī)章制度,查詢各種信息等。
未來,數(shù)字人將在醫(yī)療、教育、制造等多個(gè)領(lǐng)域發(fā)揮作用,例如在醫(yī)療領(lǐng)域,數(shù)字人可以作為認(rèn)知智能大模型,輔助醫(yī)生進(jìn)行診斷和治療;在教育領(lǐng)域,數(shù)字人可以作為個(gè)性化教學(xué)助手,幫助學(xué)生提高學(xué)習(xí)效果。
接受采訪的幾位業(yè)內(nèi)人士都表示,未來C端也是一個(gè)比較有潛力的市場,未來可能人人都會(huì)有一個(gè)屬于自己的數(shù)字人,但從成本、技術(shù)、設(shè)備來看,還需要經(jīng)歷一段時(shí)間的發(fā)展。
02、難以逾越的成本高墻,3D數(shù)字人成本達(dá)100萬
想要躬身入局的企業(yè),需要懂得計(jì)算投入產(chǎn)出比。
目前,數(shù)字人分為兩類,一類是由人驅(qū)動(dòng)的“中之人”, 是指依靠人力驅(qū)動(dòng)虛擬主播進(jìn)行直播,這種驅(qū)動(dòng)方式需要進(jìn)行大量的拍攝及后期工作,成本較高,眾多3D虛擬人采用的便是中之人驅(qū)動(dòng)。
另一類是AI驅(qū)動(dòng)數(shù)字人, 指通過使用機(jī)器學(xué)習(xí),喂養(yǎng)數(shù)據(jù)等方式訓(xùn)練數(shù)字人完成特定的任務(wù)。這類數(shù)字人通常應(yīng)用于工作重復(fù)量高的服務(wù)型場景,目前在直播間帶貨的2D真人數(shù)字人大都屬于該類。
3D數(shù)字人往往以動(dòng)畫人物形象出現(xiàn),適用于虛擬IP的打造。對(duì)于該類型數(shù)字人來說,從面部輪廓到服飾場景都需要自定義打造,成本通常會(huì)更高,制作周期也會(huì)更長,報(bào)價(jià)超過20萬元。
例如英偉達(dá)曾在官方博客中稱,黃仁勛虛擬人在發(fā)布會(huì)上出鏡的14秒視頻,共有34位3D美術(shù)師和15位軟件工程師協(xié)同參與,總計(jì)近千工時(shí)。
這樣高昂的成本得到了李元的證實(shí),“在傳統(tǒng)的3D建模技術(shù)下,一個(gè)能看得過去的定制數(shù)字人,需要幾十萬的成本,這還只是冰山一角?!?nbsp;
據(jù)世優(yōu)科技CEO紀(jì)智輝介紹稱,市場一般將數(shù)字人成本分為3部分,即造人、養(yǎng)人、用人。第一部分是造人,通過角色創(chuàng)意、原畫、建模、綁定、表情、實(shí)時(shí)渲染等環(huán)節(jié),可按照風(fēng)格生產(chǎn)出卡通Q版,迪士尼人形、二次元、次世代、美型寫實(shí)、超寫實(shí)等不同風(fēng)格。價(jià)格從幾萬到上百萬不等。
第二部分是養(yǎng)人 ,當(dāng)數(shù)字人被造出之后,還需要低成本、高頻不斷的輸出內(nèi)容,用數(shù)字人生成內(nèi)容,養(yǎng)出IP認(rèn)知度。例如數(shù)字人需要出一條短視頻或者一條TVC廣告片,其成本則是根據(jù)內(nèi)容的精度、效果以及腳本內(nèi)容不同等因素來決定,一分鐘成本從幾千、幾萬到幾十萬不等,主要取決于腳本的難易程度。
第三部分是用人 ,主要是指數(shù)字人生產(chǎn)內(nèi)容后所應(yīng)用的場景?!?目前,世優(yōu)科技在用人方面涉及十大應(yīng)用場景,包括廣電媒體、品牌營銷、電商直播、短視頻、政府文旅、教育娛樂、影視劇、 AR/VR/AI 、NFT、元宇宙等各類線上線下場景。比如數(shù)字人做虛擬主播、媒體記者、活動(dòng)主持人、線下展廳接待員等等。根據(jù)客戶的項(xiàng)目需求,涉及相關(guān)執(zhí)行的成本?!奔o(jì)智輝說道。
不同類型的數(shù)字人所產(chǎn)生的成本差異較大,應(yīng)用AI生成技術(shù)研發(fā)的2D數(shù)字人相比之下,成本便宜很多?!罢w來說,2D數(shù)字人的成本只有3D的1/10或者1/20,這是目前相對(duì)接地氣、市場上容易接受的水平?!奔o(jì)智輝說道。
世優(yōu)科技擁有2D數(shù)字人相關(guān)產(chǎn)品線。2D不需要建模,生產(chǎn)過程也相對(duì)簡單,主要是通過拍攝一段真人視頻后通過AI技術(shù)訓(xùn)練而成,造人成本只需要幾千塊錢。在養(yǎng)人生成內(nèi)容方面也只需要輸入腳本,數(shù)字人就能講話做到對(duì)外輸出,養(yǎng)人成本只需要幾塊錢/分鐘,之后會(huì)接近于0。
當(dāng)然,2D數(shù)字人并不能適用于所有場景,在游戲場景和虛擬偶像這樣的賽道中,企業(yè)只能使用高價(jià)的3D數(shù)字人,成本負(fù)擔(dān)可想而知。而且無論2D數(shù)字人還是3D數(shù)字人,都面臨著內(nèi)容劣勢。
今年5月抖音發(fā)布AI標(biāo)識(shí)令,開始監(jiān)管數(shù)字人這一新物種。在內(nèi)容上沒有競爭力,只會(huì)重復(fù)口播的大量2D數(shù)字人被封禁。紀(jì)智輝提到,因?yàn)槎兑?、快手、微信是?nèi)容與電商平臺(tái),所以主播必須提供高質(zhì)量的內(nèi)容。而AI生成的部分內(nèi)容質(zhì)量不高,平臺(tái)就不給流量,最終導(dǎo)致了東西賣不出去。所以數(shù)字人實(shí)現(xiàn)高銷量的帶貨,是需要配備運(yùn)營團(tuán)隊(duì)、好的貨盤等好幾個(gè)因素疊加才能把帶貨ROI做好。
至于大眾對(duì)于AI所引發(fā)的“換臉”、“永生”等風(fēng)險(xiǎn)的擔(dān)憂,李元表示:“任何新技術(shù)的出現(xiàn)和應(yīng)用都需要一些相應(yīng)的規(guī)范,監(jiān)管也在做出反應(yīng)。今年1月份,有關(guān)部門就出臺(tái)了AI生成內(nèi)容的一些監(jiān)管政策。市場內(nèi)的正規(guī)廠商對(duì)此也很重視,這些廠商都有自我規(guī)范和要求?!?nbsp;
03、三個(gè)技術(shù)難題,數(shù)字人無法像人“生動(dòng)靈活”
值得注意的是,當(dāng)下大模型驅(qū)動(dòng)的數(shù)字人產(chǎn)品仍處于應(yīng)用落地的早期階段。除了上述提到的成本制約因素以外外,業(yè)界普遍認(rèn)為現(xiàn)階段,技術(shù)成熟度和效率也仍然是數(shù)字人的難題之一。
有研究報(bào)告將數(shù)字人的特征總結(jié)為3點(diǎn),但技術(shù)在這些特征上的呈現(xiàn)均有許多不足之處。
一是數(shù)字人擁有人的外觀,具有特定的相貌、性別和性格等人物特征。
“如果客戶不選擇超寫實(shí)數(shù)字人,即完全復(fù)刻一個(gè)真人的狀態(tài),那么數(shù)字人的外觀技術(shù)已經(jīng)較為成熟了,只是數(shù)字人的表情、動(dòng)作仍有卡點(diǎn)。但是在沒有真人動(dòng)捕而是完全通過自我驅(qū)動(dòng)的情況下,數(shù)字人很難呈現(xiàn)出自然的表情和動(dòng)作?!标愱栒f道。
二是數(shù)字人擁有人的行為,具有用語言、面部表情和肢體動(dòng)作表達(dá)的能力。但不少數(shù)字人產(chǎn)品在語音、表情、互動(dòng)表現(xiàn)上目前還比較生硬。
李元認(rèn)為,由于數(shù)字人缺乏情緒、情感的表達(dá)能力,例如在感到生氣或委屈時(shí),無法用更豐富面部表情和更大的肢體動(dòng)作來呈現(xiàn),導(dǎo)致數(shù)字人雖然擁有了人的外貌、聲音,卻無法像人一樣生動(dòng)靈活的原因。
三是擁有人的思想,具有識(shí)別外界環(huán)境、并能與人交流互動(dòng)的能力。
“雖然ChatGPT的出現(xiàn)賦予了數(shù)字人大腦,但如果市場希望刻畫一個(gè)有特定個(gè)性,甚至有自己成長經(jīng)歷、世界觀的一個(gè)角色,單純使用ChatGPT很難實(shí)現(xiàn),目前整個(gè)技術(shù)還不能很好的支持這個(gè)事情?!崩钤f道。
據(jù)悉,目前AI還不夠智能,這導(dǎo)致智能驅(qū)動(dòng)型(TTSA人物模型)的交互型數(shù)字人只能作為補(bǔ)充型的角色存在(游戲場景除外),市面上仍以真人驅(qū)動(dòng)的為主,比如在視頻直播和展臺(tái)上的充當(dāng)主播的數(shù)字人。
陳陽觀察稱,展臺(tái)會(huì)用全息技術(shù)投訴一個(gè)角色與訪客互動(dòng)。AI驅(qū)動(dòng)的數(shù)字人則主要是充當(dāng)文旅導(dǎo)游,同時(shí)在一些淘寶直播間也會(huì)出現(xiàn),在真人主播無法覆蓋的時(shí)間段,會(huì)使用這樣的數(shù)字人,應(yīng)用場景比較有限。
不過紀(jì)智輝認(rèn)為,隨著AI技術(shù)發(fā)展,未來AI驅(qū)動(dòng)型的交互型數(shù)字人市場可能會(huì)比較廣闊。真人驅(qū)動(dòng)型數(shù)字人會(huì)更適合進(jìn)3D空間實(shí)時(shí)互動(dòng),比如3D數(shù)字人實(shí)時(shí)互動(dòng)直播、元宇宙這樣的應(yīng)用場景。
從年初熱鬧至今,從業(yè)者與客戶們也觀察到,市場已經(jīng)在呈現(xiàn)理性回歸狀態(tài)。一些喧囂和割韭菜類的廠商與代理商等角色在加速出清,希望未來數(shù)字人真正為企業(yè)實(shí)現(xiàn)降本增效。