文|科技新知
ChatGPT的橫空出世,算是接管了元宇宙的“瘋狂游戲”。由后者衍生出的數(shù)字人產(chǎn)業(yè),雖然商業(yè)路徑屢受質(zhì)疑,但如今借著AI東風(fēng),再次被炒得火熱。
除了百度、阿里等大廠加碼布局外,不少上市企業(yè)更是聞風(fēng)而動,迅速沖到了新市場的牌桌面前。天娛數(shù)科、萬達信息、藍色光標、奧飛娛樂等,均提到正在研發(fā)相關(guān)技術(shù),并且試圖將數(shù)字人接入ChatGPT。
落地到應(yīng)用上,包括蒙牛、鐘薛高等消費品牌,紛紛推出數(shù)字代言人;眾多車企、銀行推出數(shù)字員工;薇婭背后的謙尋也在近期被曝出聯(lián)合虛擬偶像“星瞳”,開啟直播帶貨的嘗試。
更為直觀的感受是,打開短視頻平臺的直播間,AI數(shù)字人主播已經(jīng)取代了不少真人主播,進行24小時無間斷帶貨,甚至像咨詢顧問劉潤等在更新視頻內(nèi)容時,也都由數(shù)字人代替。
并且與此前不同,新一批的數(shù)字人,從外觀上看幾乎和真人一模一樣,口型也和所要說的內(nèi)容保持一致,只是在互動上還常常答非所問,無法實現(xiàn)情緒共鳴。
順應(yīng)趨勢,以抖音為代表的各大內(nèi)容平臺,開始規(guī)范人工智能生成內(nèi)容,發(fā)布行業(yè)規(guī)范,給出公開態(tài)度,這也意味著接下來的市場爆發(fā)或在眼前。
那么,為什么已經(jīng)“涼”過一次的數(shù)字人突然又爆火?進入GPT時代數(shù)字人會普及嗎?未來數(shù)字人發(fā)展還存在哪些難點?有替代真人的可能性嗎?
舊瓶裝了新酒
大多數(shù)人會以為,數(shù)字人是伴隨元宇宙的概念誕生的,但其雛形問世的時間還要更早。
2007年,日本公司Crypton Future Media就借助“初音未來”這一IP角色在年輕人心中打上“虛擬偶像”的烙印。盡管“元宇宙”一詞可以追溯到1992年發(fā)布的科幻小說《雪崩》,但直到2021年Facebook更名為“Meta”后,“數(shù)字人”的說法才開始真正走入大眾視野。
中國數(shù)字經(jīng)濟百人會發(fā)布的《數(shù)字人:數(shù)字經(jīng)濟新賽道》報告稱,整個2021年數(shù)字人相關(guān)企業(yè)融資共有2843起,融資金額達2540億元。
在元宇宙概念的加持下,大眾對數(shù)字人的熱情不亞于當(dāng)初的初音未來。虛擬博主一夜暴漲百萬粉絲的案例比比皆是;更有數(shù)字人偶像參加綜藝選秀,甚至B站還專門開設(shè)了虛擬人直播區(qū)。
但風(fēng)吹過后,有時也很難開出新花。
開發(fā)元宇宙業(yè)務(wù)本就是一項資本密集型的項目,而產(chǎn)業(yè)基礎(chǔ)設(shè)施目前尚不成熟,這也導(dǎo)致諸多投資者損失重大。
僅一年多時間,以Meta為代表的互聯(lián)網(wǎng)大廠開始因為元宇宙入不敷出,在扎克伯格一句“我錯了,我對此負責(zé)”后,數(shù)字人市場也隨之遇冷,逐漸淡出市場視線。
直到2022年底ChatGPT橫空出世,接棒元宇宙成為全球科技領(lǐng)域的超級大風(fēng)口。數(shù)字人作為信息技術(shù)交叉融合的前沿呈現(xiàn),再次被推到了聚光燈下。業(yè)內(nèi)人士普遍認為,將能夠產(chǎn)生長時間、多輪次、有邏輯文字互動的ChatGPT與數(shù)字人相結(jié)合,那么一個無限向人類思維靠近的虛擬人即將誕生。
一些熱衷追逐前沿的個人或團隊,率先進行了嘗試。
“這是我的首個數(shù)智人分身?!痹谡故玖艘黄谟伞氨救恕背鲧R的短視頻節(jié)目后,數(shù)字經(jīng)濟學(xué)者劉興亮告訴觀眾,視頻中與他形象、音色幾乎一模一樣,甚至同樣夾雜著山西口音的主播并非他本人,而是以他為原型制作的數(shù)字人。
國內(nèi)著名商業(yè)咨詢顧問劉潤更是將其視頻中幾乎所有真人出鏡部分內(nèi)容,換成了“分身”。
國外擁有180萬粉絲的Snapchat網(wǎng)紅Caryn Marjorie,更是開發(fā)了AI版本的自己,結(jié)合GPT-4,靠利用不同版本的Caryn AI,和粉絲談戀愛,按分鐘收費。
除了視頻博主,線上講師、帶貨主播、導(dǎo)游、導(dǎo)覽等職業(yè),也成了數(shù)字人批量“上崗”的熱門領(lǐng)域,相關(guān)企業(yè)紛紛落地產(chǎn)品。
幾天前,萬達集團首批數(shù)字人亮相,這些數(shù)字分身采用真人主播形象,并且做到了一人化身多種角色;另外薇婭背后的謙尋也是開始加班加點培訓(xùn)虛擬帶貨主播;甚至各種定制數(shù)字人的廣告都已隨處可見。
當(dāng)然,最讓行業(yè)興奮的還是,各大平臺對數(shù)字人的態(tài)度開始轉(zhuǎn)變。
因為不得到平臺的肯定和支持,博主、商家心里總會忐忑,擔(dān)心賬號有被封禁等風(fēng)險,繼而讓服務(wù)商也無法順利推進和解決行業(yè)的需求。不過隨著抖音率先公開表態(tài),發(fā)布平臺規(guī)范,預(yù)計接下來,會有更多互聯(lián)網(wǎng)平臺跟進。
與元宇宙時期相比,現(xiàn)在的數(shù)字人明顯更加大眾化。一位業(yè)內(nèi)人士直言,“去年數(shù)字人還只是大企業(yè)或網(wǎng)紅專屬,現(xiàn)在基本上到了每個人都能有自己數(shù)字化分身的階段”。而在「科技新知」看來,其中原因與大模型爆發(fā)、成本下降以及應(yīng)用場景開拓相關(guān)。
供給側(cè)突破
從技術(shù)實現(xiàn)路徑來看,目前國內(nèi)的數(shù)字人廠商主要以NLP技術(shù)、多模態(tài)融合交互、大模型、XR技術(shù)為底。
而隨著AI技術(shù)的提升和數(shù)據(jù)資源的豐富,以及更加先進的機器學(xué)習(xí)算法和深度學(xué)習(xí)模型的引入,數(shù)字人的智能水平得到了大幅提升。其中多模態(tài)AI技術(shù)使得數(shù)字人的交互能力更上一個臺階,感知能力、思維決策、內(nèi)容輸出能力都得到顯著改善,在思想、語言、行為上和真人更加接近、更加智能化。
此外,ChatGPT的出現(xiàn)也為業(yè)內(nèi)提供了發(fā)展捷徑。無論在哪種場景下,交互才是數(shù)字人的核心。如果說精美的CGI僅僅為這些數(shù)字人提供了一層漂亮的皮囊,那么它還需要一個真正“有趣的靈魂”和“聰明的大腦”。這就是大規(guī)模語言模型的用武之地。
數(shù)字人與生成式AI的結(jié)合,是整個產(chǎn)業(yè)發(fā)展的關(guān)鍵節(jié)點,二者正在產(chǎn)生相互作用。中國傳媒大學(xué)國家重點實驗室中心首席科學(xué)家沈浩認為,生成式AI的引入將為虛擬數(shù)字人賦予“最強大腦”。業(yè)內(nèi)專家也紛紛表示,虛擬數(shù)字人有望成為ChatGPT應(yīng)用的最佳化身和接口。
數(shù)字人和ChatGPT本質(zhì)上皆是智能度相對較高的人機交互。虛擬數(shù)字人可以向ChatGPT發(fā)出請求,獲取ChatGPT的回答,并將內(nèi)容呈現(xiàn)給用戶,對于企業(yè)來說甚至不需要單獨訓(xùn)練,便可在短時間內(nèi)批量生產(chǎn)數(shù)字人。目前已有企業(yè)在進行這方面的嘗試,例如虛擬技術(shù)服務(wù)商世優(yōu)科技。
AI技術(shù)除了給數(shù)字人帶來有趣的靈魂外,同時也覆蓋了數(shù)字人生產(chǎn)運營全流程,為行業(yè)帶來了更低的成本和更高效率,成為產(chǎn)品快速普及的基礎(chǔ)。
事實上,高昂的制作和運營成本一度讓不少中小企業(yè)望而卻步。以此前火爆的“美妝達人柳夜熙”為例,公開信息顯示,其3到4分鐘的視頻制作周期為一個多月,成本高達幾十萬元。曾經(jīng)復(fù)雜的訓(xùn)練樣本數(shù)據(jù)采集,也導(dǎo)致數(shù)字人定制過程長,一定程度上限制了其快速應(yīng)用落地。
如今,隨著技術(shù)進步,數(shù)字人的制作時長和成本都在持續(xù)降低,甚至不少企業(yè)都開始了工廠式批量生產(chǎn)。
最開始,業(yè)內(nèi)做一個數(shù)字人需要幾個月,去年是以幾周為單位,今年做一些2D小樣本數(shù)字人已經(jīng)可以達到小時級,并且成本降至千元級別?,F(xiàn)在只需要錄制幾分鐘的真人口播視頻、幾句語音素材形成一個“小樣本”,再通過基于自監(jiān)督機制的通用多模態(tài)模型經(jīng)過大規(guī)模數(shù)據(jù)訓(xùn)練,就能獲得與真人形象、語音近似的數(shù)字人。
在直播行業(yè),數(shù)字人的成本優(yōu)勢更為明顯。一名采用數(shù)字人直播的企業(yè)負責(zé)人提到:“一個AI主播定制費用是8000元,一年系統(tǒng)使用費8萬多元,而一個真人主播平均月薪兩萬元,一年也要24萬元,可以省下來10多萬元。二十個主播,一年就可以節(jié)省 200 萬元。”這還不算“閑時流量”所帶來的效益。
更智能的表現(xiàn)以及更低的成本,也挖掘出更廣泛的應(yīng)用場景。之前數(shù)字人主流應(yīng)用可能僅局限在代言、虛擬偶像等輕度互動場景,現(xiàn)在除直播帶貨外,就連一些博主的日更都采用數(shù)字人,另外一些投資顧問、銷售甚至醫(yī)院醫(yī)師等都逐漸出現(xiàn)數(shù)字人的身影。
不過仍要注意,雖然快速低成本生成的數(shù)字人在服務(wù)性需求契合度上有較大成長,訓(xùn)練完成基本可以接入應(yīng)用場景;但客觀來說,更精細的打磨和團隊可控性等等,還都有待完善。
待填的空白
自人工智能問世,“AI威脅論”的探討就從未停歇。ChatGPT火爆之際,也有人立刻列出了“最可能被ChatGPT取代的職業(yè)”清單,數(shù)字人帶貨的爆火也讓“取代李佳琦”成了直播行業(yè)關(guān)注的熱點。
不過現(xiàn)在鼓吹A(chǔ)I數(shù)字人將全面取代主播、大V等業(yè)態(tài),還屬言之過早。
首先需要明白的一點,現(xiàn)階段的數(shù)字人主播,還算不上“真正的AI”。
「科技新知」在瀏覽多個數(shù)字人直播間后發(fā)現(xiàn),幾乎所有“主播”只能根據(jù)前期輸入的文本進行復(fù)述,動作也是循環(huán)播放的,交互能力和隨機應(yīng)變能力幾乎為零。
另外,并非所有用戶都對數(shù)字人抱有好感。“一旦發(fā)現(xiàn)不是真人在直播,我會立刻滑走?!币晃粺嶂杂谠谥辈ラg購物的消費者為此做出了解釋,自己通常是被主播極具特色的個人風(fēng)格所吸引,而數(shù)字人主播即便再逼真,也很難復(fù)刻這種“人情味”。“一個很簡單的細節(jié),你打在公屏上互動的語句,主播都看不懂、無法完成互動,甚至無法展示產(chǎn)品,那直播帶貨的意義何在?”
人機語音交互服務(wù)商一知智能CTO李一夫認為,目前生成式AI通過大模型形成答案的速度還比較慢,而交互場景對于實時性的速度要求又非常高,所以當(dāng)前生成式AI還不能直接運用到數(shù)字人的交互上,這個也是未來需要大模型去解決的問題之一。
從平臺角度來看,雖然已經(jīng)有平臺明確為數(shù)字人發(fā)放通行證,但平臺強調(diào)的重點在于內(nèi)容是否優(yōu)質(zhì),然而在抖音、快手、視頻號上,這些AI直播在某種程度上算是經(jīng)過了包裝的錄播和無人直播,既稱不上優(yōu)質(zhì),也得不到流量扶持。
所以,未來數(shù)字人運營人員還是需要花費精力研究如何獲取流量,如何制定更好的內(nèi)容,并把這些輸入小模型,以生成更好地運行腳本。
其次,數(shù)字人技術(shù)在應(yīng)用時也需要十分謹慎。
2018年圖靈獎得主Geoffrey Hinton曾表示,非常擔(dān)憂AI所帶來的虛假信息傳播。這并非空穴來風(fēng),國內(nèi)外飽受AI變臉困擾的明星不在少數(shù)。網(wǎng)絡(luò)上曝出的以人臉、聲音合成技術(shù)為手段進行詐騙的活動也屢見不鮮。甚至,如果數(shù)字人技術(shù)用在了直播現(xiàn)場,一旦出現(xiàn)黑客侵入等問題,可能會產(chǎn)生極大負面影響。
因此,在進一步規(guī)模化應(yīng)用之前,數(shù)字人技術(shù)的安全性保障、數(shù)字人運營團隊權(quán)限的可控性、相關(guān)部門的立法監(jiān)管等方面都有待完善。
經(jīng)過元宇宙、GPT的雙重洗禮,數(shù)字人雖已不是新生事物,但行業(yè)對其認識還存在不少空白。整體來看,數(shù)字人的進化路徑由擬人化走向同人化,最終將走向超人化,實現(xiàn)歸真超實。當(dāng)然這個過程中,如何給用戶前所未有的情感體驗,讓用戶接納,如何建設(shè)好周邊生態(tài),教育好用戶,如何建立行業(yè)規(guī)范標準,健全監(jiān)管制度,都將成為這個新生產(chǎn)業(yè)發(fā)展的關(guān)鍵所在。