記者 | 崔鵬
4月25日,騰訊云首次對(duì)外公布小樣本數(shù)智人生產(chǎn)平臺(tái),該平臺(tái)具有訓(xùn)練樣本小、生產(chǎn)效率高、自動(dòng)化生產(chǎn)等特性,可以實(shí)現(xiàn)低成本“自助式”數(shù)智人生產(chǎn)制作。
雖然數(shù)字人越來越受企業(yè)和廣告主的歡迎,但高昂的制作和運(yùn)營(yíng)成本問題仍然有待解決。過往復(fù)雜的訓(xùn)練樣本數(shù)據(jù)采集,導(dǎo)致數(shù)字人定制過程長(zhǎng)、成本高,一定程度上限制了數(shù)字人的快速應(yīng)用落地。
本次騰訊云智能推出的平臺(tái),依托騰訊自研AI能力和技術(shù)經(jīng)驗(yàn),只需要3分鐘真人口播視頻、100句語音素材,平臺(tái)便可通過音頻、文本多模態(tài)數(shù)據(jù)輸入,實(shí)時(shí)建模并生成高清人像,在24小時(shí)內(nèi)制作出與真人近似的“數(shù)智人”。
借助該平臺(tái),數(shù)字人制作能實(shí)現(xiàn)千元級(jí)別的成本和小時(shí)級(jí)的制作時(shí)長(zhǎng),大幅降低數(shù)字人使用門檻。
騰訊云智能數(shù)智人產(chǎn)品總經(jīng)理陳磊表示,騰訊云智能希望建設(shè)自動(dòng)化的“AI+數(shù)智人工廠”,依靠“產(chǎn)、銷、服”的一站式平臺(tái),實(shí)現(xiàn)“自助式”購(gòu)買、生產(chǎn)和應(yīng)用數(shù)智人。
騰訊云智能依托于自研小樣本數(shù)智人驅(qū)動(dòng)技術(shù)框架,以及基于自監(jiān)督機(jī)制的通用多模態(tài)模型,讓用戶實(shí)現(xiàn)提交少數(shù)樣本數(shù)據(jù)進(jìn)行AI訓(xùn)練。
例如3分鐘真人口播視頻、100句語音素材,就能獲得與真人形象、語音近似的數(shù)智人,生產(chǎn)周期縮短至天級(jí)別,價(jià)格也能低至千元級(jí)別。
陳磊表示,小樣本數(shù)智人支持半身、全身形象展示,手勢(shì)動(dòng)作會(huì)根據(jù)內(nèi)容靈活調(diào)整,也支持錄制背景任意更換,適用于直播帶貨等更廣泛的商用場(chǎng)景。
相較于2D真人精品數(shù)字人,小樣本數(shù)智人無需專業(yè)影棚錄制素材,成本更低;相較于照片生成、僅能呈現(xiàn)面部形態(tài)的數(shù)字人,小樣本數(shù)智人可根據(jù)文本設(shè)計(jì)手勢(shì),唇動(dòng)、口型、表情復(fù)現(xiàn)真人風(fēng)格。
以知識(shí)分享口播視頻生產(chǎn)為例,小樣本數(shù)智人可以代醫(yī)生、律師等專業(yè)人士出鏡,大大節(jié)省視頻錄制時(shí)間。
為了加速數(shù)智人服務(wù)普及,騰訊云智能還提出自動(dòng)化“AI+數(shù)智人工廠”的方向。開箱即用的數(shù)智人生產(chǎn)服務(wù),依托騰訊云TI平臺(tái),內(nèi)置超過10項(xiàng)AI算法能力。未來,無需任何算法、研發(fā)經(jīng)驗(yàn),只要在平臺(tái)導(dǎo)入視頻、語音訓(xùn)練素材,即可通過“自助式”服務(wù),完成大批量數(shù)智人形象、音色定制。
針對(duì)數(shù)智人的運(yùn)營(yíng),騰訊還提供了播報(bào)數(shù)智人平臺(tái)和交互數(shù)智人平臺(tái)服務(wù)。播報(bào)數(shù)智人平臺(tái)支持通過文字、語音輸入快速生成數(shù)智人視頻;交互數(shù)智人平臺(tái)可打造數(shù)智員工,定制專屬問答庫(kù),提供7*24小時(shí)人機(jī)雙向交互服務(wù),還能實(shí)現(xiàn)數(shù)智人直播服務(wù),自由切換真人語音接管,與用戶問答互動(dòng)。
騰訊自2018年開始投入數(shù)智人研發(fā)和服務(wù),是國(guó)內(nèi)最早投入數(shù)字人領(lǐng)域的企業(yè)之一,已發(fā)布數(shù)百篇相關(guān)技術(shù)頂會(huì)、期刊論文、專利近百份。
對(duì)于騰訊數(shù)字人的技術(shù)特點(diǎn),騰訊優(yōu)圖實(shí)驗(yàn)室研究總監(jiān)汪鋮杰稱,2D小樣本技術(shù)的背后是3D技術(shù)。
“小樣本數(shù)智人從直觀上感受是2D視頻,背后其實(shí)是3D人像在做支撐,是一個(gè)從‘文本/音頻’信息到‘3D人像驅(qū)動(dòng)’,再到‘2D人像視頻’的模式。通過對(duì)3D人臉結(jié)構(gòu)的先驗(yàn)信息引入,使數(shù)智人口型、表情更到位。”汪鋮杰表示。
另一方面,基于自監(jiān)督機(jī)制的通用多模態(tài)模型經(jīng)過大規(guī)模數(shù)據(jù)訓(xùn)練,可以將語音、文本與人像的表情、口型進(jìn)行關(guān)聯(lián)。
汪鋮杰表示,小樣本數(shù)智人使用門檻、成本都大幅降低,但騰訊希望通過綜合運(yùn)用多項(xiàng)視覺AI技術(shù),提升小樣本數(shù)智人品質(zhì),其中就包括高精度人像分割、光照優(yōu)化、人像美化、視線矯正等。
在聲音復(fù)刻方面,基于騰訊自研的新一代小樣本音色定制技術(shù),以及深度學(xué)習(xí)的聲學(xué)模型及神經(jīng)網(wǎng)絡(luò)聲碼器,小樣本數(shù)智人改善了傳統(tǒng)聲學(xué)模型語音韻律單一,語調(diào)平淡的問題,讓語音合成更加精細(xì)。
此外,通過構(gòu)建大規(guī)模高質(zhì)量音色數(shù)據(jù)的預(yù)訓(xùn)練基底模型,未來小樣本數(shù)智人還將支持用戶只錄制普通話即可合成英文及方言語音。
目前,騰訊云智能數(shù)智人已經(jīng)覆蓋3D寫實(shí)、3D半寫實(shí)、3D卡通、2D真人、2D卡通五種形象風(fēng)格,可實(shí)現(xiàn)超細(xì)微面部情感表情以及數(shù)百種肢體動(dòng)作,支持形象資產(chǎn)管理、業(yè)務(wù)服務(wù)配置及內(nèi)容生產(chǎn)相關(guān)服務(wù)。據(jù)悉已有數(shù)十家合作伙向行業(yè)提供數(shù)智人直播SaaS、知識(shí)口播SaaS應(yīng)用,覆蓋醫(yī)療、傳媒、金融多個(gè)行業(yè)。