正在閱讀:

距離成為有情感的數字人主播,AI劉強東還要邁過這些坎

掃一掃下載界面新聞APP

距離成為有情感的數字人主播,AI劉強東還要邁過這些坎

市場對數字人直播的討論,核心聚焦在如何能做到更像真人,有哪些更實際的應用場景和商業(yè)化方向等。

圖片來源:圖蟲

界面新聞記者 | 查沁君

界面新聞編輯 | 宋佳楠

用數字人做直播常常會提及“120秒戰(zhàn)斗”的說法,指的是如果120秒內,用戶不覺得這是一個讓他感到別扭的數字人,就會跨過恐怖谷”效應(當人類看到類似人類的物體,特別是機器人時所表現出的積極和消極反應)。

在京東內部看來,AI劉強東做到了這一點。

自近日劉強東變身AI數字人坐鎮(zhèn)京東采銷直播間后,市場上對數字人直播的討論也再度熱了起來,核心聚焦在直播數字人如何能做到更像真人,有哪些更實際的應用場景和商業(yè)化方向等。

目前行業(yè)將直播數字人劃分為三級。第一級數字人主要扮演輔助角色,填補真人主播忙碌或休息時的直播空缺,力爭像真人。此類數字人將商品詳情轉化為視頻內容參與直播,與真人主播形成互補,可利用閑時提升轉化率。

第二級數字人可媲美真人,能在重要時刻獨立承擔直播任務。

第三級數字人更像一個真正的數字分身,而非替代關系,能深入理解并展現個體的思想、文化等深層特質,實現深度交流。

“京東云言犀數字人已經達到第二檔,通過圖靈測試,并可在短時間內代替真人直播?!本〇|云言犀負責人對界面新聞表示。

該負責人認為,雖然AI劉強東在形象、聲音、動作等方面已盡可能接近本人,但要完全替代尚有難度,特別是宿遷話口音也增加了一些挑戰(zhàn)。

從第一級到第二級的過渡,與背后的技術路線選擇密切相關。

早在2020年,京東云言犀便開始了數字人相關的嘗試,彼時業(yè)界普遍遵循分步構建的方式:先建模型,調整動作驅動,添加語音,適配實際動作,最后渲染。

盡管這種方法邏輯清晰,但成本高昂,無法滿足實時性要求,實際效果有限,因為每走錯一步,下一步都法修補。于是團隊開始思考轉向基于大模型的端到端直接渲染技術,即一次性輸出渲染完成的視頻。該技術理論上能實現更高的效果上限。

這種“端到端”的技術路線兩種應用方法,根據具體場景靈活運用:一是完全跳過中間態(tài)建模,無需3D Mesh(即三維網格,計算機圖形學中的一個核心概念);二是僅通過一張照片就能構建出人臉的3D Mesh模型,實現表情、唇形的精細控制和紋理渲染。

目前京東云言犀數字人已經能做到大姿態(tài)(包括頭部、軀體、手部動作)和實時交互,下一步計劃實現更為復雜的實時對話交互。而實時的難度非常大,即使是Sora,生成五分鐘的視頻,也要在英偉達H100芯片上推理一個小時才可以做到。

談及Sora的對比,該負責人指出兩者雖思路相似,但在應用場景上存在顯著差異。Sora屬于通用的視頻應用生成,京東云言犀數字人則偏重人物視頻生成,并看好后者在商業(yè)價值和社會影響力上的潛力。

二者的差別還在于,Sora目前的視頻生成暫不支持有聲,而數字人則要求極強的音視頻同步,并投入情緒,這是一大挑戰(zhàn)。

“目前來看,數字人直播帶貨有很大機會成為一個大爆點,主要因為它在內容層次達到了一個新的水準,大家的接受度和信任度已經過了關鍵點。”該負責人對界面新聞表示。

除數字人之外,京東還將AI技術用于一系列客服與導購功能,如自動外呼、智能導購、一體化后臺咨詢服務等,現今重點關注數字人、深度對話導購、文生圖及圖片生成。

京東云言犀算法總監(jiān)稱,在執(zhí)行層面,團隊已在語音合成(TTS)技術上實現了零樣本應用,無需對模型進行專門訓練,即可直接合成特定音色和說話風格。

除了進一步提升數字人在直播間、短視頻中的表現力,京東內部希望能以更低成本、更低門檻推進數字人,盡量少讓真人拍攝錄制。“但從具體技術上說,肯定是大冒險?!本〇|云言犀算法總監(jiān)稱。

商業(yè)模式方面,直播、短視頻、客服、線下交互大屏等,都是數字人的應用場景,可選SaaS(一種基于互聯(lián)網提供軟件應用程序的模式)或KA(重點客戶)定制。前者又分多種模式,比如按流量或是按標準產品,亦或是產品+服務,后者對效果和各方面要求會更高。此外還有按產品實際銷售數量計算廣告費用的CPS抽傭模式。

數字人使用形式上,主要分兩種:云端使用和用戶本地部署。團隊介紹,言犀客戶采用前者,相較預先做好的demo,言犀數字人直播是通過訓練生成式網絡模型實時生成,可支持上千個直播間在云端同時播,開播成本據稱降低30%

直播業(yè)態(tài)某種意義上是以個人為背景的一種表演和交互,而且實時互動?!本〇|云言犀負責人稱。

如果能完美實現實時互動,當然是理想狀態(tài),但目前市場對于數字人最大的詬病之一就是缺少情感。有人好奇未來是否有可能誕生一個類似董宇輝的超級數字人主播?

在京東云言犀負責人看來,技術上完全有可能,但倫理和感情上不一定能成立,“大家喜歡董宇輝,肯定是因為這個人作為一個實在人的特質,但不知道未來會如何解決倫理問題,預測未來是件很難的事。”

未經正式授權嚴禁轉載本文,侵權必究。

京東

7k
  • 國藥太極與京東健康簽署戰(zhàn)略合作協(xié)議
  • 精準學:將公布中國首個語音端到端大模型

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

距離成為有情感的數字人主播,AI劉強東還要邁過這些坎

市場對數字人直播的討論,核心聚焦在如何能做到更像真人,有哪些更實際的應用場景和商業(yè)化方向等。

圖片來源:圖蟲

界面新聞記者 | 查沁君

界面新聞編輯 | 宋佳楠

用數字人做直播常常會提及“120秒戰(zhàn)斗”的說法,指的是如果120秒內用戶不覺得這是一個讓他感到別扭的數字人,就會跨過恐怖谷”效應(當人類看到類似人類的物體,特別是機器人時所表現出的積極和消極反應)。

在京東內部看來,AI劉強東做到了這一點。

自近日劉強東變身AI數字人坐鎮(zhèn)京東采銷直播間后,市場上對數字人直播的討論也再度熱了起來,核心聚焦在直播數字人如何能做到更像真人,有哪些更實際的應用場景和商業(yè)化方向等。

目前行業(yè)將直播數字人劃分為三級。第一級數字人主要扮演輔助角色,填補真人主播忙碌或休息時的直播空缺,力爭像真人。此類數字人將商品詳情轉化為視頻內容參與直播,與真人主播形成互補,可利用閑時提升轉化率

第二級數字人可媲美真人,能在重要時刻獨立承擔直播任務。

第三級數字人更像一個真正的數字分身,而非替代關系,能深入理解并展現個體的思想、文化等深層特質,實現深度交流。

“京東云言犀數字人已經達到第二檔,通過圖靈測試,并可在短時間內代替真人直播。”京東云言犀負責人對界面新聞表示。

該負責人認為,雖然AI劉強東在形象、聲音、動作等方面已盡可能接近本人,但要完全替代尚有難度,特別是宿遷話口音也增加了一些挑戰(zhàn)。

從第一級到第二級的過渡,與背后的技術路線選擇密切相關。

早在2020年,京東云言犀便開始了數字人相關的嘗試,彼時業(yè)界普遍遵循分步構建的方式:先建模型,調整動作驅動,添加語音,適配實際動作,最后渲染。

盡管這種方法邏輯清晰,但成本高昂,無法滿足實時性要求實際效果有限,因為每走錯一步,下一步都法修補于是團隊開始思考轉向基于大模型的端到端直接渲染技術,即一次性輸出渲染完成的視頻。該技術理論上能實現更高的效果上限。

這種“端到端”的技術路線兩種應用方法根據具體場景靈活運用:一是完全跳過中間態(tài)建模,無需3D Mesh(即三維網格,計算機圖形學中的一個核心概念);二是僅通過一張照片就能構建出人臉的3D Mesh模型,實現表情、唇形的精細控制和紋理渲染。

目前京東云言犀數字人已經能做到大姿態(tài)(包括頭部、軀體、手部動作)和實時交互,下一步計劃實現更為復雜的實時對話交互。而實時的難度非常大,即使是Sora,生成五分鐘的視頻,也要在英偉達H100芯片上推理一個小時才可以做到。

談及Sora的對比,該負責人指出,兩者雖思路相似,但在應用場景上存在顯著差異。Sora屬于通用的視頻應用生成,京東云言犀數字人則偏重人物視頻生成,并看好后者在商業(yè)價值和社會影響力上的潛力。

二者的差別還在于,Sora目前的視頻生成暫不支持有聲,而數字人則要求極強的音視頻同步,并投入情緒,這是一大挑戰(zhàn)。

“目前來看,數字人直播帶貨有很大機會成為一個大爆點,主要因為它在內容層次達到了一個新的水準,大家的接受度和信任度已經過了關鍵點?!痹撠撠熑藢缑嫘侣劚硎?。

除數字人之外,京東還將AI技術用于一系列客服與導購功能,如自動外呼、智能導購、一體化后臺咨詢服務等,現今重點關注數字人、深度對話導購、文生圖及圖片生成。

京東云言犀算法總監(jiān)稱,在執(zhí)行層面,團隊已在語音合成(TTS)技術上實現了零樣本應用,無需對模型進行專門訓練,即可直接合成特定音色和說話風格。

除了進一步提升數字人在直播間、短視頻中的表現力,京東內部希望能以更低成本、更低門檻推進數字人,盡量少讓真人拍攝錄制。“但從具體技術上說,肯定是大冒險?!本〇|云言犀算法總監(jiān)稱。

商業(yè)模式方面,直播、短視頻、客服、線下交互大屏等,都是數字人的應用場景,可選SaaS(一種基于互聯(lián)網提供軟件應用程序的模式)或KA(重點客戶)定制。前者又分多種模式,比如按流量或是按標準產品,亦或是產品+服務,后者對效果和各方面要求會更高。此外還有按產品實際銷售數量計算廣告費用的CPS抽傭模式。

數字人使用形式上,主要分兩種:云端使用和用戶本地部署。團隊介紹,言犀客戶采用前者,相較預先做好的demo,言犀數字人直播是通過訓練生成式網絡模型實時生成,可支持上千個直播間在云端同時播,開播成本據稱降低30%。

直播業(yè)態(tài)某種意義上是以個人為背景的一種表演和交互,而且實時互動。”京東云言犀負責人稱。

如果能完美實現實時互動,當然是理想狀態(tài),但目前市場對于數字人最大的詬病之一就是缺少情感。有人好奇未來是否有可能誕生一個類似董宇輝的超級數字人主播?

在京東云言犀負責人看來,技術上完全有可能,但倫理和感情上不一定能成立,“大家喜歡董宇輝,肯定是因為這個人作為一個實在人的特質,但不知道未來會如何解決倫理問題,預測未來是件很難的事。”

未經正式授權嚴禁轉載本文,侵權必究。