文 | DoNews 李信馬
剛剛過去的“618”,火了一群“AI主播”。
直接看戰(zhàn)報吧,2024年“618”期間,京東直播訂單量同比增長超200%。其中,京東云言犀數(shù)字人:
- 在超過5000個品牌直播間開播;
- 累計時長超過40萬小時;
- 累計觀看人次超過1億;
- 互動頻次超過500萬次。
按照京東的統(tǒng)計,截至目前,言犀數(shù)字人已累計帶動了超百億的GMV(商品交易總額)。這個數(shù)字,放在今天的直播帶貨行業(yè),實在不算個大數(shù)字。
據(jù)艾瑞咨詢剛剛發(fā)布的《2023年中國直播電商行業(yè)研究報告》顯示,2023年,我國直播電商市場規(guī)模高達4.9萬億人民幣,增速達到35.2%,并預(yù)測未來三年還將保持18%的年復(fù)合增長率。100億,甚至比不過頭部達人的年度GMV。
不過,對京東來說,這算是很不錯的成績。在直播帶貨賽道如火如荼之際,老牌電商平臺京東卻掉了隊,談到直播帶貨達人,淘寶有李佳琦,抖音有瘋狂小楊哥、羅永浩,快手有辛巴,而京東卻讓人想不到有可以相提并論的。
雖然近一年來,京東沒少花心思做直播,但培養(yǎng)頭部達人并不是個容易速成的事情。山不轉(zhuǎn)水轉(zhuǎn),用AI數(shù)字人主播代替真人主播,成為一種“彎道超車”的選擇。
從京東“618”戰(zhàn)報來看,AI主播也算是小有成績。只是,這樣的成績會是曇花一現(xiàn),還是真的能走出一條通天大路?
一、日不落的直播間
前幾天,“鐘薛高老林”直播間發(fā)生了驚魂一幕,女主播在介紹產(chǎn)品時,突然身體開始搖晃,然后猛然摔倒,伴隨著直播間里的尖叫聲,話題也沖上熱搜第一。
好在虛驚一場,女主播表示只是身體不適。不過,就此事而言,卻體現(xiàn)了AI主播相比真人主播的優(yōu)勢之一:不會疲憊,也不需要休息。
DoNews聯(lián)系了一位資深帶貨主播嘉琪,在我們和她討論AI主播時,她的第一反應(yīng)是,有了AI主播,直播間就可以“日不落”了。
“直播帶貨最少一個主播一個助播,還要有人投流,也就上班時間能湊一起,至于達人,更不可能一直播?!奔午髂壳懊恐軉涡菀惶?,工作日每天直播4小時。而她所在的公司,同一個直播間會由三名主播早中晚三班輪班,一天播滿12小時。
每天24小時,嘉琪所在的直播間只播一半,主要問題就是剩下的時間能夠賺錢,但性價比不高。比如她們的最后一班是晚上7點半結(jié)束,之后到11點半的4小時,直播帶貨的效果不一定比白天好,但成本和麻煩程度只高不低,因此就被公司放棄了。
按嘉琪估計,她們直播間平均每天GMV在4萬元左右,投流的成本大約是1萬元,而主播的工資是200元每小時?!懊總€平臺的投流不太一樣,比如小紅書是點進來(直播間)一次我們要給2塊多,抖音是另一套規(guī)則,它們投流很細。”
因此,流量高的黃金時段,要直播而且要多投流;流量低的閑時,投流沒意義,純自然流量可能連人力成本都覆蓋不了,就沒必要直播了。
至于200元/小時的收入水平,在北京的直播帶貨圈子里算中等偏上,嘉琪介紹,不同平臺、不同品類的直播間主播的收入水平會有所差異,此外還會有不同比例的提成點,“像是服飾類,提成可能在2%-5%,但像糧油這樣的,可能就只有千分之幾了。”
能有這樣的待遇,是因為直播帶貨的確有其門檻,她們直播間表現(xiàn)最好的一天,GMV達到了25萬,投流成本不到3萬,除了運氣和產(chǎn)品銷售策略,主播的個人能力影響很大。
而且這也是“體力活”。“一場直播下來,可能就休息幾分鐘,去上一次洗手間,每天4小時感覺不多,但持續(xù)播一段時間就會很疲憊,嗓子也會難受?!奔午鞑畈欢嘁粋€月會請假一兩次來休息,不請假的話“卷”兩個月,她就要休息一個小長假才能恢復(fù)過來。
相比真人,AI主播的成本非常低廉,閑時也可以一直在線。比如京東,就表示言犀數(shù)字人直播成本僅為真人1/10,在今年4月,百度發(fā)布了曦靈數(shù)字人,采訪中百度智能云副總裁喻友平也對DoNews表示,在不投流的情況下,6小時直播比對中,數(shù)字人的成本大概是真人的15%左右,GMV則是真人85%。
京東對使用數(shù)字人直播有三個階段的目標,其中第一階段是向真人看齊,可以和真人接力,在黃金時段之外帶貨。有AI主播做閑時補充,直播間可以24小時日不落,比如聯(lián)想的京東直播間,據(jù)統(tǒng)計AI主播的每小時成交量,能達到真人的45%,成本只有10%;珠寶品牌潮宏基的AI主播平均每天播22小時,每月比真人10小時直播能省下兩三萬。
只是,如果AI主播止步于降本,那就不值得討論了,因為直播帶貨行業(yè)還是銷售為王。而從今年京東“618”來看,AI主播表現(xiàn)出來了更大的潛力——也許真的可以替代真人。
二、AI主播是怎樣煉成的?
AI主播并不是新鮮事,2022年起,言犀虛擬主播就在青蛙王子、六神、同仁堂、百雀羚等上百家國貨品牌直播間上崗,在去年的“618”,京東曾發(fā)布消息“開門紅開啟10分鐘,言犀虛擬主播開播商家較去年11.11增幅近4倍”。
但以前沒火起來,本質(zhì)還是太“菜”了,完全比不上真人。
在百度發(fā)布曦靈數(shù)字人時,喻友平的描述就很謙虛:“未來要覆蓋到更多原本都沒有能力做直播的商家或者企業(yè),讓他們能夠低成本的把直播用起來。雖然客觀來說,肯定沒法代替那些頂級的直播,沒法達到他們那么高的水平,但是達到70%的水平,或者說我們隨便找10個素人出來,肯定比他們水平高。”
而同一時間,京東卻選擇挑戰(zhàn)高難度。在4月16日,京東直接做出了劉強東的AI數(shù)字人“采銷東哥”,并亮相直播間開啟了首場直播賣貨。
直接上“老板”賣貨,有魄力也很好玩,看一下銷售數(shù)據(jù):在42分鐘的上播時間里,“東哥”講解了13款產(chǎn)品(主要是家電),直播間的觀看數(shù)量超過了2000萬,創(chuàng)下了京東超市采銷直播間開播以來觀看人數(shù)的最高峰,最終訂單數(shù)突破了10萬,銷售額超過了5000萬元。
DoNews當時也特意觀看了這場直播,說實話,前面一小段時間,真的沒分辨出是不是真人,不止是長得像,一口宿遷味的普通話也頗具迷惑性。(也有原因是一開始的消息“京東創(chuàng)始人、董事局主席劉強東即將在京東APP上開啟直播”中沒有說是AI主播)看了一會,才隱約覺得表情和微動作有些重復(fù)和不自然。而多久能分辨出來是否是真人,就是京東對AI主播進行效果評判的核心指標。
京東云言犀負責人在第一次直播后的采訪中說:“觀眾在進入直播間的前120秒,如果不覺得是數(shù)字人,就有可能跨過‘恐怖谷’效應(yīng),對主播產(chǎn)生信任感。這能大幅提高下單率。”
一旦跨越了這條鴻溝,AI主播就可以進入京東預(yù)期的第二階段:媲美真人,能夠承擔一些重要獨立的任務(wù),比如重要時段的直播、講解等。以“采銷東哥”為起點,“618”的京東直播間里,冒出了不少“AI老板”,有格力董明珠、海信胡劍涌、LG李東善、名創(chuàng)優(yōu)品葉國富、潔麗雅石展承等十幾位企業(yè)總裁,也算是趕上了雷軍、周鴻祎等商界大佬直播的熱潮。
能達到這樣的效果,不得不說,要感謝人工智能尤其是大模型技術(shù)的突飛猛進,我們現(xiàn)在管訓練大模型叫煉丹,那京東的AI主播,就是主打一個“菜就多煉”。簡單的說下,京東言犀數(shù)字人背后的技術(shù)。
建立數(shù)字人形象,主要分為外觀和聲音兩部分。以“采銷東哥”為例,在外觀部分,言犀團隊利用劉強東的高清視頻,配合 3D Mesh 技術(shù)方案,快速建立擬真的真人形象,并支持數(shù)字人做出大姿態(tài)、有感染力的動作,比如揮舞手臂,或者側(cè)臉看手機。簡單理解,就是專精人物視頻生成的“Sora”。
在聲音方面,言犀團隊設(shè)計了聲音供應(yīng)鏈的概念,從開始供應(yīng)聲音最基礎(chǔ)的元素上進行規(guī)范,制定標準,后面技術(shù)進行相應(yīng)的適配。模型在預(yù)訓練中已經(jīng)掌握了人類普遍的發(fā)聲特征,再錄制幾句劉強東講話,就能學習到他“宿遷普通話”的說話風格。直播中一句東哥特色的“兄弟們”,誰聽了不迷糊?
三、暢想:未來的AI主播會是怎樣?
以假亂真是很厲害,但大家看直播,不只是為了看“真實”。
除了折扣外,消費者也喜歡看主播們唱跳Rap,最好再給家人們上上才藝整整花活兒。眼下AI主播們的風頭,其實是借著商界大佬們的形象,頗有些“狐假虎威”的意思,絕大多數(shù)人一輩子也聽不到劉強東面對面喊自己一聲“兄弟”,更不用說給介紹下商品了。
另一方面,由于多種原因,直播帶貨行業(yè)正由達人帶貨向店播的模式傾斜,再加上最近流行“一把手”出鏡(但有時間和能力的企業(yè)家并不多),因此,京東帶頭發(fā)起的““總裁數(shù)字人直播”可以說搔到了不少企業(yè)的癢處。
等新鮮感過去后,AI主播還能吸引消費者們觀看和購買嗎?畢竟,目前的AI主播,只能在直播間里說話做表情,并不具備真正人類的行動力。反觀真人直播帶貨還在不斷的推陳出新,比如 ZARA 在去年年底的一場直播,請來了超模游天翼現(xiàn)場走秀。
空間挑高近8米,面積達500平,有5臺阿萊攝影機和3臺斯坦尼康等頂尖設(shè)備,再加上軌道車與機械搖臂,12盞阿萊400W聚光燈,這樣超豪華的配置,營造出了至少價值50萬的光影效果。長達約5小時的直播里,鏡頭全程跟蹤超模與兩位主播,從T臺走秀到介紹產(chǎn)品、分享時尚見解,甚至補妝的小細節(jié)也毫無保留地展示出來,這樣的視覺盛宴,吸引了近122萬的觀眾。
這樣的直播,現(xiàn)在的AI主播顯然做不到。
同樣是在4月時,DoNews采訪了虛擬動點董事長劉耀東,虛擬動點專注于空間計算技術(shù),他們的一大業(yè)務(wù)是做電影動作特效。劉耀東提到一個觀點,現(xiàn)在的視頻生成技術(shù),包括Sora,都“不懂物理世界”。不懂物理世界的結(jié)果,就是生成的視頻,會發(fā)生“穿?!钡膯栴}。而問題的原因,是因為我們?nèi)粘?吹囊曨l、電影,本質(zhì)上就是二維圖像的堆疊,所以大模型在訓練時,獲得的數(shù)據(jù)也是加上時間軸的二維圖像集,這樣生成的視頻其實也是圖像的組合罷了。
“你會發(fā)現(xiàn),所有電商(AI主播)直播的場景,(AI)主播是不能動的,它只能同軸位移,就是手可以動,表情可以動,但身體不能動。為什么它不能離開這個軸?因為它是拿視頻訓出來的,就是一個人坐在那里,拍足夠多的視頻來訓練這個AI,然后再用口型和聲音數(shù)據(jù)同步訓練它的表情。它如果大幅度移動的話,就會發(fā)生明顯的抖動等其他問題?!眲⒁珫|解釋道。
如果AI主播一直在畫面正中間,那問題不大,但除此之外——比如只是簡單的站起來——那問題都很大。虛擬動點同樣通過大模型訓練數(shù)字人,但他們采集的空間數(shù)據(jù)是三維的,和視頻數(shù)據(jù)的區(qū)別大概相當于(x,y,z,T)和(x,y,T),這樣從根本上解決大模型“不懂物理世界”的問題,而劉耀東理想中的AI主播,可以站起來,可以走動、做日常動作,甚至可以做物理交互。
“我覺得如果真的要實現(xiàn)到理想中的電商直播場景,那一定要有同步的一套AI算法,加上我們動作的算法,進行重新組合,完成數(shù)字人的驅(qū)動,它肯定不會是一個二維數(shù)字人?!眲⒁珫|總結(jié)道。
不過,這樣靈活的AI主播距離我們還有些遙遠,真人主播為主、AI主播為輔,兩者共存的模式未來將在電商直播領(lǐng)域長期存在,并且行業(yè)仍充滿了機會,用真金白銀獎勵技術(shù)和模式上的突破。
暢想一下,未來可能就是《頭號玩家》或者《失控玩家》里的場景??赡苡幸惶欤萍家呀?jīng)進步到構(gòu)建出電影里的虛擬世界,也許真人主播不會消失,但AI主播卻可以飛天遁地,不再需要模仿真人,就能完成令我們驚嘆的表演了。