文|Metaverse元宇宙
編輯|高樂
隨著年末的到來,半年前蘋果在頭顯領(lǐng)域的大招Vision Pro距離正式發(fā)售也越來越近。
雖然半年來,大家的目光都聚焦在Vision Pro可能帶來的全新沉浸式體驗(yàn)上,但潛藏在其中關(guān)于虛擬人的探索亦有不少:
從五年前引領(lǐng)3D面部動捕的Animoji,到上周發(fā)布的可以生成真人數(shù)字分身的HUGS技術(shù),都展露出蘋果想探索出一條與眾不同虛擬人道路的決心。
而這些多年積累的技術(shù),也都將在Vision Pro上迎來高光時(shí)刻——不得不說,在為元宇宙續(xù)命這塊蘋果是會拿捏的,以半年為周期穩(wěn)定為元宇宙注入新的可能性。
1 全新技術(shù),讓虛擬人無限趨近現(xiàn)實(shí)
蘋果最新發(fā)布的 "HUGS"虛擬人技術(shù),全稱為Human Gaussian Splats,即人類高斯合成,這項(xiàng)技術(shù)基于3D Gaussian Splatting(3DGS)和SMPL身體模型,通過兩種先進(jìn)技術(shù)融合來創(chuàng)造出更加生動和真實(shí)的數(shù)字人物。
較之傳統(tǒng)的虛擬人生成技術(shù),HUGS的一個(gè)關(guān)鍵優(yōu)勢在于其高效的數(shù)據(jù)處理能力,其僅需大約2到4秒的視頻(50-100幀),就能生成一個(gè)完整的數(shù)字分身,大大減少了創(chuàng)建虛擬人所需要的原始素材。
當(dāng)然目前HUGS在捕捉細(xì)節(jié)方面還有局限,不過通過算法,HUGS能夠自動填充未被捕捉到的元素,確保了數(shù)字分身的整體質(zhì)量。此外,HUGS的生成速度是其另一個(gè)優(yōu)勢:蘋果發(fā)布的相關(guān)論文宣稱,HUGS能在約30分鐘內(nèi)完成數(shù)字人的生成,速度比當(dāng)前市場上的其他同類產(chǎn)品快約100倍。
而在所需素材較少,生成速度較快的基礎(chǔ)上,HUGS在渲染質(zhì)量和速度上也有顯著提高:HUGS能夠以60 FPS的速度實(shí)現(xiàn)高質(zhì)量渲染,同時(shí)還能處理動態(tài)場景中的復(fù)雜挑戰(zhàn),如避免偽影并協(xié)調(diào)動畫過程中的運(yùn)動。雖然動作設(shè)計(jì)有些鬼畜,但通過演示視頻可以看出,當(dāng)前利用 HUGS"技術(shù)生成的數(shù)字人在動作流暢性、人物擬真性上都已經(jīng)趨近完成體。這也宣示著蘋果在數(shù)字渲染領(lǐng)域的一個(gè)顯著進(jìn)步,特別是在動態(tài)場景中創(chuàng)建和渲染人類數(shù)字分身的能力上。因此在擁有Vinsion Pro后,通過相關(guān)技術(shù)快速生成數(shù)字人并在此基礎(chǔ)上開展多樣化應(yīng)用也成為了可能。
除了潛在的與Vinsion Pro結(jié)合的可能性,HUGS的這些特性也使其成為電影制作、游戲開發(fā)、虛擬現(xiàn)實(shí)等領(lǐng)域的一個(gè)有價(jià)值的工具,特別是在需要快速且高質(zhì)量地渲染動態(tài)人類角色的場景中。
通過HUGS技術(shù),創(chuàng)作者和開發(fā)者能夠更自由地實(shí)現(xiàn)新穎姿勢和視圖的合成,開辟數(shù)字創(chuàng)作的新可能性。
當(dāng)然突破并非一蹴而就——近幾年,蘋果在虛擬人相關(guān)技術(shù)上進(jìn)行的諸多探索,都一個(gè)個(gè)成為Vinsion Pro未來圖景的基石。
2 逐步積淀,空間計(jì)算穩(wěn)健前行
回顧蘋果的虛擬人相關(guān)的動作,2017年的Animoji無疑是其中的關(guān)鍵一步。
Animoji首次亮相于2017年的蘋果秋季發(fā)布會,與iPhone X一同亮相的Animoji在彼時(shí)展示出了一種全新的交互方式:
這一技術(shù)通過iPhone的前置TrueDepth相機(jī)系統(tǒng)精確捕捉用戶的面部動作,如嘴巴、眉毛和眼睛的運(yùn)動,從而實(shí)時(shí)地將這些表情映射到獨(dú)角獸、機(jī)器人或貓頭鷹等各種動畫角色上。用戶可以選擇不同的動畫角色來錄制和發(fā)送含有語音的動畫消息,這些角色能夠精準(zhǔn)地模擬并反映用戶的表情和聲音。
而后來發(fā)生的故事,我們已經(jīng)很熟悉:隨著技術(shù)的不斷進(jìn)步,Animoji也被運(yùn)用到更廣泛的場景,如社交媒體和視頻制作上。同時(shí)其他同類產(chǎn)品也開始瘋狂涌現(xiàn),通過面部捕捉生成自己虛擬形象的熱潮,每隔一段時(shí)間就會重復(fù)一次。
同時(shí)隨著時(shí)間的推進(jìn),蘋果在虛擬人相關(guān)技術(shù)的探索上也更進(jìn)一步——其中的許多技術(shù)細(xì)節(jié)中,都不乏Animoji的影子。
據(jù)目前的消息,在Vision Pro上蘋果會提前錄入使用者的 3D 面孔數(shù)據(jù),生成出一個(gè) 3D 建模渲染的自己,也就是接近一比一還原的虛擬人,而為了讓虛擬人更加逼真,蘋果將采用一項(xiàng)名為“情緒識別”的新技術(shù)。
該技術(shù)旨在通過攝像頭,來分析用戶的面部表情和情緒。根據(jù)專利內(nèi)容,在這套系統(tǒng)中,需要使用面部識別技術(shù)來識別用戶身份,以便提供定制化的操作,而這一技術(shù)其實(shí)也源自蘋果早年的積淀。
該技術(shù)的最初開發(fā)其實(shí)是為了應(yīng)用在Siri上。彼時(shí),為了減少語音請求被誤解的次數(shù),蘋果試圖通過分析用戶情緒來做到這一點(diǎn),以進(jìn)一步提高準(zhǔn)確度。在早年的一份專利申請中,顯示蘋果正在開發(fā)一種全新的方法,通過在未來版本的Siri或其他系統(tǒng)中添加面部分析功能,來幫助Siri解讀用戶提出的請求。
伴隨著Vision Pro的問世,此前鋪墊的情緒識別技術(shù)無疑也即將迎來更大的用武之地。
除了在構(gòu)建更擬真虛擬人上的努力,對于虛擬人潛在的應(yīng)用場景,蘋果也早已開始探索。
蘋果公司最近獲得的元宇宙在線購物體驗(yàn)專利,是一項(xiàng)旨在徹底改變在線購物方式的創(chuàng)新技術(shù)——在這個(gè)虛擬環(huán)境中,用戶可以直接與各種虛擬產(chǎn)品進(jìn)行互動,就像在現(xiàn)實(shí)中一樣。
該技術(shù)主要運(yùn)用計(jì)算機(jī)生成圖像(CGI)和擴(kuò)展現(xiàn)實(shí)(CGR)技術(shù),以提升數(shù)字零售體驗(yàn)至新的層次,系統(tǒng)允許用戶通過虛擬通信會話,實(shí)時(shí)與遠(yuǎn)程銷售人員進(jìn)行互動。
例如,用戶可以從一個(gè)虛擬電視上拿下一部虛擬智能手機(jī),體驗(yàn)其所有功能,這些互動的方式讓虛擬對象看起來和真實(shí)物理對象一樣具有真實(shí)感。此外,專利還提出了在VR環(huán)境中的應(yīng)用場景,包括虛擬零售商店、虛擬桌子和產(chǎn)品展示。這些應(yīng)用不僅限于展示現(xiàn)實(shí)世界中的產(chǎn)品,還可以包括顯示歷史地點(diǎn)或虛構(gòu)場景等虛擬位置。
通過這項(xiàng)專利,蘋果旨在解決在線購物中缺乏即時(shí)反饋和互動性的問題,使用戶即使在家中或任何遠(yuǎn)程環(huán)境中也能享受到類似面對面購物的體驗(yàn)。用戶可以通過簡單的手勢啟動CGR環(huán)境中的零售體驗(yàn),或互動體驗(yàn)虛擬產(chǎn)品演示,同時(shí)銷售人員也可以遠(yuǎn)程操縱產(chǎn)品來突出其特性和功能。
在很近的將來,通過Vision Pro用戶就能夠體驗(yàn)到高度真實(shí)感的虛擬人物,還能在更加沉浸式的環(huán)境中與之互動——無論是在娛樂、教育還是遠(yuǎn)程溝通方面都將開辟新的體驗(yàn)方式。
3 技術(shù)融合,未來比想象中更近
至此,蘋果的虛擬人路徑已經(jīng)清晰展現(xiàn):那就是以真人數(shù)字分身作為主要方向,通過完善動作、細(xì)節(jié)、情感、場景等,使數(shù)字人無限趨近于真實(shí)。
有別于當(dāng)前的超寫實(shí)虛擬人或卡通式虛擬人,蘋果選擇的道路更接近于通過真人素材構(gòu)建真人數(shù)字分身的路徑。
雖然當(dāng)下的真人虛擬人已經(jīng)可以做到十分逼真的程度,但其應(yīng)用更多停留在2D平面,也就是手機(jī)、電腦等顯示屏中,生成的內(nèi)容以口播為主,需要出鏡的范圍也基本局限在上半身,且以面部動作為主,身體其他部分動作有限。
而在Vision Pro即將開啟的空間計(jì)算時(shí)代中,對真人數(shù)字人以及其全身動作擬真性的要求會達(dá)到前所未有的高度。
此前Meta Horizon Worlds中卡通人物呈現(xiàn)的低幼感,與只能顯示虛擬人物上半身的詭異感,成為其發(fā)展過程中的兩大重大阻礙:
一方面低幼感的形象會讓虛擬空間天然具備更多游戲性,從而阻礙其在生產(chǎn)力上的拓展;另一方面顯示人物上半身的詭異感會很輕易地破壞沉浸式體驗(yàn)。
顯然,蘋果認(rèn)知中的虛擬人乃至虛擬世界,都要以無限趨近真實(shí)世界作為目標(biāo)。
iOS 17.2更新后正式亮相的空間視頻錄制功能同樣是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵一步。雖然當(dāng)下該功能只能實(shí)現(xiàn)1080P 60幀的內(nèi)容錄制,但根據(jù)已有的體驗(yàn)反饋,其已經(jīng)可以實(shí)現(xiàn)接近現(xiàn)實(shí)世界的沉浸感。
雖然HUGS目前生成數(shù)字人30分鐘的時(shí)間依然略顯漫長,情緒識別功能的具體應(yīng)用效果、在線購物等場景能在多大程度上符合人們的期待都還要等Vision Pro發(fā)售后揭曉,空間視頻1080P的分辨率限制離頭顯對于內(nèi)容8K乃至16K的高標(biāo)準(zhǔn)要求還要一定距離,但一個(gè)關(guān)于真人數(shù)字人與真實(shí)場景構(gòu)建的虛擬世界的拼圖已經(jīng)越來越多。
在相關(guān)技術(shù)進(jìn)一步完善與融合后,只需要一段視頻就可以構(gòu)建一個(gè)場景真實(shí)、人物逼真的虛擬世界的未來,其實(shí)比想象中更近。