正在閱讀:

2D到3D新突破,深度AIGC 技術(shù)剖析,一文看懂3D數(shù)據(jù)生成的歷史及現(xiàn)狀

掃一掃下載界面新聞APP

2D到3D新突破,深度AIGC 技術(shù)剖析,一文看懂3D數(shù)據(jù)生成的歷史及現(xiàn)狀

AIGC是否會取代人類?

文|硅兔賽跑 Chengxi

編輯|蔓蔓周

過去18個(gè)月,AI內(nèi)容生成(AIGC)是無疑是硅谷科技創(chuàng)投圈內(nèi)最火爆、最熱門的話題。

DALL-E(2021年1月推出)

Midjourney(2022年7月推出)

Stable Diffusion(2022年8月推出)

這類2D生成式工具,能夠在短短幾秒內(nèi)將文本提示(prompt)生成藝術(shù)風(fēng)格的圖片。隨著這類2D AIGC工具的演化和進(jìn)步,藝術(shù)家、設(shè)計(jì)師和游戲工作室的創(chuàng)作工作流正在被迅速顛覆革新。

AIGC的下一個(gè)突破口在哪?不少投資者和領(lǐng)域資深人士都給出了預(yù)測 — 3D數(shù)據(jù)生成。

我們注意到3D AIGC正在經(jīng)歷著2D AIGC曾經(jīng)發(fā)展過的階段。這篇文章中,我們將更深入地討論AIGC在3D數(shù)據(jù)領(lǐng)域的新突破,以及展望生成式AI工具如何提高3D數(shù)據(jù)生成的效率和創(chuàng)新。

回顧2D AIGC的高速發(fā)展

2D AIGC的發(fā)展可以簡單概括為以下三個(gè)發(fā)展階段:

第一階段:智能圖像編輯

早在2014年,隨著生成對抗網(wǎng)絡(luò)(GAN,典型后續(xù)工作StyleGAN)和變分自編碼器(VAE,典型后續(xù)工作VQVAE,alignDRAW)的提出,AI模型便開始被廣泛運(yùn)用到2D圖片的智能生成與編輯中。早期的AI模型主要被用于學(xué)習(xí)一些相對簡單的圖像分布或者進(jìn)行一些圖像編輯,常見的應(yīng)用包括:人臉生成、圖像風(fēng)格遷移、圖像超分辨率、圖像補(bǔ)全和可控圖像編輯。

但早期的圖像生成/編輯網(wǎng)絡(luò)與文本的多模態(tài)交互非常有限。此外,GAN網(wǎng)絡(luò)通常較難訓(xùn)練,常遇到模式坍塌(mode collapse)和不穩(wěn)定等問題,生成的數(shù)據(jù)通常多樣性較差,模型容量也決定了可利用數(shù)據(jù)規(guī)模的上限;VAE則常遇到生成的圖像模糊等問題。

第二階段:文生圖模型的飛躍

隨著擴(kuò)散生成(diffusion)技術(shù)的突破、大規(guī)模多模態(tài)數(shù)據(jù)集(如LAION數(shù)據(jù)集)和多模態(tài)表征模型(如OpenAI發(fā)布的CLIP模型)的出現(xiàn)與發(fā)展,2D圖像生成領(lǐng)域在2021年前后取得重要進(jìn)展。圖像生成模型開始與文本進(jìn)行深入的交互,大規(guī)模文生圖模型驚艷登場。

當(dāng)OpenAI在2021年初發(fā)布DALL-E時(shí),AIGC技術(shù)開始真正顯現(xiàn)出巨大的商業(yè)潛力。DALL-E可以從任意的文本提示中生成真實(shí)和復(fù)雜的圖像,并且成功率大大提高。一年之內(nèi),大量文生圖模型迅速跟進(jìn),包括DALL-E 2(于2022年4月升級)和Imagen(谷歌于2022年5月發(fā)布)。雖然這些技術(shù)當(dāng)時(shí)還無法高效幫助藝術(shù)創(chuàng)作者產(chǎn)出能夠直接投入生產(chǎn)的內(nèi)容,但它們已經(jīng)吸引了公眾的注意,激發(fā)了藝術(shù)家、設(shè)計(jì)師和游戲工作室的創(chuàng)造力和生產(chǎn)潛力。

第三階段:從驚艷到生產(chǎn)力

隨著技術(shù)細(xì)節(jié)上的完善和工程優(yōu)化上的迭代,2D AIGC得到迅猛發(fā)展。到2022年下半年,Midjourney、Stable Diffusion等模型已成為了廣受歡迎的AIGC工具。他們通過大規(guī)模的訓(xùn)練數(shù)據(jù)集的驅(qū)動,使得AIGC技術(shù)在現(xiàn)實(shí)世界應(yīng)用中的性能已經(jīng)讓媒體、廣告和游戲行業(yè)的早期采用者受益。此外,大模型微調(diào)技術(shù)的出現(xiàn)與發(fā)展(如ControlNet和LoRA)也使得人們能夠根據(jù)自己的實(shí)際需求和少量訓(xùn)練數(shù)據(jù)來“自定義”調(diào)整、擴(kuò)展AI大模型,更好地適應(yīng)不同的具體應(yīng)用(如二次元風(fēng)格化、logo生成、二維碼生成等)。

現(xiàn)在,使用AIGC工具進(jìn)行創(chuàng)意和原型設(shè)計(jì)很多情況下只需幾小時(shí)甚至更短,而不是過去需要的幾天或幾周。雖然大多數(shù)專業(yè)的圖形設(shè)計(jì)師仍然會修改或重新創(chuàng)建AI生成的草圖,但個(gè)人博客或廣告直接使用AI生成的圖像的情況越來越普遍。

alignDRAW, DALL-E 2, 和Midjourney 文本轉(zhuǎn)圖像的不同效果。

除了文本轉(zhuǎn)圖像,2D AIGC持續(xù)有更多的最新發(fā)展。例如,Midjourney和其他創(chuàng)業(yè)公司如Runway和Phenaki正在開發(fā)文本到視頻的功能。此外,Zero-1-to-3已經(jīng)提出了一種從物體的單一2D圖像生成其在不同視角下對應(yīng)圖片的方法。

由于游戲和機(jī)器人產(chǎn)業(yè)對3D數(shù)據(jù)的需求不斷增長,目前關(guān)于AIGC的前沿研究正在逐漸向3D數(shù)據(jù)生成轉(zhuǎn)移。我們預(yù)計(jì)3D AIGC會有類似的發(fā)展模式。

3D AIGC的“DALL-E”時(shí)刻

近期在3D領(lǐng)域的種種技術(shù)突破告訴我們,3D AIGC的“DALL-E”時(shí)刻正在到來!

從2021年末的DreamFields到2022年下半年的DreamFusion和Magic3D,再到今年五月的ProlificDreamer,得益于多模態(tài)領(lǐng)域和文生圖模型的發(fā)展,學(xué)術(shù)界文生3D模型也得到了不少突破。不少方法都能夠從輸入文本生成高質(zhì)量的3D模型。

然而這些早期探索大多數(shù)需要在生成每一個(gè)3D模型時(shí),都從頭優(yōu)化一個(gè)3D表示,從而使得3D表示對應(yīng)的各個(gè)2D視角都符合輸入和先驗(yàn)?zāi)P偷钠诖S捎谶@樣的優(yōu)化通常需要成千上萬次迭代,因此通常非常耗時(shí)。例如,在Magic3D中生成單個(gè)3D網(wǎng)格模型可能需要長達(dá)40分鐘,ProlificDreamer則需要數(shù)小時(shí)。此外,3D生成的一個(gè)巨大挑戰(zhàn)便是3D模型必須具備從不同角度看物體形狀的一致性?,F(xiàn)有的3D AIGC方法常遇到雅努斯問題(Janus Problem),即AI生成的3D對象有多個(gè)頭或者多個(gè)面。

由于ProlificDreamer缺乏3D形狀一致性而出現(xiàn)的雅努斯問題。左邊是一只看似正常的藍(lán)鳥的正面視圖。右邊是一幅令人困惑的圖像,描繪了一只有雙面的鳥。

但另外一方面,一些團(tuán)隊(duì)正在嘗試突破現(xiàn)有的基于優(yōu)化的生成范式,通過單次前向預(yù)測的技術(shù)路線來生成3D模型,這大大提高了3D生成速度和準(zhǔn)確度。這些方法包括Point-E和Shap-E(分別于2022年和2023年由OpenAI發(fā)布)和One-2–3–45(2023年由加州大學(xué)圣地亞哥分校發(fā)布)。特別值得注意的是,最近一個(gè)月發(fā)布的One-2–3–45能夠在僅45秒的時(shí)間內(nèi)從2D圖像生成高質(zhì)量和具備一致性的3D網(wǎng)格!

對單圖像到3D網(wǎng)格方法的比較分析。從左到右,我們可以觀察到,處理時(shí)間從超過一個(gè)小時(shí)大幅度減少到不到一分鐘。Point-E、Shap-E和One-2–3–45在速度和準(zhǔn)確性上都有出色表現(xiàn)。

這些3D AIGC領(lǐng)域最新的技術(shù)突破,不僅大大提高了生成速度和質(zhì)量,同時(shí)讓用戶的輸入也變得更加靈活。用戶既可以通過文本提示進(jìn)行輸入,也可以通過信息量更加豐富的單張2D圖像來生成想要的3D模型。這大大擴(kuò)展了3D AIGC在商業(yè)應(yīng)用方面的可能性。

AI革新3D生產(chǎn)過程

首先,讓我們了解一下傳統(tǒng)3D設(shè)計(jì)師創(chuàng)建3D模型,所需要經(jīng)歷的工作流程:

1.概念草圖:概念藝術(shù)設(shè)計(jì)師根據(jù)客戶輸入和視覺參考進(jìn)行頭腦風(fēng)暴和構(gòu)思所需的模型。

2.3D原型制作:模型設(shè)計(jì)師使用專業(yè)軟件創(chuàng)建模型的基本形狀,并根據(jù)客戶反饋進(jìn)行迭代。

3.模型細(xì)化:將細(xì)節(jié)、顏色、紋理和動畫屬性(如綁定、照明等)添加到粗糙的3D模型中。

4.模型最終定型:設(shè)計(jì)師使用圖像編輯軟件增強(qiáng)最終的渲染效果,調(diào)整顏色,添加效果,或進(jìn)行元素合成。

這個(gè)過程通常需要幾周的時(shí)間,如果涉及到動畫,甚至可能需要更長。然而,如果有AI的幫助,上述每個(gè)步驟都可能會更快。

1.強(qiáng)大的多視圖圖像生成器(例如,基于Stable Diffusion和Midjourney的Zero-1–to–3)有助于進(jìn)行創(chuàng)意頭腦風(fēng)暴,并生成多視圖圖像草圖。

2.文本到3D或圖像到3D技術(shù)(例如,One-2–3–45或Shap-E)可以在幾分鐘內(nèi)生成多個(gè)3D原型,為設(shè)計(jì)師提供了廣泛的選擇空間。

3.利用3D模型優(yōu)化(例如,Magic 3D或ProlificDreamer),選定的原型可以在幾小時(shí)內(nèi)自動進(jìn)行精煉。

4.一旦精煉的模型準(zhǔn)備好,3D設(shè)計(jì)師就可以進(jìn)一步設(shè)計(jì)并完成高保真模型。

傳統(tǒng)與AI驅(qū)動的3D生產(chǎn)工作流程對比

3D AIGC是否會取代人類?

我們的結(jié)論是,暫時(shí)不會。人仍然是3D AIGC環(huán)節(jié)中不可缺失的一環(huán)。

盡管以上提到的3D模型生成技術(shù),能在機(jī)器人技術(shù)、自動駕駛和3D游戲中有許多應(yīng)用,然而目前的生產(chǎn)流程仍然不能滿足廣泛的應(yīng)用。

為此,硅兔君采訪了來自加州大學(xué)圣迭戈分校的蘇昊教授,他是3D深度學(xué)習(xí)(3D Deep Learning)和具身人工智能(Embodied AI)領(lǐng)域的領(lǐng)軍專家,也是One-2–3–45模型的作者之一。蘇昊教授認(rèn)為,目前3D生成模型的主要瓶頸是缺乏大量高質(zhì)量的3D數(shù)據(jù)集。目前常用的3D數(shù)據(jù)集如ShapeNet(約52K 3D網(wǎng)格)或Objaverse(約800K 3D模型)包含的模型數(shù)量和細(xì)節(jié)質(zhì)量都有待提升。尤其是比起2D領(lǐng)域的大數(shù)據(jù)集(例如,LAION-5B),它們的數(shù)據(jù)量仍然遠(yuǎn)不夠來訓(xùn)練3D大模型。

蘇昊教授曾師從幾何計(jì)算的先驅(qū)、美國三院院士Leonidas Guibas教授,并曾作為早期貢獻(xiàn)者參與了李飛飛教授領(lǐng)導(dǎo)的ImageNet項(xiàng)目。受到他們的啟發(fā),蘇昊教授強(qiáng)調(diào)廣泛的3D數(shù)據(jù)集在推進(jìn)技術(shù)方面的關(guān)鍵作用,為3D深度學(xué)習(xí)領(lǐng)域的出現(xiàn)和繁榮做出了奠基性工作。

此外,3D模型遠(yuǎn)比2D圖像的復(fù)雜很多,例如:

1.部件結(jié)構(gòu):游戲或數(shù)字孿生應(yīng)用需要3D對象的結(jié)構(gòu)化部件(例如,PartNet),而不是單一的3D網(wǎng)格;

2.關(guān)節(jié)和綁定:與3D對象互動的關(guān)鍵屬性;

3.紋理和材料:例如反光率、表面摩擦系數(shù)、密度分布、楊氏模量等支持交互的關(guān)鍵性質(zhì);

4.操作和操控:讓設(shè)計(jì)師能夠?qū)?D模型進(jìn)行更有效地交互和操縱。

而以上幾點(diǎn),就是人類專業(yè)知識能夠繼續(xù)發(fā)揮重要作用的地方。

蘇昊教授認(rèn)為,在未來,AI驅(qū)動的3D數(shù)據(jù)生成應(yīng)具有以下特性:

1.支持生成支撐交互性應(yīng)用的3D模型,這種交互既包括物體與物體的物理交互(如碰撞),也包括人與物體的交互(物理與非物理的交互方式),使得3D數(shù)據(jù)在游戲、元宇宙、物理仿真等場景下能夠被廣泛應(yīng)用;

2.支持AI輔助的3D內(nèi)容生成,使得建模的生產(chǎn)效率更高;

3.支持Human-in-the-loop的創(chuàng)作過程,利用人類藝術(shù)天賦提升生成數(shù)據(jù)的質(zhì)量,從而進(jìn)一步提升建模性能,形成閉環(huán)的數(shù)據(jù)飛輪效應(yīng)。

類似于過去18個(gè)月來像DALL-E和ChatGPT這樣的技術(shù)所取得的驚人發(fā)展,我們堅(jiān)信在3D AIGC領(lǐng)域即將發(fā)生,其創(chuàng)新和應(yīng)用極有可能會超過我們的預(yù)期,硅兔君會持續(xù)深入探索和輸出。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價(jià)一下吧!

下載界面新聞

微信公眾號

微博

2D到3D新突破,深度AIGC 技術(shù)剖析,一文看懂3D數(shù)據(jù)生成的歷史及現(xiàn)狀

AIGC是否會取代人類?

文|硅兔賽跑 Chengxi

編輯|蔓蔓周

過去18個(gè)月,AI內(nèi)容生成(AIGC)是無疑是硅谷科技創(chuàng)投圈內(nèi)最火爆、最熱門的話題。

DALL-E(2021年1月推出)

Midjourney(2022年7月推出)

Stable Diffusion(2022年8月推出)

這類2D生成式工具,能夠在短短幾秒內(nèi)將文本提示(prompt)生成藝術(shù)風(fēng)格的圖片。隨著這類2D AIGC工具的演化和進(jìn)步,藝術(shù)家、設(shè)計(jì)師和游戲工作室的創(chuàng)作工作流正在被迅速顛覆革新。

AIGC的下一個(gè)突破口在哪?不少投資者和領(lǐng)域資深人士都給出了預(yù)測 — 3D數(shù)據(jù)生成。

我們注意到3D AIGC正在經(jīng)歷著2D AIGC曾經(jīng)發(fā)展過的階段。這篇文章中,我們將更深入地討論AIGC在3D數(shù)據(jù)領(lǐng)域的新突破,以及展望生成式AI工具如何提高3D數(shù)據(jù)生成的效率和創(chuàng)新。

回顧2D AIGC的高速發(fā)展

2D AIGC的發(fā)展可以簡單概括為以下三個(gè)發(fā)展階段:

第一階段:智能圖像編輯

早在2014年,隨著生成對抗網(wǎng)絡(luò)(GAN,典型后續(xù)工作StyleGAN)和變分自編碼器(VAE,典型后續(xù)工作VQVAE,alignDRAW)的提出,AI模型便開始被廣泛運(yùn)用到2D圖片的智能生成與編輯中。早期的AI模型主要被用于學(xué)習(xí)一些相對簡單的圖像分布或者進(jìn)行一些圖像編輯,常見的應(yīng)用包括:人臉生成、圖像風(fēng)格遷移、圖像超分辨率、圖像補(bǔ)全和可控圖像編輯。

但早期的圖像生成/編輯網(wǎng)絡(luò)與文本的多模態(tài)交互非常有限。此外,GAN網(wǎng)絡(luò)通常較難訓(xùn)練,常遇到模式坍塌(mode collapse)和不穩(wěn)定等問題,生成的數(shù)據(jù)通常多樣性較差,模型容量也決定了可利用數(shù)據(jù)規(guī)模的上限;VAE則常遇到生成的圖像模糊等問題。

第二階段:文生圖模型的飛躍

隨著擴(kuò)散生成(diffusion)技術(shù)的突破、大規(guī)模多模態(tài)數(shù)據(jù)集(如LAION數(shù)據(jù)集)和多模態(tài)表征模型(如OpenAI發(fā)布的CLIP模型)的出現(xiàn)與發(fā)展,2D圖像生成領(lǐng)域在2021年前后取得重要進(jìn)展。圖像生成模型開始與文本進(jìn)行深入的交互,大規(guī)模文生圖模型驚艷登場。

當(dāng)OpenAI在2021年初發(fā)布DALL-E時(shí),AIGC技術(shù)開始真正顯現(xiàn)出巨大的商業(yè)潛力。DALL-E可以從任意的文本提示中生成真實(shí)和復(fù)雜的圖像,并且成功率大大提高。一年之內(nèi),大量文生圖模型迅速跟進(jìn),包括DALL-E 2(于2022年4月升級)和Imagen(谷歌于2022年5月發(fā)布)。雖然這些技術(shù)當(dāng)時(shí)還無法高效幫助藝術(shù)創(chuàng)作者產(chǎn)出能夠直接投入生產(chǎn)的內(nèi)容,但它們已經(jīng)吸引了公眾的注意,激發(fā)了藝術(shù)家、設(shè)計(jì)師和游戲工作室的創(chuàng)造力和生產(chǎn)潛力。

第三階段:從驚艷到生產(chǎn)力

隨著技術(shù)細(xì)節(jié)上的完善和工程優(yōu)化上的迭代,2D AIGC得到迅猛發(fā)展。到2022年下半年,Midjourney、Stable Diffusion等模型已成為了廣受歡迎的AIGC工具。他們通過大規(guī)模的訓(xùn)練數(shù)據(jù)集的驅(qū)動,使得AIGC技術(shù)在現(xiàn)實(shí)世界應(yīng)用中的性能已經(jīng)讓媒體、廣告和游戲行業(yè)的早期采用者受益。此外,大模型微調(diào)技術(shù)的出現(xiàn)與發(fā)展(如ControlNet和LoRA)也使得人們能夠根據(jù)自己的實(shí)際需求和少量訓(xùn)練數(shù)據(jù)來“自定義”調(diào)整、擴(kuò)展AI大模型,更好地適應(yīng)不同的具體應(yīng)用(如二次元風(fēng)格化、logo生成、二維碼生成等)。

現(xiàn)在,使用AIGC工具進(jìn)行創(chuàng)意和原型設(shè)計(jì)很多情況下只需幾小時(shí)甚至更短,而不是過去需要的幾天或幾周。雖然大多數(shù)專業(yè)的圖形設(shè)計(jì)師仍然會修改或重新創(chuàng)建AI生成的草圖,但個(gè)人博客或廣告直接使用AI生成的圖像的情況越來越普遍。

alignDRAW, DALL-E 2, 和Midjourney 文本轉(zhuǎn)圖像的不同效果。

除了文本轉(zhuǎn)圖像,2D AIGC持續(xù)有更多的最新發(fā)展。例如,Midjourney和其他創(chuàng)業(yè)公司如Runway和Phenaki正在開發(fā)文本到視頻的功能。此外,Zero-1-to-3已經(jīng)提出了一種從物體的單一2D圖像生成其在不同視角下對應(yīng)圖片的方法。

由于游戲和機(jī)器人產(chǎn)業(yè)對3D數(shù)據(jù)的需求不斷增長,目前關(guān)于AIGC的前沿研究正在逐漸向3D數(shù)據(jù)生成轉(zhuǎn)移。我們預(yù)計(jì)3D AIGC會有類似的發(fā)展模式。

3D AIGC的“DALL-E”時(shí)刻

近期在3D領(lǐng)域的種種技術(shù)突破告訴我們,3D AIGC的“DALL-E”時(shí)刻正在到來!

從2021年末的DreamFields到2022年下半年的DreamFusion和Magic3D,再到今年五月的ProlificDreamer,得益于多模態(tài)領(lǐng)域和文生圖模型的發(fā)展,學(xué)術(shù)界文生3D模型也得到了不少突破。不少方法都能夠從輸入文本生成高質(zhì)量的3D模型。

然而這些早期探索大多數(shù)需要在生成每一個(gè)3D模型時(shí),都從頭優(yōu)化一個(gè)3D表示,從而使得3D表示對應(yīng)的各個(gè)2D視角都符合輸入和先驗(yàn)?zāi)P偷钠诖?。由于這樣的優(yōu)化通常需要成千上萬次迭代,因此通常非常耗時(shí)。例如,在Magic3D中生成單個(gè)3D網(wǎng)格模型可能需要長達(dá)40分鐘,ProlificDreamer則需要數(shù)小時(shí)。此外,3D生成的一個(gè)巨大挑戰(zhàn)便是3D模型必須具備從不同角度看物體形狀的一致性?,F(xiàn)有的3D AIGC方法常遇到雅努斯問題(Janus Problem),即AI生成的3D對象有多個(gè)頭或者多個(gè)面。

由于ProlificDreamer缺乏3D形狀一致性而出現(xiàn)的雅努斯問題。左邊是一只看似正常的藍(lán)鳥的正面視圖。右邊是一幅令人困惑的圖像,描繪了一只有雙面的鳥。

但另外一方面,一些團(tuán)隊(duì)正在嘗試突破現(xiàn)有的基于優(yōu)化的生成范式,通過單次前向預(yù)測的技術(shù)路線來生成3D模型,這大大提高了3D生成速度和準(zhǔn)確度。這些方法包括Point-E和Shap-E(分別于2022年和2023年由OpenAI發(fā)布)和One-2–3–45(2023年由加州大學(xué)圣地亞哥分校發(fā)布)。特別值得注意的是,最近一個(gè)月發(fā)布的One-2–3–45能夠在僅45秒的時(shí)間內(nèi)從2D圖像生成高質(zhì)量和具備一致性的3D網(wǎng)格!

對單圖像到3D網(wǎng)格方法的比較分析。從左到右,我們可以觀察到,處理時(shí)間從超過一個(gè)小時(shí)大幅度減少到不到一分鐘。Point-E、Shap-E和One-2–3–45在速度和準(zhǔn)確性上都有出色表現(xiàn)。

這些3D AIGC領(lǐng)域最新的技術(shù)突破,不僅大大提高了生成速度和質(zhì)量,同時(shí)讓用戶的輸入也變得更加靈活。用戶既可以通過文本提示進(jìn)行輸入,也可以通過信息量更加豐富的單張2D圖像來生成想要的3D模型。這大大擴(kuò)展了3D AIGC在商業(yè)應(yīng)用方面的可能性。

AI革新3D生產(chǎn)過程

首先,讓我們了解一下傳統(tǒng)3D設(shè)計(jì)師創(chuàng)建3D模型,所需要經(jīng)歷的工作流程:

1.概念草圖:概念藝術(shù)設(shè)計(jì)師根據(jù)客戶輸入和視覺參考進(jìn)行頭腦風(fēng)暴和構(gòu)思所需的模型。

2.3D原型制作:模型設(shè)計(jì)師使用專業(yè)軟件創(chuàng)建模型的基本形狀,并根據(jù)客戶反饋進(jìn)行迭代。

3.模型細(xì)化:將細(xì)節(jié)、顏色、紋理和動畫屬性(如綁定、照明等)添加到粗糙的3D模型中。

4.模型最終定型:設(shè)計(jì)師使用圖像編輯軟件增強(qiáng)最終的渲染效果,調(diào)整顏色,添加效果,或進(jìn)行元素合成。

這個(gè)過程通常需要幾周的時(shí)間,如果涉及到動畫,甚至可能需要更長。然而,如果有AI的幫助,上述每個(gè)步驟都可能會更快。

1.強(qiáng)大的多視圖圖像生成器(例如,基于Stable Diffusion和Midjourney的Zero-1–to–3)有助于進(jìn)行創(chuàng)意頭腦風(fēng)暴,并生成多視圖圖像草圖。

2.文本到3D或圖像到3D技術(shù)(例如,One-2–3–45或Shap-E)可以在幾分鐘內(nèi)生成多個(gè)3D原型,為設(shè)計(jì)師提供了廣泛的選擇空間。

3.利用3D模型優(yōu)化(例如,Magic 3D或ProlificDreamer),選定的原型可以在幾小時(shí)內(nèi)自動進(jìn)行精煉。

4.一旦精煉的模型準(zhǔn)備好,3D設(shè)計(jì)師就可以進(jìn)一步設(shè)計(jì)并完成高保真模型。

傳統(tǒng)與AI驅(qū)動的3D生產(chǎn)工作流程對比

3D AIGC是否會取代人類?

我們的結(jié)論是,暫時(shí)不會。人仍然是3D AIGC環(huán)節(jié)中不可缺失的一環(huán)。

盡管以上提到的3D模型生成技術(shù),能在機(jī)器人技術(shù)、自動駕駛和3D游戲中有許多應(yīng)用,然而目前的生產(chǎn)流程仍然不能滿足廣泛的應(yīng)用。

為此,硅兔君采訪了來自加州大學(xué)圣迭戈分校的蘇昊教授,他是3D深度學(xué)習(xí)(3D Deep Learning)和具身人工智能(Embodied AI)領(lǐng)域的領(lǐng)軍專家,也是One-2–3–45模型的作者之一。蘇昊教授認(rèn)為,目前3D生成模型的主要瓶頸是缺乏大量高質(zhì)量的3D數(shù)據(jù)集。目前常用的3D數(shù)據(jù)集如ShapeNet(約52K 3D網(wǎng)格)或Objaverse(約800K 3D模型)包含的模型數(shù)量和細(xì)節(jié)質(zhì)量都有待提升。尤其是比起2D領(lǐng)域的大數(shù)據(jù)集(例如,LAION-5B),它們的數(shù)據(jù)量仍然遠(yuǎn)不夠來訓(xùn)練3D大模型。

蘇昊教授曾師從幾何計(jì)算的先驅(qū)、美國三院院士Leonidas Guibas教授,并曾作為早期貢獻(xiàn)者參與了李飛飛教授領(lǐng)導(dǎo)的ImageNet項(xiàng)目。受到他們的啟發(fā),蘇昊教授強(qiáng)調(diào)廣泛的3D數(shù)據(jù)集在推進(jìn)技術(shù)方面的關(guān)鍵作用,為3D深度學(xué)習(xí)領(lǐng)域的出現(xiàn)和繁榮做出了奠基性工作。

此外,3D模型遠(yuǎn)比2D圖像的復(fù)雜很多,例如:

1.部件結(jié)構(gòu):游戲或數(shù)字孿生應(yīng)用需要3D對象的結(jié)構(gòu)化部件(例如,PartNet),而不是單一的3D網(wǎng)格;

2.關(guān)節(jié)和綁定:與3D對象互動的關(guān)鍵屬性;

3.紋理和材料:例如反光率、表面摩擦系數(shù)、密度分布、楊氏模量等支持交互的關(guān)鍵性質(zhì);

4.操作和操控:讓設(shè)計(jì)師能夠?qū)?D模型進(jìn)行更有效地交互和操縱。

而以上幾點(diǎn),就是人類專業(yè)知識能夠繼續(xù)發(fā)揮重要作用的地方。

蘇昊教授認(rèn)為,在未來,AI驅(qū)動的3D數(shù)據(jù)生成應(yīng)具有以下特性:

1.支持生成支撐交互性應(yīng)用的3D模型,這種交互既包括物體與物體的物理交互(如碰撞),也包括人與物體的交互(物理與非物理的交互方式),使得3D數(shù)據(jù)在游戲、元宇宙、物理仿真等場景下能夠被廣泛應(yīng)用;

2.支持AI輔助的3D內(nèi)容生成,使得建模的生產(chǎn)效率更高;

3.支持Human-in-the-loop的創(chuàng)作過程,利用人類藝術(shù)天賦提升生成數(shù)據(jù)的質(zhì)量,從而進(jìn)一步提升建模性能,形成閉環(huán)的數(shù)據(jù)飛輪效應(yīng)。

類似于過去18個(gè)月來像DALL-E和ChatGPT這樣的技術(shù)所取得的驚人發(fā)展,我們堅(jiān)信在3D AIGC領(lǐng)域即將發(fā)生,其創(chuàng)新和應(yīng)用極有可能會超過我們的預(yù)期,硅兔君會持續(xù)深入探索和輸出。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。