正在閱讀:

講透AI藝術(shù):緣起、意義和未來(上篇)

掃一掃下載界面新聞APP

講透AI藝術(shù):緣起、意義和未來(上篇)

所謂的“大開源”,包括開放核心 AI 算法模型(Latent)、開放核心訓(xùn)練數(shù)據(jù)集(LAION)、開放 AI 生成圖片的版權(quán)(CC0)。

文|巴比特資訊

今年 AI 藝術(shù)熱潮源于海外 AI 技術(shù)在圖像生成領(lǐng)域的革命性進(jìn)步,以 Disco Diffusion、Stable Diffusion、Midjourney 等為頭部代表的擴(kuò)散模型(Diffusion Model)開始在數(shù)字藝術(shù)領(lǐng)域大放異彩!以其驚人的藝術(shù)效果和可繪制“萬事萬物”的無限性,在短短半年時(shí)間里,吸引了來自全世界數(shù)千萬注冊(cè)用戶的實(shí)際參與、以及數(shù)億人的關(guān)注與談資。

時(shí)代洪流再度來襲,只不過這次的主角給予了 AI 技術(shù)。我們可以去質(zhì)疑一種新的商業(yè)模式或者消費(fèi)場景的市場有限性,但卻無法不去敬畏一種新技術(shù)革新所帶來的未來無限性,那是一場絕對(duì)的“無限游戲”!

緣起:細(xì)數(shù)幾大模型

2022 年初,由獨(dú)立開發(fā)者 Somnai 開發(fā)的 Disco Diffusion(簡稱 DD)在谷歌 Colab 云服務(wù)上正式對(duì)世界開放使用,4 月份開始在國內(nèi)經(jīng)很多設(shè)計(jì)與開源領(lǐng)域的大 V 傳播至熱,引發(fā)全民參與熱潮,不限于如何使用這種 AI 生產(chǎn)力工具、AI 藝術(shù)與人類藝術(shù)之爭、版權(quán)問題,乃至對(duì)現(xiàn)有各種視覺相關(guān)行業(yè)的沖擊幾何,紛繁復(fù)雜,不一而足,好不熱鬧。

緊隨其后的是一個(gè)更為強(qiáng)大的 AI 藝術(shù)工具 Midjourney(簡稱 MJ)開始在 Discord 上建立全球第一個(gè)集中式的 AI 創(chuàng)作者社區(qū),在短短兩三個(gè)月內(nèi),僅靠這種自發(fā)的人人傳播,社區(qū)規(guī)模便突破了一百萬人,成為 Discord 有史以來規(guī)模最大的社區(qū)頻道,蔚為壯觀。

2022 年夏天,眾多科技巨頭紛紛涉足 AI 藝術(shù)領(lǐng)域,以 OpenAI、谷歌、微軟、百度最為積極,分別推出了 Dall·E 2、Imagen、Nuwa、文心一格。巨頭成?還是社區(qū)成?成為這個(gè)夏天 AI 藝術(shù)發(fā)展進(jìn)程中最矚目的商業(yè)鏖戰(zhàn)。

但這些都尚不足以將 AI 藝術(shù)帶入到一個(gè)千億乃至萬億級(jí)的消費(fèi)市場中,一種技術(shù)只有具備建立超級(jí)大生態(tài)的能力才會(huì)被歷史所輔證、被當(dāng)下所青睞、被未來所銘記,就像曾經(jīng)的 Linux、云計(jì)算、安卓、以太坊等在用生態(tài)來承載人類數(shù)字技術(shù)發(fā)展的 30 多年征途。而它們的繼承者今天也逐漸嶄露頭角——Stable Diffusion(簡稱 SD)。

SD 自今年 8 月份面世以來,秉承“大開源”的精神和宗旨,不僅在短短兩個(gè)月時(shí)間內(nèi)讓其背后公司實(shí)體一躍成為市值高達(dá)十幾億美金的獨(dú)角獸,更吸引了全球數(shù)百萬乃至上千萬人積極參與其生態(tài)的建設(shè),這場如火如荼的“去中心化運(yùn)動(dòng)”引爆了海內(nèi)外的創(chuàng)業(yè)與投資熱潮,因此其意義之深遠(yuǎn)遠(yuǎn)超對(duì)自身的影響,其福澤被于世界與萬民。

而所謂的“大開源”,包括開放核心 AI 算法模型(Latent)、開放核心訓(xùn)練數(shù)據(jù)集(LAION)、開放 AI 生成圖片的版權(quán)(CC0)。這種三位一體的開源模式,讓全世界所有普通人、極客、創(chuàng)業(yè)者、商業(yè)團(tuán)體可以隨心所欲地完成對(duì) SD 的部署、運(yùn)行、改進(jìn)和商業(yè)化,且大膽使用全世界人利用 SD 所無私貢獻(xiàn)的 AI 生成式圖片,而不必受制于版權(quán)的束縛,大膽地去創(chuàng)新,讓 AI 技術(shù)在視覺生成領(lǐng)域能夠零摩擦地大跨步向前,不必受制于商業(yè)的條條框框而固步自封。

風(fēng)靡國內(nèi)外的 AI 藝術(shù)工具

時(shí)至今日,DD 雖然在商業(yè)化上無法體現(xiàn)效率、邊際成本、規(guī)模效應(yīng)的優(yōu)勢(shì),但其對(duì) AI 藝術(shù)開源運(yùn)動(dòng)的引領(lǐng)地位被廣泛認(rèn)可,依然是更多新人入場所能夠首先免費(fèi)享受到的 AI 藝術(shù)體驗(yàn),對(duì)于教學(xué)與用戶教育的意義依然存在且無法被替代。

在美學(xué)角度,DD 對(duì)于色彩的大膽繪制往往令人“心馳神往”,但其并不注重邏輯性,具有極為強(qiáng)烈的“AI 風(fēng)格”,這種純粹追求對(duì)視覺的沖擊效果也經(jīng)常被壁紙類創(chuàng)作者所青睞,因此在抖音、小紅書等社交媒體上經(jīng)常會(huì)看到由 DD 所創(chuàng)作的“色彩美學(xué)”作品。

幾乎所有的國產(chǎn) AI 藝術(shù)產(chǎn)品和工具都會(huì)首先集成 DD,是對(duì)開創(chuàng)者的致敬,也是對(duì)其獨(dú)特美學(xué)體驗(yàn)的認(rèn)可,這種風(fēng)格不因技術(shù)的進(jìn)化而過時(shí),也許會(huì)歷久而彌新,傳承為 AI 藝術(shù)最初始的模樣,愈發(fā)不可替代,則彌足珍貴!

AI 藝術(shù)領(lǐng)域并非由開源獨(dú)撐,時(shí)至今日商業(yè)化最為成功的當(dāng)屬 MJ。而 MJ 不僅完全閉源,還倡導(dǎo)付費(fèi)模式。這種底氣當(dāng)然來自其核心可控的技術(shù)、強(qiáng)大的產(chǎn)品、頂級(jí)的算法、不斷進(jìn)化的數(shù)據(jù)集,使得 MJ 的出圖已經(jīng)進(jìn)入“大成之境”,不論從邏輯性還是細(xì)節(jié)都幾乎與人類藝術(shù)家難解難分。迄今為止,MJ 共發(fā)布了四個(gè)版本,而每個(gè)版本都有其“致命性”的革新,如 v2 版的“美學(xué)”、v3 版的“邏輯”、v4 版的“無可挑剔”。

每次的新版本發(fā)布都無不讓全世界為之歡呼和追捧,這種場面不禁令人想到了當(dāng)初 iPhone 從初代開始的每一場發(fā)布。有人戲稱,DD 是塞班,SD 是安卓,MJ 則是蘋果。戲謔之中,暗藏著歷史的重演,未來已在此處,只是分布不均。

靠著不斷進(jìn)化的“深度”,MJ 全年都處于興盛不衰的狀態(tài),是所有 AI 藝術(shù)創(chuàng)作者都頂禮膜拜的“岡仁波齊峰”。雖然 MJ 并沒有進(jìn)駐中國消費(fèi)市場,但憑借著大模型(Big Model)之“大力出奇跡”的精髓,加上 MJ 每天都在擴(kuò)充自己的訓(xùn)練數(shù)據(jù)集,這個(gè)扎根于海外的產(chǎn)物竟也十分理解中國元素。很多國內(nèi)用戶用它刻畫古風(fēng)、武俠、神獸、古建筑等系列,并燃爆了整個(gè)抖音和小紅書的公域流量,好的作品點(diǎn)贊量都高達(dá)一百多萬,比很多粉絲數(shù)上億的頭部主播發(fā)布的日常狀態(tài)都高。

也許在七八月份的時(shí)候,很多用戶還能挑出 MJ 出圖的各種問題和瑕疵,但今天更多的是折服與認(rèn)可,隨之而來的便是持續(xù)的商業(yè)化輸出。MJ 的創(chuàng)作者群體已經(jīng)逐漸從一開始的純興趣愛好慢慢擴(kuò)展至使用 MJ 進(jìn)行商業(yè)設(shè)計(jì)與變現(xiàn)的職業(yè)群體,涉及影視制作、游戲設(shè)計(jì)、UI 設(shè)計(jì)、原畫、插畫、壁紙、數(shù)字藝術(shù)、數(shù)字藏品、元宇宙視覺等多個(gè)領(lǐng)域數(shù)百萬人的輻射。

MJ 目前將社群構(gòu)建在海外社交軟件 Discord 之上,從 0 到 100 萬人僅僅不到半年時(shí)間,而更是在隨后的兩個(gè)月時(shí)間內(nèi)從 100 萬干到了近 400 萬左右的規(guī)模。

可以說 MJ 社群的規(guī)模增長速度恰如其分地反映了整個(gè) AI 藝術(shù)行業(yè) 2022 年的發(fā)展軌跡和無盡潛力。作為 AI 藝術(shù)皇冠上的明珠,MJ 的存在無疑給了從事這個(gè)行業(yè)的創(chuàng)作者和創(chuàng)業(yè)者更多的信心和鼓舞,因?yàn)樗诓粩嘧C明——AI 藝術(shù)的進(jìn)化是永無止境的!

AI藝術(shù)家AIBEN使用MJ創(chuàng)作的科幻作品

在技術(shù)基因上,SD 跟 MJ 有著太多相似、相比、相拼之處。比如出圖時(shí)間都在 1 分鐘以內(nèi),甚至秒級(jí),這得益于像 SD 利用潛空間(latent space)極大地提升了擴(kuò)散模型的繪制效率,將原本二維的像素空間畫布降維至一維的潛空間,這不僅僅是壓縮了時(shí)間,更讓圖像匹配人類描述的精準(zhǔn)度大大提升,因此這類模型相比于初代的擴(kuò)散模型更具商業(yè)落地可行性,可滿足千萬乃至上億人參與的新消費(fèi)場景。

時(shí)至今日,由 MJ 和 SD 領(lǐng)銜的 AI 藝術(shù)消費(fèi)市場已經(jīng)在全球突破了一千萬用戶的大關(guān),并在瘋狂地向一億全球用戶的新征程邁進(jìn)。但 SD 目前在輸出圖像的藝術(shù)水準(zhǔn)上相比于 MJ 還存在一些進(jìn)步的空間,這與我們接下來要講得息息相關(guān),也是 SD 生態(tài)正在努力的方向。

目前 SD 生態(tài)由公司實(shí)體 StabilityAI 和 RunwayML 共同領(lǐng)銜推進(jìn),與此同時(shí)一些第三方社區(qū)力量也舉足輕重,諸如 SD webui 項(xiàng)目、眾多二次元改進(jìn)項(xiàng)目、可用于訓(xùn)練 SD 新模型的 dreambooth 生態(tài)、可用于精準(zhǔn)控制 SD 畫面輸出的交叉注意力技術(shù)方向等等。百花齊放,生態(tài)猶如熱帶雨林一般,可能每天都有生與死,但生生不息!

更值得注意的是,擴(kuò)散模型技術(shù)大廈的構(gòu)建更離不開眾多上游大技術(shù)的鼎力配合,尤其指更精準(zhǔn)理解人類語義的大模型技術(shù)、文本與圖像多模態(tài)預(yù)訓(xùn)練模型(CLIP)、AI 藝術(shù)輸出質(zhì)量最為依賴的大規(guī)模訓(xùn)練數(shù)據(jù)集等。

SD 今天的成就離不開當(dāng)初對(duì) LAION 數(shù)據(jù)集的全力支持,其中大名鼎鼎的 LAION-5B 是用于訓(xùn)練下一代圖像文本模型的開放式大規(guī)模數(shù)據(jù)集,高達(dá) 58.5 億個(gè)圖像-文本對(duì),共 80T 數(shù)據(jù),是世界第一大規(guī)模、多模態(tài)的文本圖像數(shù)據(jù)集。

這個(gè)數(shù)據(jù)集的建立并非一朝一夕的工作,它是對(duì)互聯(lián)網(wǎng)發(fā)展近 30 年的縮影,要對(duì)海量的互聯(lián)網(wǎng)圖片做大量的工作,諸如提供了色情圖片過濾、水印圖片過濾、高分辨率圖片、美學(xué)圖片等子集和模型,以供不同方向研究。這就是互聯(lián)網(wǎng)的視覺 DNA!時(shí)至今日則由 CLIP、擴(kuò)散模型等新一代 AI 技術(shù)進(jìn)行編碼演繹,去勾勒出互聯(lián)網(wǎng)未來的模樣——元宇宙時(shí)代。隨著 LAION 的持續(xù)進(jìn)化,SD 也會(huì)輸出更加高質(zhì)量的 AI 藝術(shù)作品,就像 MJ 那樣。

誠如 StabilityAI 創(chuàng)始人 Emad 所言:“很高興支持創(chuàng)建這個(gè)為下一代模型奠定基礎(chǔ)的數(shù)據(jù)集。甚至更好的數(shù)據(jù)集正在開發(fā)中,它被設(shè)計(jì)為廣泛的、可擴(kuò)展的?,F(xiàn)在我們將向著多樣化、專業(yè)化和不斷提高質(zhì)量前進(jìn)。”

SD繪制的“萬事萬物”

如今人類有了眾多開源與閉源的 AI 藝術(shù)生產(chǎn)力,這其中有的可以直接進(jìn)入商業(yè)生產(chǎn),而有的則停留在娛樂體驗(yàn),因此就產(chǎn)生了付費(fèi)與免費(fèi)的用戶行為。對(duì)于極致水準(zhǔn)的圖像生成,用戶付費(fèi)的意愿也隨之強(qiáng)烈,這便是 AI 藝術(shù)這個(gè)行業(yè)極為明確的發(fā)展方向,進(jìn)化是永恒的使命!

(注:全文超萬字,共分三篇,上篇以幾大 AI 藝術(shù)模型講述“緣起”,中篇以打破“十二道邊界”講述“意義”,下篇從最新技術(shù)動(dòng)向的角度講明 AI 藝術(shù)尚存在的進(jìn)化空間,暢想“未來”)

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無評(píng)論哦,快來評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

講透AI藝術(shù):緣起、意義和未來(上篇)

所謂的“大開源”,包括開放核心 AI 算法模型(Latent)、開放核心訓(xùn)練數(shù)據(jù)集(LAION)、開放 AI 生成圖片的版權(quán)(CC0)。

文|巴比特資訊

今年 AI 藝術(shù)熱潮源于海外 AI 技術(shù)在圖像生成領(lǐng)域的革命性進(jìn)步,以 Disco Diffusion、Stable Diffusion、Midjourney 等為頭部代表的擴(kuò)散模型(Diffusion Model)開始在數(shù)字藝術(shù)領(lǐng)域大放異彩!以其驚人的藝術(shù)效果和可繪制“萬事萬物”的無限性,在短短半年時(shí)間里,吸引了來自全世界數(shù)千萬注冊(cè)用戶的實(shí)際參與、以及數(shù)億人的關(guān)注與談資。

時(shí)代洪流再度來襲,只不過這次的主角給予了 AI 技術(shù)。我們可以去質(zhì)疑一種新的商業(yè)模式或者消費(fèi)場景的市場有限性,但卻無法不去敬畏一種新技術(shù)革新所帶來的未來無限性,那是一場絕對(duì)的“無限游戲”!

緣起:細(xì)數(shù)幾大模型

2022 年初,由獨(dú)立開發(fā)者 Somnai 開發(fā)的 Disco Diffusion(簡稱 DD)在谷歌 Colab 云服務(wù)上正式對(duì)世界開放使用,4 月份開始在國內(nèi)經(jīng)很多設(shè)計(jì)與開源領(lǐng)域的大 V 傳播至熱,引發(fā)全民參與熱潮,不限于如何使用這種 AI 生產(chǎn)力工具、AI 藝術(shù)與人類藝術(shù)之爭、版權(quán)問題,乃至對(duì)現(xiàn)有各種視覺相關(guān)行業(yè)的沖擊幾何,紛繁復(fù)雜,不一而足,好不熱鬧。

緊隨其后的是一個(gè)更為強(qiáng)大的 AI 藝術(shù)工具 Midjourney(簡稱 MJ)開始在 Discord 上建立全球第一個(gè)集中式的 AI 創(chuàng)作者社區(qū),在短短兩三個(gè)月內(nèi),僅靠這種自發(fā)的人人傳播,社區(qū)規(guī)模便突破了一百萬人,成為 Discord 有史以來規(guī)模最大的社區(qū)頻道,蔚為壯觀。

2022 年夏天,眾多科技巨頭紛紛涉足 AI 藝術(shù)領(lǐng)域,以 OpenAI、谷歌、微軟、百度最為積極,分別推出了 Dall·E 2、Imagen、Nuwa、文心一格。巨頭成?還是社區(qū)成?成為這個(gè)夏天 AI 藝術(shù)發(fā)展進(jìn)程中最矚目的商業(yè)鏖戰(zhàn)。

但這些都尚不足以將 AI 藝術(shù)帶入到一個(gè)千億乃至萬億級(jí)的消費(fèi)市場中,一種技術(shù)只有具備建立超級(jí)大生態(tài)的能力才會(huì)被歷史所輔證、被當(dāng)下所青睞、被未來所銘記,就像曾經(jīng)的 Linux、云計(jì)算、安卓、以太坊等在用生態(tài)來承載人類數(shù)字技術(shù)發(fā)展的 30 多年征途。而它們的繼承者今天也逐漸嶄露頭角——Stable Diffusion(簡稱 SD)。

SD 自今年 8 月份面世以來,秉承“大開源”的精神和宗旨,不僅在短短兩個(gè)月時(shí)間內(nèi)讓其背后公司實(shí)體一躍成為市值高達(dá)十幾億美金的獨(dú)角獸,更吸引了全球數(shù)百萬乃至上千萬人積極參與其生態(tài)的建設(shè),這場如火如荼的“去中心化運(yùn)動(dòng)”引爆了海內(nèi)外的創(chuàng)業(yè)與投資熱潮,因此其意義之深遠(yuǎn)遠(yuǎn)超對(duì)自身的影響,其福澤被于世界與萬民。

而所謂的“大開源”,包括開放核心 AI 算法模型(Latent)、開放核心訓(xùn)練數(shù)據(jù)集(LAION)、開放 AI 生成圖片的版權(quán)(CC0)。這種三位一體的開源模式,讓全世界所有普通人、極客、創(chuàng)業(yè)者、商業(yè)團(tuán)體可以隨心所欲地完成對(duì) SD 的部署、運(yùn)行、改進(jìn)和商業(yè)化,且大膽使用全世界人利用 SD 所無私貢獻(xiàn)的 AI 生成式圖片,而不必受制于版權(quán)的束縛,大膽地去創(chuàng)新,讓 AI 技術(shù)在視覺生成領(lǐng)域能夠零摩擦地大跨步向前,不必受制于商業(yè)的條條框框而固步自封。

風(fēng)靡國內(nèi)外的 AI 藝術(shù)工具

時(shí)至今日,DD 雖然在商業(yè)化上無法體現(xiàn)效率、邊際成本、規(guī)模效應(yīng)的優(yōu)勢(shì),但其對(duì) AI 藝術(shù)開源運(yùn)動(dòng)的引領(lǐng)地位被廣泛認(rèn)可,依然是更多新人入場所能夠首先免費(fèi)享受到的 AI 藝術(shù)體驗(yàn),對(duì)于教學(xué)與用戶教育的意義依然存在且無法被替代。

在美學(xué)角度,DD 對(duì)于色彩的大膽繪制往往令人“心馳神往”,但其并不注重邏輯性,具有極為強(qiáng)烈的“AI 風(fēng)格”,這種純粹追求對(duì)視覺的沖擊效果也經(jīng)常被壁紙類創(chuàng)作者所青睞,因此在抖音、小紅書等社交媒體上經(jīng)常會(huì)看到由 DD 所創(chuàng)作的“色彩美學(xué)”作品。

幾乎所有的國產(chǎn) AI 藝術(shù)產(chǎn)品和工具都會(huì)首先集成 DD,是對(duì)開創(chuàng)者的致敬,也是對(duì)其獨(dú)特美學(xué)體驗(yàn)的認(rèn)可,這種風(fēng)格不因技術(shù)的進(jìn)化而過時(shí),也許會(huì)歷久而彌新,傳承為 AI 藝術(shù)最初始的模樣,愈發(fā)不可替代,則彌足珍貴!

AI 藝術(shù)領(lǐng)域并非由開源獨(dú)撐,時(shí)至今日商業(yè)化最為成功的當(dāng)屬 MJ。而 MJ 不僅完全閉源,還倡導(dǎo)付費(fèi)模式。這種底氣當(dāng)然來自其核心可控的技術(shù)、強(qiáng)大的產(chǎn)品、頂級(jí)的算法、不斷進(jìn)化的數(shù)據(jù)集,使得 MJ 的出圖已經(jīng)進(jìn)入“大成之境”,不論從邏輯性還是細(xì)節(jié)都幾乎與人類藝術(shù)家難解難分。迄今為止,MJ 共發(fā)布了四個(gè)版本,而每個(gè)版本都有其“致命性”的革新,如 v2 版的“美學(xué)”、v3 版的“邏輯”、v4 版的“無可挑剔”。

每次的新版本發(fā)布都無不讓全世界為之歡呼和追捧,這種場面不禁令人想到了當(dāng)初 iPhone 從初代開始的每一場發(fā)布。有人戲稱,DD 是塞班,SD 是安卓,MJ 則是蘋果。戲謔之中,暗藏著歷史的重演,未來已在此處,只是分布不均。

靠著不斷進(jìn)化的“深度”,MJ 全年都處于興盛不衰的狀態(tài),是所有 AI 藝術(shù)創(chuàng)作者都頂禮膜拜的“岡仁波齊峰”。雖然 MJ 并沒有進(jìn)駐中國消費(fèi)市場,但憑借著大模型(Big Model)之“大力出奇跡”的精髓,加上 MJ 每天都在擴(kuò)充自己的訓(xùn)練數(shù)據(jù)集,這個(gè)扎根于海外的產(chǎn)物竟也十分理解中國元素。很多國內(nèi)用戶用它刻畫古風(fēng)、武俠、神獸、古建筑等系列,并燃爆了整個(gè)抖音和小紅書的公域流量,好的作品點(diǎn)贊量都高達(dá)一百多萬,比很多粉絲數(shù)上億的頭部主播發(fā)布的日常狀態(tài)都高。

也許在七八月份的時(shí)候,很多用戶還能挑出 MJ 出圖的各種問題和瑕疵,但今天更多的是折服與認(rèn)可,隨之而來的便是持續(xù)的商業(yè)化輸出。MJ 的創(chuàng)作者群體已經(jīng)逐漸從一開始的純興趣愛好慢慢擴(kuò)展至使用 MJ 進(jìn)行商業(yè)設(shè)計(jì)與變現(xiàn)的職業(yè)群體,涉及影視制作、游戲設(shè)計(jì)、UI 設(shè)計(jì)、原畫、插畫、壁紙、數(shù)字藝術(shù)、數(shù)字藏品、元宇宙視覺等多個(gè)領(lǐng)域數(shù)百萬人的輻射。

MJ 目前將社群構(gòu)建在海外社交軟件 Discord 之上,從 0 到 100 萬人僅僅不到半年時(shí)間,而更是在隨后的兩個(gè)月時(shí)間內(nèi)從 100 萬干到了近 400 萬左右的規(guī)模。

可以說 MJ 社群的規(guī)模增長速度恰如其分地反映了整個(gè) AI 藝術(shù)行業(yè) 2022 年的發(fā)展軌跡和無盡潛力。作為 AI 藝術(shù)皇冠上的明珠,MJ 的存在無疑給了從事這個(gè)行業(yè)的創(chuàng)作者和創(chuàng)業(yè)者更多的信心和鼓舞,因?yàn)樗诓粩嘧C明——AI 藝術(shù)的進(jìn)化是永無止境的!

AI藝術(shù)家AIBEN使用MJ創(chuàng)作的科幻作品

在技術(shù)基因上,SD 跟 MJ 有著太多相似、相比、相拼之處。比如出圖時(shí)間都在 1 分鐘以內(nèi),甚至秒級(jí),這得益于像 SD 利用潛空間(latent space)極大地提升了擴(kuò)散模型的繪制效率,將原本二維的像素空間畫布降維至一維的潛空間,這不僅僅是壓縮了時(shí)間,更讓圖像匹配人類描述的精準(zhǔn)度大大提升,因此這類模型相比于初代的擴(kuò)散模型更具商業(yè)落地可行性,可滿足千萬乃至上億人參與的新消費(fèi)場景。

時(shí)至今日,由 MJ 和 SD 領(lǐng)銜的 AI 藝術(shù)消費(fèi)市場已經(jīng)在全球突破了一千萬用戶的大關(guān),并在瘋狂地向一億全球用戶的新征程邁進(jìn)。但 SD 目前在輸出圖像的藝術(shù)水準(zhǔn)上相比于 MJ 還存在一些進(jìn)步的空間,這與我們接下來要講得息息相關(guān),也是 SD 生態(tài)正在努力的方向。

目前 SD 生態(tài)由公司實(shí)體 StabilityAI 和 RunwayML 共同領(lǐng)銜推進(jìn),與此同時(shí)一些第三方社區(qū)力量也舉足輕重,諸如 SD webui 項(xiàng)目、眾多二次元改進(jìn)項(xiàng)目、可用于訓(xùn)練 SD 新模型的 dreambooth 生態(tài)、可用于精準(zhǔn)控制 SD 畫面輸出的交叉注意力技術(shù)方向等等。百花齊放,生態(tài)猶如熱帶雨林一般,可能每天都有生與死,但生生不息!

更值得注意的是,擴(kuò)散模型技術(shù)大廈的構(gòu)建更離不開眾多上游大技術(shù)的鼎力配合,尤其指更精準(zhǔn)理解人類語義的大模型技術(shù)、文本與圖像多模態(tài)預(yù)訓(xùn)練模型(CLIP)、AI 藝術(shù)輸出質(zhì)量最為依賴的大規(guī)模訓(xùn)練數(shù)據(jù)集等。

SD 今天的成就離不開當(dāng)初對(duì) LAION 數(shù)據(jù)集的全力支持,其中大名鼎鼎的 LAION-5B 是用于訓(xùn)練下一代圖像文本模型的開放式大規(guī)模數(shù)據(jù)集,高達(dá) 58.5 億個(gè)圖像-文本對(duì),共 80T 數(shù)據(jù),是世界第一大規(guī)模、多模態(tài)的文本圖像數(shù)據(jù)集。

這個(gè)數(shù)據(jù)集的建立并非一朝一夕的工作,它是對(duì)互聯(lián)網(wǎng)發(fā)展近 30 年的縮影,要對(duì)海量的互聯(lián)網(wǎng)圖片做大量的工作,諸如提供了色情圖片過濾、水印圖片過濾、高分辨率圖片、美學(xué)圖片等子集和模型,以供不同方向研究。這就是互聯(lián)網(wǎng)的視覺 DNA!時(shí)至今日則由 CLIP、擴(kuò)散模型等新一代 AI 技術(shù)進(jìn)行編碼演繹,去勾勒出互聯(lián)網(wǎng)未來的模樣——元宇宙時(shí)代。隨著 LAION 的持續(xù)進(jìn)化,SD 也會(huì)輸出更加高質(zhì)量的 AI 藝術(shù)作品,就像 MJ 那樣。

誠如 StabilityAI 創(chuàng)始人 Emad 所言:“很高興支持創(chuàng)建這個(gè)為下一代模型奠定基礎(chǔ)的數(shù)據(jù)集。甚至更好的數(shù)據(jù)集正在開發(fā)中,它被設(shè)計(jì)為廣泛的、可擴(kuò)展的。現(xiàn)在我們將向著多樣化、專業(yè)化和不斷提高質(zhì)量前進(jìn)。”

SD繪制的“萬事萬物”

如今人類有了眾多開源與閉源的 AI 藝術(shù)生產(chǎn)力,這其中有的可以直接進(jìn)入商業(yè)生產(chǎn),而有的則停留在娛樂體驗(yàn),因此就產(chǎn)生了付費(fèi)與免費(fèi)的用戶行為。對(duì)于極致水準(zhǔn)的圖像生成,用戶付費(fèi)的意愿也隨之強(qiáng)烈,這便是 AI 藝術(shù)這個(gè)行業(yè)極為明確的發(fā)展方向,進(jìn)化是永恒的使命!

(注:全文超萬字,共分三篇,上篇以幾大 AI 藝術(shù)模型講述“緣起”,中篇以打破“十二道邊界”講述“意義”,下篇從最新技術(shù)動(dòng)向的角度講明 AI 藝術(shù)尚存在的進(jìn)化空間,暢想“未來”)

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。