文|巴比特資訊
AI 藝術更為直接的是一場新消費變革,但以未來為終局,其必將是一場新技術變革,這是自十多年前移動互聯(lián)網(wǎng)革命以來久違的一幕,讓開源生態(tài)點燃的這星星之火燃遍新十年創(chuàng)業(yè)的每個角落。與區(qū)塊鏈引領的加密變革稍有不同,AIGC(AI 藝術所歸屬的大類)帶給人們的興奮感并不來自純金融和財富預期(“多巴胺”),更多的是發(fā)自人類內(nèi)心本質(zhì)的對嶄新未來的渴望,那是一種真正的“內(nèi)啡肽”。
未來:技術為王
由于當前最大的開源生態(tài)是以 SD 為導向,因此本文所談論的技術動向皆來自于 SD 大生態(tài)。MJ 在算法本質(zhì)上與 SD 同宗同源且大同小異,其關鍵為不斷進化的數(shù)據(jù)集和美學算法增強,期待 MJ 開源的那一日,與世人共享其普惠萬物的力量。
(一)二次元模型開辟可商用垂直模型先河
以 NovelAI Diffusion、Waifu Diffusion、trinart 等為代表的二次元模型以其驚人的“平圖”效果極大地拓展了 SD 模型和生態(tài)的想象空間,其近乎可商業(yè)化的使用體驗也開辟了“萬物皆可垂直”的垂直模型先河,彌補了像 SD 這種大通用模型在個別美學領域的“力不從心”。當然在這個過程中也是伴隨著詬病、質(zhì)疑和抨擊,但商業(yè)與技術應該一分為二去看待。
以 NovelAI Diffusion 為例
由原本做 AIGC 生成小說內(nèi)容的商業(yè)實體 Novel 推出,基于 SD 算法框架和 Danbooru 二次元圖庫數(shù)據(jù)集進行訓練和優(yōu)化,被外網(wǎng)稱為“最強二次元生成模型”。
除去手部細節(jié),NovelAI 的出圖質(zhì)量可謂上乘。最大的功勞來自 Danbooru,是一個二次元圖片堆圖網(wǎng)站,會標注畫師名、原作、角色,以及像文字描述一遍畫面內(nèi)容的詳細 tag(可能會詳細到角色的發(fā)型發(fā)色、外貌特征、服裝、姿勢表情、包含一些其他可識別內(nèi)容的程度),而這些對擴散模型的訓練尤為重要,省去了大量的人工篩選標注工作。
Danbooru 的商業(yè)定位也給了 NovelAI “可乘之機”:根據(jù)搜索結果內(nèi)容量來看,這個網(wǎng)站是其他用戶自發(fā)保存(例如在推上有一些熱度的繪畫作品)并上傳上去的,所以在日本一直有這個網(wǎng)站無授權轉(zhuǎn)載的爭議。關于這次 AI 學習素材庫的事情,Danbooru方面也有做出回應:與包括NovelAI 在內(nèi)的 AI 作畫網(wǎng)站沒什么關系,且不認可他們的行為。
(注:以上相關內(nèi)容引用自微博大 V:夜露·茍·布魯圖斯)
但從正面意義來看,NovelAI 的確也在技術上給 SD 帶來了新的空間,就連 StabilityAI 的老板 Emad 也在推特上宣傳到:“NovelAI 的技術工作是對 SD 極大的提升,包括手指修復、任意分辨率等等?!睂夹g感興趣的可以看一看官方博客blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac中對 SD 的改進工作,大致是修改了 SD 模型架構及訓練過程。
像 NovelAI 這類的二次元模型對于用戶輸入的描述詞的專業(yè)程度要求較高,如下所示:
colorful painting, ((chinese colorful ink)), (((Chinese color ink painting style))), (((masterpiece))), (((best quality))),((Ultra-detailed, very precise detailed)),
(((a charming Chinese girl,1girl,solo,delicate beautiful face))), (Floating),(illustration),(Amazing),(Absurd),((sharp focus)), ((extremely detailed)), ((high saturation)), (surrounded by color ink splashes),((extremely detailed body)),((colorful))
不僅需要描述人物,更是要對人物的二次元細節(jié)進行刻畫,甚至還要加一些有助于畫質(zhì)增強的詞匯,這一系列操作被網(wǎng)友戲稱為“咒語”,就像要進入一個二次元世界一般,首先你要學會“念咒”。好在社區(qū)力量是無限的,陸續(xù)出現(xiàn)了很多“寶典”,如《元素法典》元素法典——Novel AI 元素魔法全收錄docs.qq.com/doc/DWHl3am5Zb05QbGVs和元素法典 第二卷——Novel AI 元素魔法全收錄docs.qq.com/doc/DWEpNdERNbnBRZWNL,將二次元的“心法口訣”公諸于眾,且全民共創(chuàng),這很“二次元”。
(二)AI 畫二次元漫畫逐漸可行
二次元模型對于畫特定形象的人物十分擅長,比如在如下的連續(xù)出圖中,我們大致可以認為都是一個“主人公”(稱之為白小蘇蘇)在變 Pose 或者換裝。因為我們給予 AI 的描述中對該人物進行了極為細致的刻畫,就像固定了她的基因一般,加上二次元模型本身對于人物的勾畫(平圖)相對于真實人物就“粗放”一些,只要重要人物特征一致,便可以判別為同一個人。
{profile picture},{an extremely delicate and beautiful girl}, cg 8k wallpaper, masterpiece, cold expression, handsome, upper body, looking at viewer, school uniform, sailor suit, insanity, white hair, messy long hair, red eyes, beautiful detailed eyes {{a black cross hairpin}}, handsome,Hair glows,dramatic angle
直譯為:
{頭像},{一個極其精致美麗的女孩},cg 8k墻紙,杰作,冷漠的表情,英俊,上半身,看著觀眾,校服,水手服,瘋狂,白發(fā),凌亂的長發(fā),紅色的眼睛,美麗細致的眼睛{{一個黑色的十字發(fā)夾}},英俊,頭發(fā)發(fā)光,戲劇性的角度
于是進一步的,可以通過“底圖模式”去約束人物的動作表達或者情節(jié)表達,再配上同樣的人物特征關鍵詞描述,便可以輸出該人物動漫劇情般的“生命周期”,她不再活在一幅圖中。何為“底圖”控制,如下所示:
圖片來源:wuhu動畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》
給 AI 上傳左邊的“粗制圖”,是為底圖,底圖負責勾勒畫面的大體結構,但未對人物細節(jié)進行刻畫,隨后由 AI 將人物特征細節(jié)進行“填充”,便會出現(xiàn)同一主人公擺出不同 Pose 的漫畫劇情。
圖片來源:wuhu動畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》
最后再配上文字、漫畫格式框,稍微經(jīng)過 PS 整合,便能出來一幅像模像樣的漫畫了。
圖片來源:wuhu動畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》
當然上述都是基于現(xiàn)在 AI 模型的發(fā)展所提出的“妥協(xié)”手段,實際上我們在畫二次元漫畫時應該追求絕對的主人公一致性(真正是同一個人物)和更為精準的動作控制、背景控制甚至數(shù)量控制和表情控制等等,而這些都需要借助更為先進的技術,即如下所要講述的模型訓練和以交叉注意力為代表的精準控制技術。
(三)開放模型訓練催生“萬物皆可垂直”
隨著二次元模型的成功流行,人們也越來越渴望更多類似的模型出現(xiàn),以解決五花八門的創(chuàng)作需求。一個中心化的商業(yè)平臺便需要做出一個大而全的產(chǎn)品以迎合用戶需求,但面對指數(shù)級的市場增長,這顯然是不現(xiàn)實的。最佳解決辦法便是交給一個去中心化的自組織生態(tài),像迸發(fā)二次元模型一樣實現(xiàn)模型的“涌現(xiàn)”,去解決人們?nèi)找嬖鲩L的創(chuàng)作需求。這便特別需要一種開放模型的力量,而 SD 在開源之處便將這種力量完全交給了所有人,每個人都可以去獲得算法模型,都可以去訓練自己的模型。于是,創(chuàng)作無限,模型涌現(xiàn)!
模型訓練技術分 Checkpoint Merger(檢查點合并)、Textual Inversion(Embedding 嵌入模型)、Hypernetwork(超網(wǎng)絡模型)、Aesthetic Gradient(審美梯度)以及重量級的 Dreambooth 等。其中以 Textual Inversion 和 Dreambooth 最為流行,分別有著不同的技術原理和優(yōu)勢。
知名博主“Simon 的白日夢“在微博分享了自己使用 SD 的 Textual Inversion 技術訓練的“黏菌衛(wèi)星圖”案例。首先需要準備訓練數(shù)據(jù)集,大概一萬張衛(wèi)星地圖;我們都知道 SD 模型本身要么只能單獨出城市衛(wèi)星圖,要么只能出黏菌圖;博主通過 Textual Inversion 再次訓練之后,成功地把城市衛(wèi)星圖肌理和黏菌的微觀結構融合在了一起。
再分享另外一個知名博主“大谷 Spitzer”使用 Textual Inversion 進行“分鏡設計”的案例。我們在上面提到要做二次元漫畫離不開固定主人公形象,所謂分鏡設計便是能否用 AI 繪制出獨特且相貌保持連續(xù)性的動漫角色。大谷用 Textual Inversion + 自制數(shù)據(jù)集訓練了 6、7 種不同的相貌作為臉部基因。之后在輸入給 AI 的文字中,即可通過改變訓練好的幾個相貌 tag 的比例權重,融合出現(xiàn)實里不存在,同時在系列圖片里長相可以保持一致的角色。如下兩幅圖便是不同比例權重下出現(xiàn)的兩位“主人公”,而對于同一位主人公,可以通過 AI 讓其出現(xiàn)在各種各樣的場景。比如“太空之聲”里的女孩是同一個形象的不同故事表達,而“都市探員”里的主人公膚色更深、形象健碩,真的像一名探員。
在具體操作上,正如“Simon 的白日夢”所說:
當你輸入一個模型中沒有的概念,例如生成一個“Simon 的白日夢 up 主的照片”,因為 sd 模型沒有見過我,自然不能生成我的照片。但是注意,其實 sd 模型中是具備生成我的照片的所有要素的的能力,畢竟我只是一個普通的中國技術宅,模型中應該有不少亞洲人的特征可以用于合成。
那這時候給出幾張我的照片(坐標也可以通過編碼圖片獲得),對比剛才說的文字提示,訓練 textual inversion,其實是告訴模型“我是誰”,從而獲得根據(jù)我的文字提示獲得一個更準確的坐標。因此,訓練完后,我們會發(fā)現(xiàn)并沒有生成新的模型 ckpt 文件,而是得到了一個幾十 k 大小的 .pt 文件,然后下次啟動 stable diffuison webui 的時候就可以掛載這個文件,當我下次再輸入“Simon 的白日夢 up 主的照片”這段文字的時候,模型就會讀取這個 .pt 文件里邊的準確坐標,并和其它文字描述包含的坐標融合,然后生成更符合文字描述的圖片。
社區(qū)也在利用 Textual Inversion 為二次元模型豐富其尚不能繪制的形象,比如很多國產(chǎn)動漫角色,如秦時明月。只要有合法的數(shù)據(jù)集,技術都是現(xiàn)成的,通過算力讓人物形象在 AI 的世界“凝聚”。
embedding即為Textual Inversion
Textual Inversion 的優(yōu)勢是輕量級、簡單上手。它可以對主體(object)進行訓練,讓 AI 記住這個“人”或“物”,也可以對畫風(style)進行訓練,比如可以記住某位在世藝術家的畫風然后讓 AI 以此畫風來畫任何事物;訓練出的模型文件可以直接掛載到 SD 模型框架中,類似 Linux 開放時代不斷完善的動態(tài)連接庫,因此對 SD 也是友好的。但劣勢是,效果較為粗糙,目前尚未有可以進入商業(yè)化產(chǎn)品效果的模型出現(xiàn),社區(qū)更多期待給予了另外一項技術——Dreambooth。
相較于 Textual Inversion 等在 SD 框架上的增添,Dreambooth 是直接調(diào)整整個 SD 模型本身,SD 模型是一個大概 4G 左右的 ckpt 文件,經(jīng)過 Dreambooth 重訓模型后,會生成一個新的 ckpt 文件,是一種深度融合。因此 Dreambooth 的訓練會更為復雜苛刻。
由于 dreambooth 會將訓練對模型的影響鎖定在某一種物體的類別內(nèi),所以訓練的時候不僅需要描述的文字、對應圖片,還需要告訴模型你訓練的物體的類別(訓練完使用的時候,也要同時在 prompt 中包含類別和 token 關鍵字),并且用訓練前的模型先生成一系列這一種類物體的正則化圖片(regularization image)用于后續(xù)和你給的圖片做半監(jiān)督訓練。所以,生成正則化圖片要消耗額外的圖片(一般要 1K+,但是可以用別人生成好的);訓練的時候因為是調(diào)整整個模型(即便只是模型中的部分參數(shù)),對算力和時間要求也比較高。我在本地一塊 3090 上訓練時顯存占用達到 23.7G,訓練 10K 張 10000epoch 需要 4 個半小時。
—— Simon 的白日夢
黏菌衛(wèi)星圖模型兩種訓練效果對比,dreambooth更勝一籌
再回到二次元這個話題,同樣有大 V 利用 Dreambooth 訓練出了一個賽博風的二次元模型——Cyberpunk Anime Diffusion,由“大谷 Spitzer”開發(fā),現(xiàn)已開源。
Cyberpunk Anime Diffusion開源huggingface.co/DGSpitzer/Cyberpunk-Anime-Diffusion
提這種模型并不是打廣告,而是致敬其開創(chuàng)意義,起碼在國內(nèi)都是值得后來者去模仿和超越的。Cyberpunk Anime Diffusion 汲取了大量《賽博朋克:邊緣行者》畫風素材,在基礎模型上使用的是一個基于 Waifu Diffusion V1.3 + Stable Diffusion V1.5 VAE 的融合模型,然后用 Dreambooth 導入自定義數(shù)據(jù)集訓練了 13700 步就獲得了以下的生成效果(使用方法,在 prompt 中加入關鍵詞"dgs illustration style")。
憑借著對底層基礎模型更為深度地改進,Dreambooth 也被稱為“核彈級技術”。同 textual inversion 一樣,dreambooth 也可以訓練主體、記住主體,比如輸入幾張自己的照片(家里的小狗),dreambooth 就會記住照片中的物體長什么樣,然后就能把這個物體作為關鍵詞套用到任何場景和風格中,“一鍵實現(xiàn)無限分鏡”。
Dreambooth技術最早來自google論文,此為論文中的案例,一只現(xiàn)實小狗無限藝術分鏡
同樣可以人也可以,比如給自己來張自拍,然后讓自己出現(xiàn)在藝術的大千世界中。
記住主體更大的意義是,可以對主體進行“屬性修改”。比如當 AI 記住了輸入的“小汽車”后,便可以隨心所欲地對其顏色進行更改,而其他特征保持一致。再回到二次元漫畫那個話題,這種精準屬性控制技術也是其關鍵推動技術之一。
正如 《上線一個月成為準獨角獸、上萬人排隊注冊,AI Art是下一個NFT?》一文中寫到:
“2022 年,可稱為被 Diffusion 開啟的 AI Art 元年。接下來的三至五年內(nèi),AI Art 將會往更加自由的方向發(fā)展,比如展現(xiàn)出更強的耦合性,可被用戶定制的空間更大,也就是說更貼近“主觀創(chuàng)作”的過程,藝術作品中也會分化和體現(xiàn)出越來越細致的用戶想法。Google 近期上線的 DreamBooth AI 已經(jīng)展現(xiàn)出了這一特點。”
除了上述對主體的訓練,Dreambooth 最常被用來“記住”畫風,即訓練 style。上述博主(“地球土著座一億”)用了十張夏阿老師的畫,通過 dreambooth “記住”了他的畫風,效果對比如下。
(備注:夏阿是出生于揚州,定居于南京的 80 后插畫師。因 2014 年經(jīng)常在網(wǎng)上發(fā)布“穿越”“混搭”“搞笑”類的國畫作品,深受網(wǎng)友喜愛而“走紅”。)
如下為夏阿的原作——
如下為 dreambooth 的訓練效果出圖——
不論是輕量級的 Textual Inversion,還是重量級的 Dreambooth,抑或介于二者之間的如 Hypernetwork(超網(wǎng)絡模型)和 Aesthetic Gradient(審美梯度)等,包括更多的原生模型訓練方式:模型融合、微調(diào)(Fine Tuning)等,都是現(xiàn)階段輸出更加可商業(yè)化新模型的利器。短短一個月時間便已經(jīng)涌現(xiàn)出了大量在概念驗證階段的垂直模型,五彩繽紛。
社區(qū)基于 Textual Inversion 訓練的模型大全開源庫——
sd-concepts-libraryhuggingface.co/sd-concepts-library
社區(qū)基于 Dreambooth 訓練的模型大全開源庫——
sd-dreambooth-library (Stable Diffusion Dreambooth Concepts Library)huggingface.co/sd-dreambooth-library
采用更多訓練技術的模型大全站點 Civitai——
Civitai | Share your modelscivitai.com/?continueFlag=9d30e092b76ade9e8ae74be9df3ab674&model=20
如果說 SD 為 AI 藝術打開了第一扇窗戶,那么今天這些五光十色、極具創(chuàng)意的“大千”模型則為 AI 藝術打開了第一扇大門。尤其在 Dreambooth 模型生態(tài)中,有能夠?qū)崿F(xiàn)迪士尼風的模型、有當下 MJ 生態(tài)最火的機甲風模型……
https://huggingface.co/nitrosocke/mo-di-diffusion
https://github.com/nousr/robo-diffusion
(四)交叉注意力實現(xiàn)畫面的精準控制
開放模型的出現(xiàn)給予了降維解決一切難題的方式,真正實現(xiàn)了“創(chuàng)造”二字。與此同時,也不能忽略一些輔助技術的發(fā)展,還是拿二次元漫畫為例,我們不免要對一些更細節(jié)的繪制表現(xiàn)進行控制。如下,我們希望保留汽車和樹木背景,但改變在它上面的“主人公”;或者將一幅現(xiàn)實照片進行漫畫風格的變化,以做漫畫敘事背景設計。
開源連接——
Cross Attention Controlgithub.com/bloc97/CrossAttentionControl/blob/main/CrossAttention_Release.ipynb
這就是所謂的交叉注意力控制(Cross-Attention Control)技術,連 StabilityAI 創(chuàng)始人也不禁為這項技術點贊:“在類似技術幫助下,你可以去創(chuàng)造任何你夢想的事物?!?/p>
該項目開源連接——
GitHub - google/prompt-to-promptgithub.com/google/prompt-to-prompt
在這個項目 demo 中,可以改變主人公“小貓”的坐騎,可以給背景畫一道彩虹,可以讓擁擠的路上變得空曠。在如下類似的研究項目中,還可以做到讓主人公豎大拇指、讓兩只鳥 kiss、讓一個香蕉變兩個。
不論是【Imagic】還是【Prompt-to-Prompt】,精準控制技術對于實現(xiàn) AI 繪圖的自主可控十分重要,也是構建二次元漫畫體系比較重要的技術動向之一,目前尚處于行業(yè)研究前沿。
(五)精準控制系列之 Inpainting 和 Outpainting
說到了精準控制,它不是某一項技術,交叉注意力是其一,還有很多輔助性手段為其服務,最為流行和商業(yè)成熟的是 inpainting 和 outpainting 技術。這是傳統(tǒng)設計領域的概念,AI 藝術也繼承了過來。當前 SD 也推出了 inpainting 功能,可翻譯為“涂抹”,即對于畫面中不滿意的部分進行“涂抹”,然后 AI 會在涂抹區(qū)重新生成想要替換的內(nèi)容,具體見下圖操作。
開源地址——
Runway MLgithub.com/runwayml/stable-diffusion#inpainting-with-stable-diffusion
同樣以二次元漫畫這個終極追求為例,當需要給女主人公增加一位帥氣的男士時,便可以在她旁邊區(qū)域進行涂抹,然后附上一段霸道總裁的關鍵詞 prompt,AI 便會給女主一段“姻緣”。
另外一項技術 outpainting,被譽為“無限畫布”,最早出現(xiàn)在 Dalle2 的商業(yè)產(chǎn)品體系中,當時也是震驚世人。簡單來講,將一張需要擴展的圖上傳給 AI,outpainting 便會在這張圖的四周擴展出“無限的”畫布,至于填充什么內(nèi)容,也完全交給用戶自己輸入的 prompt 決定,無限畫布,無限想象空間。如下利用 outpainting 為一幅經(jīng)典名畫填充了大量背景,產(chǎn)生了令人驚喜的效果。如今 SD 生態(tài)也擁有了自己的 outpainting 技術,開源地址——
Stablediffusion Infinity - a Hugging Face Space by lnyanhuggingface.co/spaces/lnyan/stablediffusion-infinity?continueFlag=27a69883d2968479d88dcb66f1c58316
在 outpainting 的加持下,不僅可以為一幅單調(diào)的圖加無限的背景,更可以極大拓展 AI 藝術出圖的尺寸,在 SD 生態(tài)一般出圖為幾百像素,遠遠不能滿足大尺寸海報的需求,而 outpainting 技術便可以極大擴展 AI 藝術原生出圖的尺寸。同樣對于二次元漫畫,甚至可以在一幅圖中展現(xiàn)所有“參演人員”的形色百態(tài)。
(六)其他更多技術概念
除了上述重要技術外,還有很多細分技術被社區(qū)津津樂道。
可以利用 Deforum 做 SD 動畫
SD動畫colab.research.google.com/github/deforum/stable-diffusion/blob/main/Deforum_Stable_Diffusion.ipynb
知名博主“海辛 Hyacinth”也給出了一個完整制作 AI 動畫的工作流——
其中提到了多種技術,如利用 inpainting 修改細節(jié),用 outpainting 向外擴展,用 dreambooth 做動畫主角,用 Deforum 不斷生成改變、用 coherence 進行連續(xù)性控制、用 flowframe 補幀等等。更做二次元漫畫一樣,也是一項系統(tǒng)性工程。
prompt 逆向反推
整個 AI 藝術最關鍵的是 prompt,尤其對于新人用戶,能否獲得好的 prompt 是其能否獲得優(yōu)質(zhì)出圖的關鍵所在,因此很多產(chǎn)品化的 AI 工具都會在用戶輸入 prompt 這方面進行改進。除了大量可以獲取關鍵詞的搜索引擎網(wǎng)站外,逆向反推成為了一項重要輔助手段。所謂逆向反推,即給出一張圖片,可以是真實世界的,也可以來自 AI 生成,逆向反推技術便可以輸出能夠繪制該畫面的 prompt。雖然在實際效果中,無法反推出生成效果一模一樣的 prompt,但這給予了很多新人用戶獲取帶有復雜藝術修飾的 prompt 的途徑。如下名為 guess 的逆向反推工具為一張圖片反推出關鍵詞,其開源地址——
GitHub - huo-ju/dfserver: A distributed backend AI pipeline servergithub.com/huo-ju/dfserver
還有一款名為 CLIP Interrogator 的工具,使用連接如下——
CLIP Interrogator - a Hugging Face Space by pharmahuggingface.co/spaces/pharma/CLIP-Interrogator
類似的還有 methexis-inc 發(fā)布的 img2prompt——
Run with an API on Replicatereplicate.com/methexis-inc/img2prompt
除了直接以圖片進行反推外,還有一種工具如 Prompt Extend,可以一鍵加長 Prompt,可以將一個小白用戶輸入的“太陽”一鍵加長到帶有豐富藝術修飾的“大神級”描述,工具地址——
Prompt Extend - a Hugging Face Space by dasparthohuggingface.co/spaces/daspartho/prompt-extend
搜索引擎
說到 prompt,不得不說被譽為寶庫的各大搜索引擎網(wǎng)站——
OpenArtopenart.ai/?continueFlag=df21d925f55fe34ea8eda12c78f1877d
KREA — explore great prompts.www.krea.ai/
Krea開源地址github.com/krea-ai/open-prompts
Just a moment...lexica.art/
在搜索引擎中搜索自己想要的畫面,便會呈現(xiàn)符合主題的配圖及其對應的 prompt。還有不直接給 prompt 搜索,而是引導用戶一步步構建 prompt 的提示性工具——
Stable Diffusion prompt Generator - promptoMANIApromptomania.com/stable-diffusion-prompt-builder/
Public Promptspublicprompts.art/
如上圖,可根據(jù)網(wǎng)站提示,一步步構建出一幅“美麗的面孔”。在這些工具的加持下,即便從未接觸過 AI 藝術的用戶,在短短幾天內(nèi)也能逐漸摸清構建 prompt 的精髓。
(七)除了作圖,更多 AI 藝術領域
AI 藝術從 AI 作圖開始,也稱之為 text-to-image,但時至今日,藝術并不局限于圖片,AI 藝術也不局限于 AI 作圖,更多的 text-to-X 開始預示著未來 AI 藝術的新形態(tài)。最為知名的有:
text-to-3D
即文本生成 3D 模型,同樣在 SD 生態(tài)也有類似項目,地址如下——
Stable Dreamfusiongithub.com/ashawkey/stable-dreamfusion/blob/main/gradio_app.py
圖片來源:量子位《Text-to-3D!建筑學小哥自稱編程菜鳥,攢了個AI作畫三維版,還是彩色的》
在給 AI 輸入“一幅美麗的花樹畫,作者 Chiho Aoshima,長鏡頭,超現(xiàn)實主義”,就能瞬間得到一個長這樣的花樹視頻,時長 13 秒。這個 text-to-3D 項目叫 dreamfields3D,現(xiàn)已開源——
dreamfields3Dgithub.com/shengyu-meng/dreamfields-3D
除此之外,還有個項目叫 DreamFusion,地址——
DreamFusion: Text-to-3D using 2D Diffusiondreamfusionpaper.github.io
演示視頻地址video.weibo.com/show?fid=1034:4819230823219243
DreamFusion 有著較好的 3D 效果,也被 SD 生態(tài)嫁接到了 SD 實現(xiàn)中,開源地址——
DreamFusiongithub.com/ashawkey/stable-dreamfusion
還有 如 3DiM, 可以從單張 2D 圖片直接生成 3D 模型;英偉達開源 3D 模型生成工具,GET3D——
GET3D開源地址github.com/nv-tlabs/GET3D
text-to-Video
Phenaki 演示video.weibo.com/show?fid=1034:4821392269705263
文本生成視頻對技術要求極大,目前只有 google 和 meta 在爭相發(fā)布體驗性質(zhì)的產(chǎn)品,知名的如 Phenaki、Imagen Video 和 Make-A-Video。其中 Phenaki 可以在 22 秒內(nèi)生成一個 128*128 8fps 的長達 30 秒的短視頻。而 Imagen Video 可以生成清晰度更高的視頻,可達 1280*768 24fps。
text-to-Music
文本生成音樂,如項目 Dance Diffusion,試玩地址——
Dance Diffusioncolab.research.google.com/github/Harmonai-org/sample-generator/blob/main/Dance_Diffusion.ipynb#scrollTo=HHcTRGvUmoME
可以通過文本描述生成“在風聲中吹口哨”、“警報器和嗡嗡作響的引擎接近后走遠”等特殊聲音效果。
寫在最后
技術,永無止境,則 AI 藝術,永無止境。最后,以 StabilityAI 首席信息官 Daniel Jeffries 的一段話做結束——
“我們要建立一個充滿活力、活躍、智能內(nèi)容規(guī)則的世界,一個充滿活力、你可以與之互動的數(shù)字世界,共同創(chuàng)造的內(nèi)容,那是你的。加入到這股大潮吧,你將不再只是在未來的網(wǎng)絡上沖浪、被動地消費內(nèi)容。你將創(chuàng)造它!“