文|洞見新研社 辰紋
“未來十年,AIGC(人工智能自主生產(chǎn)內(nèi)容)將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式??梢詫崿F(xiàn)以十分之一的成本,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容?!?/p>
李彥宏7月在百度世界大會上的發(fā)言話音未落,AI作畫的風(fēng)潮如同一場旋風(fēng),席卷了互聯(lián)網(wǎng)的每個角落,不光引發(fā)了社會各界的廣泛討論,而且開始從專業(yè)領(lǐng)域走進普通人的生活。
曾敗于AI的天才棋手柯潔、知名畫師烏合麒麟等都曾參與過相關(guān)討論,閑魚上甚至出現(xiàn)售賣AI繪畫作品的帖子,“1分鐘內(nèi)出圖”,“5元4張”,主打一個低價高速。
而隨著像百度、華為這樣的科技巨頭以及資本的入場,更是將AI繪畫的熱度抬高了一個等級。
百度和華為分別推出了各自的AI繪畫平臺“文心一格”與ModelArts。
生成式AI平臺“TIAMAT”則在10月12日宣布完成由知名風(fēng)投機構(gòu)DCM投資的數(shù)百萬美元天使輪融資。
在此之前,Stability AI獲得了1.01億美元種子輪融資,正式晉升獨角獸行列;幾乎同一時間,另一家人工智能獨角獸公司Jasper也宣布獲得了1.25億美元的新融資。
AI作畫爆火,展示了AIGC技術(shù)的突破進展,當(dāng)然有值得高興的地方,可技術(shù)的進步與落地如何產(chǎn)生價值,進而引導(dǎo)相關(guān)行業(yè)完成生產(chǎn)力與生產(chǎn)關(guān)系的重建,卻仍有諸多疑問待解。
01 為什么是AI作畫?
AI作畫并不是什么新鮮事物,早在2012年就已經(jīng)有所發(fā)展,只是AI繪畫的早期作品看起來還很粗糙,直到今年年初時,AI繪畫還只停留在“能看”的階段。
其實對比一下現(xiàn)階段的AI寫作、AI作曲、AI配音、AI唱歌等技術(shù),可以發(fā)現(xiàn)這些活A(yù)I都能做,但與人類相比,存在明顯的差距,當(dāng)時的AI繪畫大致也是這樣的水平。
大眾對AI繪畫觀感的轉(zhuǎn)變發(fā)生在今年8月,美國游戲設(shè)計師Jason Allen用一張AI繪畫作品《太空歌劇院》,拿下了美國科羅拉多州博覽會美術(shù)競賽一等獎。
大賽評委對這副AI作品的評語是:即使它是AI生成的作品,也依舊配得上這樣的成績。
雖然這副作品在AI生成之后,設(shè)計師還進行了上千次的修改,花費了近80個小時才完成,但并不妨礙公眾對AI能力的重新認識:原來AI繪畫已經(jīng)可以超越人類了!
《太空歌劇院》能獲得專業(yè)評委認可并獲獎,背后支撐技術(shù)的突破功不可沒。
在今年年初時,AI繪圖軟件Disco Diffuion解決了效率問題,可以在很短的時間內(nèi)批量生產(chǎn)繪畫作品;
后續(xù)幾個月,經(jīng)過DALL·E 2與MidJourney等AI繪畫平臺的相繼測試,AI已經(jīng)可以生成符合大眾審美要求的人物形象;
到了7月份,Disco Diffuion成功解決了細節(jié)與效率的問題,AI繪畫的精度提升到藝術(shù)品級別,生產(chǎn)效率提升到秒級,創(chuàng)造所需的門檻也大大降低,普通電腦甚至手機也能適用。
AI繪畫最終引爆的導(dǎo)火索當(dāng)屬Disco Diffuion的開源,此次開源開放的不僅僅是程序,還有訓(xùn)練好的模型,這大大降低了AI繪畫創(chuàng)業(yè)的難度,同時也對技術(shù)的普及起到了極大的推動作用。
在技術(shù)之外,C端用戶的瘋狂追捧,也成為AI繪畫爆火的重要因素。
相比其他AIGC創(chuàng)造,AI繪畫的門檻更低,參與度更高。
最開始時,MidJourney、Disco diffusion、Stable Diffusion等AI繪圖平臺生產(chǎn)了大量AI繪畫作品,這些作品在推特、Facebook等社交媒體平臺發(fā)布后,引發(fā)大量用戶圍觀,特別是當(dāng)用戶輸入幾個關(guān)鍵詞,就能在十幾秒內(nèi)生成一幅高質(zhì)量的繪畫作品,極大刺激了用戶的參與熱情。
在中國,是由搖滾樂隊萬能青年旅店的MV作品《殺死那個石家莊人》在B站率先引爆的,這個MV的每個畫面都取自歌曲的歌詞,由Midjourney平臺生成。
在此之后,《七里香》《孤勇者》《加州旅館》《波西米亞狂想曲》等熱門歌曲都被UP主們用AI繪畫的作品作為MV的素材重新創(chuàng)作了一次。
對此,有專業(yè)人士評述,對于用戶而言,AI作畫讓原來沒有繪畫基礎(chǔ)的人,能夠享受到創(chuàng)作帶來的愉悅,對于一些專業(yè)畫師,則是一個很好的工具,能夠更有效率的完成作品。
B站上有個熱評,在一定程度上反應(yīng)了C端用戶喜歡AI繪畫的原因:一是出概念、找靈感,二是當(dāng)成P圖素材與手工結(jié)合。
02 一座待挖的金礦
那么問題來了,AI繪畫能賺錢嗎?又該怎樣賺錢呢?
AI繪畫平臺們面對洶涌而至的C端需求,利用社交平臺的引流,推出類似于付費服務(wù)或者“會員制”的收費模式。
由于目前面向C端的AI繪畫平臺大多為輕量級的工具應(yīng)用,能夠展現(xiàn)出來的玩法和內(nèi)容場景都比較有限,同時C端用戶進入AI繪畫平臺,大多出于好奇嘗鮮的目的,當(dāng)新鮮感過去之后,如果不是專業(yè)人員,很難再刺激用戶進行二次消費,因而當(dāng)前這種純粹To C的商業(yè)模式的根基并不穩(wěn)固。
但若圍繞AI繪畫在C端用戶中的社交屬性,以及AIGC本身所包含的內(nèi)容社區(qū)屬性去挖掘,則仍有一個非常大的成長空間等待開拓,利用微信小程序,創(chuàng)造了日增5萬用戶的紀(jì)錄的AI繪畫平臺“盜夢師”團隊也認為這是一個機會,但“難度很大”。
五大時尚刊物之一《時尚芭莎》在36周年紀(jì)念刊特地邀約了幾位AI畫手,借助AI繪畫工具完成了一幅東方美學(xué)與超現(xiàn)實主義相結(jié)合的畫作,這可視為AI繪畫在B端應(yīng)用的一個典型。
而在醫(yī)療、工業(yè)設(shè)計、動漫設(shè)計、游戲制作、服裝設(shè)計等領(lǐng)域中,AI繪畫可以施展的空間就更大了。
比如,有一種心理咨詢療法叫繪畫藝術(shù)療法,有的病人很難用語言表達自己的心理狀態(tài),咨詢師就會請他們繪畫,從畫中看出他們的心理狀態(tài)。
但不是每個病人都會畫畫,如果在其中應(yīng)用到AI繪畫的能力,病人表述畫作的構(gòu)思與關(guān)鍵詞,AI生成畫面后經(jīng)病人確認,或可為心理咨詢療法提供更多的支持。
比如,網(wǎng)絡(luò)小說與漫畫的聯(lián)創(chuàng),通常情況下,小說的寫作速度會高于漫畫的繪制速度,但有了AI繪畫后,可以大膽想象直接將小說的內(nèi)容生成漫畫圖片,此時不光提高內(nèi)容生產(chǎn)速度,更是整個內(nèi)容生態(tài)的重構(gòu)。
再比如,在元宇宙的世界中,從元宇宙場景的創(chuàng)建,到個人自我角色在元宇宙中的內(nèi)容創(chuàng)作,AI繪畫乃至AIGC都是不可或缺的一項能力,很多專業(yè)人士認為,AI繪畫乃至AIGC與元宇宙的結(jié)合是必然趨勢。
其實AI繪畫能夠落地哪些場景,行業(yè)都有共識,在技術(shù)之外,AI繪畫平臺之間競爭的焦點則在于成本。
針對B端市場,面向一個特定行業(yè)時,AI繪畫要對相關(guān)模型進行大量的專業(yè)訓(xùn)練,其中需要花費高額模型訓(xùn)練成本,當(dāng)營收無法覆蓋研發(fā)支出時,其商業(yè)模式也就無法成立了。
特別是當(dāng)AI繪畫或?qū)⑷〈鷮I(yè)畫師時,企業(yè)需要考慮的因素就更多了,兩者之間的成本差是一方面,更重要的是,企業(yè)會要求AI不但要便宜,還要比人類畫的更好,才會有動力和足夠的理由推動變革的進行。
03 什么是中國式AI作畫該有的樣子?
回到中國市場,在行業(yè)內(nèi)普遍由DALL-E 2和Stable Diffusion等國外模型唱主角的背景下,如何讓AI繪畫更好的表達中國元素成為一個不容忽視的問題。
為什么要這么說,我們先來看看一副AI繪畫作品是如何產(chǎn)生的。
在盜夢師小程序中輸入文本:
沐浴在晨光里;山頂上有中國式建筑;壯麗的、奇妙的;約翰·豪;山水;湖泊;云;早晨;農(nóng)田;王凌;神話;光效;夢;格雷格·魯特科夫斯基,虛擬引擎;詹姆斯·格尼;ArtStation
幾秒之后就能生成以下一副作品。
很明顯,模型對中文語義與中國文化的理解非常重要,特別是在實際落地階段,模型如果不能理解具有中國特色的行業(yè)特點,那么AI繪畫出的產(chǎn)品將很難適用行業(yè)及場景的需求。
對此,盜夢師雖然用的是Stable Diffusion模型,但對該模型進行了中國本土化的改造,用自己寫的follow instruction的方式對模型進行訓(xùn)練,并且加入了大量本地化數(shù)據(jù)。
TIAMAT也認為,AI模型的訓(xùn)練過程其實和小學(xué)生練習(xí)寫作的過程非常相似,不斷吸收優(yōu)秀作品的寫作風(fēng)格、修辭手法,才能最終創(chuàng)作出一篇高分作品,其中采用中國元素的數(shù)據(jù)資源進行訓(xùn)練是極為關(guān)鍵的一環(huán)。
百度發(fā)布的AI繪畫平臺文心ERNIE-ViLG 2.0中,則采用了知識增強算法的混合降噪專家建模。
為了能夠準(zhǔn)確理解用戶在使用AI繪畫應(yīng)用時輸入文字的語義,特別是一些復(fù)雜描述,ERNIE-ViLG 2.0通過視覺、語言等多源知識指引擴散模型學(xué)習(xí),強化文圖生成擴散模型對于語義的精確理解。
為了增強AI繪畫生成作品的精細度,ERNIE-ViLG 2.0又引入了基于時間步的混合降噪專家模型來提升模型建模能力,讓模型在不同的生成階段選擇不同的“降噪專家”網(wǎng)絡(luò),從而實現(xiàn)更加細致的降噪任務(wù)建模,進而提升生成圖像的質(zhì)量。
眾所周知,要想提高AI作畫的能力,特別是對中文語義和中國文化的理解,就必須有大量的中文圖文數(shù)據(jù)對模型進行訓(xùn)練,這是一個極其繁瑣與耗費時間與金錢的過程,如果沒有足夠多的市場需求,一般的AI繪畫平臺不會投入太多資源。
百度不同,它在搜索、AI以及深度學(xué)習(xí)框架等業(yè)務(wù)的研發(fā)中已經(jīng)積累了海量的中文圖文數(shù)據(jù)資源,這些資源可以隨時調(diào)用,同時也成為ERNIE-ViLG 2.0的核心競爭力,相比其他模型,ERNIE-ViLG 2.0在表達具有中國風(fēng)意境的畫作中表現(xiàn)更為突出。
在某種程度上來說,AI作畫的技術(shù)突破雖然是由美國帶動的,但中國的跟進速度并不慢,演化到現(xiàn)在,AI繪畫并不是簡簡單單的市場開拓方面的商業(yè)競爭,更是關(guān)乎到自主掌控AI關(guān)鍵技術(shù)的競爭,而其中取勝的關(guān)鍵是技術(shù)研發(fā)過程中尋找市場的內(nèi)生需求,通過因地制宜的本土化適配,做好細分市場和細分場景的落地。