文|智東西 ZeR0
編輯|漠影
人工智能(AI)創(chuàng)作,怎么突然就成了AI領域最熱門的話題?
AI作畫拿大獎的熱議事件才沒過多久,這周,兩家AI生成內容企業(yè)相繼官宣過億美元新融資。最近爆火的Stable Diffusion模型,其背后公司Stability AI宣布獲得1.01億美元融資,投后估值達10億美元;明星AI內容平臺創(chuàng)企Jasper亦宣布獲1.25億美元新融資,估值達17億美元。
投資界對AI的熱情正在回升。這是一個方興未艾的賽道,正大舉挖掘AI的創(chuàng)造力潛能——AI算法在消化大量圖像、視頻、文本后,能學會創(chuàng)作詩歌、文章、繪畫、照片、視頻等原創(chuàng)內容,其作品甚至能做到“以假亂真”,乃至被高價拍賣。
掀起AI創(chuàng)作熱潮的鼻祖級“以文生圖”模型DALL·E背后的頂級AI創(chuàng)企OpenAI,亦被爆料正與微軟談判,想再拿一筆新融資。
此前OpenAI估值已接近200億美元。據外媒The Information今日報道,一位直接了解OpenAI財務狀況的人士透露,該公司有望在今年創(chuàng)收數(shù)千萬美元。這意味著OpenAI去年的估值可能是2022年預測收入的500至800倍。
同樣在這周,做AI音視頻編輯的創(chuàng)企Descript,被傳就新一輪融資開始與OpenAI CEO Sam Altman等投資者進行談判。
連藝術圈都開始熱議,AI創(chuàng)作,這是要搶走繪圖師的飯碗?
01.AI商業(yè)化新生意,明星創(chuàng)企迅速躥紅
今年大火的AI生成圖像,滿打滿算,其實嚴格意義上才起步大約兩年。
2020年7月,馬斯克參與創(chuàng)辦、微軟力捧的國際頂級AI研究機構OpenAI公布Image GPT模型,將在自然語言處理上取得突破性成就的Transformer模型引入圖像補全及生成任務。
在此基礎上,OpenAI于2021年1月推出了一個堪稱圖像版GPT-3的“炸圈”之作——能“以文生圖”的全新AI模型DALL·E。只需輸入文字描述,DALL·E就能畫出符合要求的一系列備選圖像。
這個開啟了多模態(tài)學習的重磅研究成果,在AI學術界引起軒然大波。
此前,人們主要用GAN(生成對抗網絡)算法來訓練會創(chuàng)作的AI,但這種算法訓練難度較高,而且很快遇到瓶頸。隨后科學家們轉換思路,將2015年誕生的擴散模型(Diffusion Model)引入到圖像生成,DALL·E的出場,驗證了這個新方法的可行性,并掀起新的研究熱潮。
緊接著工業(yè)界就開始“卷”起來。從谷歌、百度等科技巨頭到一眾創(chuàng)企,紛紛入場為AI創(chuàng)作站臺。
其中最具代表性的4個“以文生圖”里程碑之作,均于今年誕生,分別是Midjourney、DALL·E 2、Imagen和Stable Diffusion。
2022年3月,AI圖像生成平臺Midjourney啟動Beta版本測試;4月,OpenAI乘勝追擊推出二代AI以文生圖工具DALL·E 2,以4倍分辨率生成更逼真、更準確的圖像;5月,谷歌公布用PyTorch實現(xiàn)的以文生圖SOTA模型Imagen……
但直至此時,AI創(chuàng)作仍是一個不算出圈的話題,真正將其推向高潮的關鍵變量,是Stable Diffusion。
今年8月,基于擴散模型的開源模型Stable Diffusion橫空出世。相較不對外開放的谷歌Imagen、限制免費作畫數(shù)量的DALL-E,Stable Diffusion面向公眾免費開放,上手幾乎沒有門檻,用戶使用消費級顯卡就能實現(xiàn)DALL-E 2級別的圖像生成,且據稱生成效率可提高30倍。
從此AI作畫開始在網上爆紅,每天都有海量網友蜂擁而至,甚至連特斯拉前AI和自動駕駛主管Andrej Karpathy都一連沉迷好幾天,在推特上不停曬用Stable Diffusion生成的作品。
▲Andrej Karpathy在8月連發(fā)Stable Diffusion相關推文
目前Stable Diffusion的各渠道累計日活用戶超千萬,已經吸引超過20萬開發(fā)者。
為Stable Diffusion提供算力的是Stability AI,這家創(chuàng)企就憑借這么一個“爆款”開源模型,最新拿到1.01億美元融資,躋身獨角獸企業(yè)之列。
Stability AI創(chuàng)始人兼CEO Emad Mostaque是個在英國長大的印度人,2005年畢業(yè)于牛津,是一位連續(xù)創(chuàng)業(yè)者,2020年創(chuàng)辦Stability AI的目標就是為了在學術和產業(yè)界之外打造第三極,為AI研究掃清障礙,實現(xiàn)AI技術的真正普及化。
結果如其所愿,Stable Diffusion被贊譽為“開源炸彈”,Stable AI也被視作有望撼動OpenAI江湖地位的一匹“黑馬”。
據悉,Stable AI現(xiàn)有103人,計劃擴張到300人,其算力目前用的是在亞馬遜云科技(AWS)上租用的4000臺英偉達旗艦計算卡A100 GPU。Emad在近期接受采訪時透露,Stable AI已經簽訂了很多合作訂單,盈利能力超過大多數(shù)賠錢的大公司,明年還打算資助100個AI方向的博士。
另一家本月拿到1.25億美元新融資的AI內容生成創(chuàng)企Jasper,此前已經推出用AI生成博客文章、社交媒體帖子、網站副本等的多種功能,它的Jasper Art系統(tǒng)同樣可以根據文字生成不同風格的圖像。
▲Jasper Art系統(tǒng)演示
02.輕松上手零門檻,生成作品視效驚艷
在科技巨頭、明星創(chuàng)企們的推動下,AI自動生成內容的上手門檻正變得越來越低。
經典的DALL·E 2已開放測試版,它可以結合文本描述生成風格迥異的圖像,兼顧到陰影、反射和紋理細節(jié),還能在生成圖像中增刪元素。它還有一個大招,是能將圖像擴展到原始畫布之外,創(chuàng)建廣泛的新構圖。
還有更易上手的DALL·E迷你版——Craiyon,由谷歌和Hugging Face的研究員們開發(fā)。用戶可以直接在網絡瀏覽器搜索框中輸入文字描述,讓AI生成各種神奇的畫作。
據其創(chuàng)始人Boris Dayma透露,自2021年7月推出以來,Craiyon每天生成約1000萬張圖像,增加了多達10億張以前不存在的圖像。
今年7月,百度也特別展示了基于其文心大模型1秒“補全”真跡遭焚毀的中國傳世水墨名畫《富春山居圖》。網友只要在百度APP搜索“富春山居圖”,在空白處勾勒幾筆,就能用AI補全自己心中的《富春山居圖》。
再比如今年8月斬獲科羅拉多州博覽會數(shù)字藝術賽道大獎的Midjourney,用法也非常簡單,在對話框輸入文字描述,就能立即獲得由AI生成的4張草圖。4個“U”按鈕可以將對應序號圖片的尺寸變大,增加更多細節(jié);“V”按鈕可以按照對應序號圖片,再生成4張風格近似的衍生草圖。
不過,AI的發(fā)揮并不穩(wěn)定,有時秒出神圖,有時成品也犯一些低級錯誤。
不管怎么說,AI作畫拿大獎、賺大錢的事,確實令不少藝術創(chuàng)作者為此破防,十年寒窗苦讀,結果一朝被AI分分鐘生成的作品打敗。
雖然現(xiàn)階段AI仍然主要靠“模仿”,在“悟性”上沒法媲美人類,參透不了藝術的靈魂,但頂尖AI算法創(chuàng)作的不少文字、圖像乃至視頻,在許多外行眼中,已經很難分辨出與人類作品的差別。
目前,已經有很多日常消費的視覺類商品,比如海報、插圖等,是由AI創(chuàng)作生成的。
還有一些公司另辟蹊徑,從這股熱潮的細分環(huán)節(jié)覓得商機。
正如前文提到的,AI生成作品的質量,一定程度上取決于你的文字描述,這個文字描述過程簡稱為“提示詞”。如果“提示詞”寫的好,AI創(chuàng)作的效果就會更加令人滿意。
比如今年6月成立的PromptBase,就是一家靠兜售AI繪畫工具“提示詞”發(fā)家致富的公司。用戶可以從PromptBase這里花1.99美元買一個“提示詞”,將其復制到DAll·E、Midjourney、Stable Diffusion等平臺,就能生成質量上乘的作品。
科技巨頭、明星創(chuàng)企們,還在繼續(xù)將AI創(chuàng)作的實力“卷”向新的高度。
比如過去一個月,Meta和谷歌接連發(fā)布AI生成視頻的研究進展。
Meta AI在9月29日公布的AI系統(tǒng)Make-A-Video,基于幾百萬個視頻和23億張圖片訓練而成,能根據給定的一段話,生成一個時長幾秒鐘的短視頻。
繼承Imagen,谷歌的Imagen Video模型能生成1280 x 768分辨率、每秒24幀的視頻片段,而且能按需生成不同的藝術風格,比如水彩畫、像素畫、梵高風等。
谷歌的另一款AI生成視頻模型Phenaki,亦可以切換視頻整體風格,而且還能根據200個詞左右的文字描述,生成2分鐘左右的視頻,并在文本描述中補充添加劇情,形成一個完整的故事。
按這樣下去速度發(fā)展下去,即將破防的,估計就不只是繪畫師了。
03.版權爭論不休,偏見問題難解
隨著各種AI生產力工具出爐,AI創(chuàng)作的門檻被不斷拉低,一些投資者對AI生成內容模型的期待值越來越高,甚至將其視作極大擴張AI普及范圍的潛在變革工具。
但其商業(yè)化道路前方,還橫亙著不少難題,最大的爭議點就在于版權與偏見。
按原理來說,AI創(chuàng)作是“從無到有”,通過消化大量數(shù)據,生成現(xiàn)實世界中原本并不存在的東西,理應不存在侵犯版權的問題。
但實際上,因為AI學習的訓練數(shù)據集過于龐大,就連造出這些AI工具的研究人員都沒法保證,AI不會誤拿一些商用需付費的資源,或者不會產生任何侵犯肖像權、商標權等侵權行為。
例如,Stable Diffusion生成的一些圖像似乎帶有水印,說明它的原始訓練數(shù)據集中有一部分圖像應該是受版權保護的。
對此,Getty Images、Shutterstock等知名付費圖庫紛紛封禁AI生成圖片,停止接收所有由Stable Diffusion、DALL·E 2、Midjourney等AI模型生成的畫作。
與種族、性別歧視相關的偏見,更是AI領域長期以來爭論不休的“重災區(qū)”。在國外,很多訓練時沒有考慮到偏見問題的AI工具,在生成人類形象時,會默認生成歐美白種人、男性形象。
這些問題,都令AI創(chuàng)作在通往落地的路上背負著沉重的枷鎖。
長期裹挾在隱私倫理爭議中的谷歌,對AI生成工具一直持謹慎態(tài)度,基本上都是只發(fā)論文公布研究成果,沒怎么將AI模型對外開放。
OpenAI也不斷改進其安全措施,包括通過從訓練數(shù)據中刪除存在偏見、負面傾向的數(shù)據,避免DALL·E 2生成暴力、仇恨、色情、政治類圖像。該創(chuàng)企還采用先進技術以及自動化和人工監(jiān)控系統(tǒng),來防止AI技術被濫用。
Stability AI創(chuàng)始人Emad Mostaque則不覺得關于模型的負面影響源頭是技術的問題,認為技術無好壞,人類的使用方式才分善惡,“當人們心理健康時,好事總是遠超任何負面的事,現(xiàn)實中,人們會慢慢習慣這些模型?!?/p>
但不管怎么說,在我們尚且無法確保能夠引導AI應用走在正道上時,通過法規(guī)進行相關行為、用途的約束還是非常必要的。
此外,開源在催化AI創(chuàng)作應用熱潮的同時,也降低了技術開發(fā)門檻,專注于此的企業(yè)們如何在特定領域尋找及培養(yǎng)付費意愿強的消費習慣、如何形成長期競爭力,仍有待時間給出答案。
04.結語:探索AI,需長期主義的堅持
近年來,隨著AI泡沫破裂論聲勢漸長,圍繞AI落地商用價值的探討逐漸占據主流,資本似乎對短期內看不見盈利前景的故事失去了耐心。
但盡管短期內落地進程觸達瓶頸,AI的長期價值不應被武斷否定。能夠改寫未來的顛覆式技術,總是需要時間的沉淀。迄今我們仍不知道現(xiàn)有的算法是否會是走向通用AI的正確途徑,然而道路雖遠,行則將至,如今AI生成內容產業(yè)的日趨繁榮,也許能將人們對AI的關注重點與信心拉回到技術范式革新所帶來的長遠價值。
至少現(xiàn)在,遠未到對AI失去期待的時刻。