正在閱讀:

改BUG、編故事、繪畫,我還不如AI?

掃一掃下載界面新聞APP

改BUG、編故事、繪畫,我還不如AI?

AI勵志到我了,不僅聰明,還很努力。

文|光錐智能 盧瀅西

編輯|周文斌

寫代碼、修復BUG、編故事......

這些看似只有人類才能完成的任務,都出自同一個聊天機器人之手。

當地時間11月30日,OpenAI發(fā)布了一個全新的對話式大規(guī)模語言模型ChatGPT。作為GPT-3.5系列的主力模型之一,通過對話的形式,ChatGPT可以回答后續(xù)問題、承認錯誤、挑戰(zhàn)不正確的前提并拒絕不適當的請求。

這一模型在開放測試以后,迅速涌入了大批用戶,并在社交媒體上曬出自己與ChatGPT的互動。有人用來給自己的貓寫詩,有人用來給代碼改BUG,還有人問它關于人類的意義......12月5日,OpenAI首席執(zhí)行官Sam Altman發(fā)推表示,OpenAI 訓練的大型語言模型ChatGPT于上周三推出,目前已突破100萬用戶。

甚至于馬斯克也為其稱贊“ChatGPT非常好。我們離強大到危險的AI不遠了?!?/p>

之所以ChatGPT能夠引起如此大的反響,是因為這一次算法模型的升級讓AI的認知智能更上一層臺階,換句話說,現階段的AI能夠對人類意圖的理解更為深刻、準確。

讓AI更懂人、更像人,一直是技術不斷在攻克的難題,而同樣作為生成式AI(AIGC)中一員的AI繪畫,也因為Diffusion擴散模型的加入,闖入了更多公眾的視野。

只需要輸入幾個關鍵詞,就能獲得一幅由AI生成的繪畫。今年以來,AI繪畫可謂是在社交媒體上賺足了眼球,從年初Disco Diffusion的流行,再到8月,由AI繪畫程序Midjourney生成的《太空歌劇院》獲獎,Stable Diffusion擴散模型的使用,讓AI繪畫在圖像細節(jié)的處理上更為出色。

如果將ChatGPT和Stable Diffusion模型兩者進行“強強聯合”,便能夠讓模型更懂創(chuàng)作者的需求。一方面,利用ChatGPT強大的語言理解能力生成文本描述,另一方面,擴散模型能夠最大程度保持圖像的細節(jié),既保留了圖像中的語義結構,又能夠生成高質量的AI繪畫作品,“甲方爸爸”看了都直呼滿意。

無論是ChatGPT還是Diffusion擴散模型,一個作為多輪對話模型,一個作為輔助多模態(tài)生成的模型,都讓AI的能力從“機械執(zhí)行”,進階到“創(chuàng)造性”,這也意味著AIGC迎來了一個新的發(fā)展階段。

“我不如AI”,在多久后會成為現實?

01 生成式AI到底有多牛?

AI給你改BUG、編故事,是一種什么體驗?

“幫我以魯迅的文筆寫一段話,表達一下我現在因為疫情連門都不敢出的慘狀,還有想吃火鍋的心情”,有網友在ChatGPT中輸入一段自己的需求。幾秒鐘后,ChatGPT就給出了一篇質量頗高的小作文。

除了讓它寫小作文以外,它還擁有解決數學、邏輯和編程問題的能力,有網友直呼:媽媽以后再也不用擔心我的作業(yè)不會做了!

與此同時,ChatGPT還能根據用戶提出的調整建議不停地對回答內容進行修改,同時也能對不恰當的假設和要求提出挑戰(zhàn)和拒絕。

一改AI智障的面孔,能讓聊天機器人如此優(yōu)秀,ChatGPT究竟有哪些創(chuàng)新?

2020年,OpenAI推出自然語言模型GPT-3,這是ChatGPT的上上一代產品,其在總結和簡化文本方面表現出強大的能力,甚至還在《衛(wèi)報》上公開發(fā)表過專欄文章,一時間引起了不小的轟動。

兩年過去,就在眾人對GPT-4翹首以盼的時候,OpenAI在今年年初出其不意地先推出了GPT-3.5,并訓練了InstructGPT模型,能夠幫助GPT-3輸出的結果更為準確。

而ChatGPT則是InstructGPT的兄弟模型,同屬于GPT-3.5。雖然ChatGPT目前仍然處于測試階段,并且還沒有真正聯網,但已經展現出了足夠驚艷的性能。

這次ChatGPT的走紅,除了有社交媒體裂變優(yōu)勢的助力以外,很重要的一個原因還是其跟上一代的GPT-3相比,在生成內容的效果上有了兩方面的顯著提升:一是有記憶功能,可以實現連續(xù)對話;二是能夠更好的理解和完成人類的指令。

在對于人類指令的理解和執(zhí)行上,可以發(fā)現,ChatGPT生成的結果在盡可能地貼合人類的意圖和期望,而GPT-3更像是設定好的套路模版。比如說同一個指令“寫一首簡短的關于青蛙的詩歌”,右邊ChatGPT的可讀性明顯要更強。

對比下來,GPT-3的局限性在于不擅長邏輯的推理和決策,而在ChatGPT中,結果的反饋也成為了學習過程的一部分,實現了在認知智能層面上的提升。這一次ChatGPT的推出,大概率也是為了能夠收集更多的用戶數據反饋,以飼養(yǎng)模型,讓AI更懂人類。

事實上,對于人類意圖的理解一直都是AI難以橫跨的一道坎。

就拿同樣火熱的AI繪畫為例,能夠出圈的一大原因是因為生成的作品“翻車”太厲害。把寵物識別成人,把人物識別成建筑...畫風開始偏離,諸如此類的烏龍開始頻繁出現。

對于一些簡單的人物和環(huán)境都無法準確識別、理解,更別提具有復雜意象的詩歌了。在某個AI繪畫產品中,光錐智能輸入“醉后不知天在水,滿船清夢壓星河”后,生成的結果也跟詩歌意境相差甚遠。

不難發(fā)現,在AI繪畫爆火背后,大多數軟件對于如何保證準確的語義理解和圖片生成能力的敏感度并不算高。

現階段AI繪畫的槽點雖然很多,但進步卻是毋庸置疑的。據一位二次元畫師透露,在今年年初的時候,圈子里的人對于AI繪畫的印象還是“生成速度慢”“生成質量差”,但誰也沒想到AI能夠在短短幾個月時間進步神速。特別是今年8月,AI繪畫作品《太空歌劇院》的獲獎,更是讓大家炸開了鍋,“從來沒感覺到自己離失業(yè)那么近。”二次元畫師小元(化名)說道。

02 算法的迭代之路

從“人工智障”到“人工智能”,背后是算法模型的幾次大幅迭代。

從最早基于手寫規(guī)則的簡單學習,到神經網絡的誕生,AI開始像人腦一樣學習,開始嘗試大量數據。

直到2017年,谷歌首次提出了Transform模型,取代了此前的CNN和RNN兩種神經網絡學習方式,這一模型的核心在于注意力機制,讓AI在學習的過程中關注重點而非全部,大大降低了模型訓練所需的時間。Transform模型問世以后,很長一段時間里都是機器翻譯領域的主流模型。

而將Transform模型拆開來看,可以分成編碼器和解碼器兩個部分,編碼器負責把自然語言序列轉化成數學表達,而解碼器則是負責把數學表達再轉化為自然語言序列,即我們日常能夠看得懂的語言。

OpenAI的自然語言模型GPT就是屬于后者。

從2018年推出了GPT-1之后,該自然語言模型系列一共經歷了3次迭代。相較于GPT-1,GPT-2并沒有太多結構上創(chuàng)新,只是數據更多了,參數從原來1.17億增加到了15億。而在GPT-3上,OpenAI再一次加大了對于數據量的投入,訓練參數直接達到了1750億個,上千億的參數和更類人的智能也讓其成為了自然語言模型里程碑式的產物。

到了今天的主角ChatGPT,再一次顛覆了“AI究竟能夠多像人類”的認知。

上文提到,ChatGPT現在更能理解人類的指令和意圖,根本原因在于ChatGPT和InstructGPT都加入了“從人類反饋中強化學習”的訓練方式。

相比于原來訓練標注師單純輸入固定的結果模版,這種訓練方式加入了人類有可能對于結果的反饋,并將不同的結果進行排序,通過獎勵模型讓AI不斷地在人類的反饋中迭代、調整,這樣一來,提前讓ChatGPT與有可能的反饋產生交互,使得最后生成更符合人類指令或者意圖的答案。

值得一提的是,雖然是兄弟模型,但InstructGPT無法判斷人類下達的指令是否是不正當的,仍然存在一些“毒性”,而優(yōu)化過后的ChatGPT則能夠意識到這一點,敢于質疑不正確的前提。

在算法模型的不斷迭代下,加上數據量不斷提升,“AI越來越聰明,也越來越努力?!?/p>

同樣,AI繪畫能夠在今年爆火,也是因為底層技術實現了重大突破。

從識別用戶輸入的文字語義,再到生成一幅AI繪畫作品,這其中的難點之一在于AI需要實現從文字到圖像的跨模態(tài)生成。

讓我們先把時間撥回2014年。彼時,GAN對抗生成網絡的提出標志著AI圖像生成邁出了關鍵一步,但遺憾的是,GAN生成的結果可控性差、圖像分辨率較低、不能實現文字和圖像之間的跨模態(tài)生成。

因此,CLIP模型出現了。2021年,OpenAI提出了基于NLP(自然語言理解)和CV(計算機視覺)的多模態(tài)預訓練算法CLIP,可以將CLIP模型簡單地理解為不同模態(tài)之間架起的一座橋梁。

不過,真正引爆AI繪畫的,還是Diffusion擴散模型的應用。

擴散模型就是一種生成圖像的方法,在正擴散過程中,給圖像添加噪聲,讓圖像變成了一堆隨機的噪聲,然后通過逆擴散給圖像去噪,學習圖像是如何生成的,相當于讓AI換了一種學習畫畫的方式。

伴隨著今年Stability AI對擴散模型的改進之后,模型的計算降低了對算力的要求和對內存的消耗,從前動輒半天、一天的生成速度已經快進到秒級別,這也是為什么在Stable Diffusion開源以后,AI繪畫能夠迅速在C端走紅的原因。

目前的AIGC已經能夠實現文字、圖像、音頻以及視頻等多領域、跨模態(tài)的內容生成。

招商證券認為,得益于深度學習模型的不斷完善、開源模式的推動以及數字內容供給需求的不斷增長,AIGC將會呈現指數級的發(fā)展增速。在技術加持下,一場AIGC的變革正在醞釀。

03 尋找技術和商業(yè)化的交點

生成式AI的進步不斷地給人以驚喜,在應用層,應該如何尋找技術和商業(yè)化的交點?

近日,ChatGPT的火爆之余,馬斯克在推特上也對ChatGPT提出了關鍵性的問題:每次對話的平均費用是多少?

而OpenAI首席執(zhí)行官Sam Altman給出的回復是“每次對話的平均費用可能只有幾美分”,正試圖找出更精確的測量方法并壓縮費用。

類似于ChatGPT這樣的對話式AI產品,最早出現在2016年。隨著技術的發(fā)展,近些年來也被廣泛運用在AI客服、虛擬數字人和電話營銷等領域。不過,從效果上看,這些產品仍然不夠智能,此前中國聯通的AI客服冒充人工,還被用戶識破發(fā)到網上調侃了一番。

此次ChatGPT的出現,不僅僅帶來了技術的關鍵性變革,也讓對話式AI產品的商業(yè)化前景變得更加清晰。

而相較于ChatGPT,AI繪畫的商業(yè)化則走在更前面。

量子位智庫發(fā)布的報告認為,多模態(tài)能力的提升將成為AI真正實現認知智能和決策智能的關鍵轉折點,在未來1-2年,“文字-圖像”的生成將快速落地。

從海外市場的情況來看,不僅有谷歌、Meta、微軟等科技巨頭跑步入場,隨著Stable Diffusion的開源,一大批初創(chuàng)企業(yè)也如雨后春筍般涌現。

再看國內的情況,百度較早地嗅到了AI繪畫的機會,在今年8月就發(fā)布了基于其飛槳、文心大模型的AI繪畫軟件文心一格,而初創(chuàng)企業(yè)里,也有盜夢師、TIAMAT、達利AI、6pen等公司開始冒尖。

現階段AI繪畫仍然處于大量投入的早期階段,商業(yè)模式仍然在探索中。

就拿這次在C端爆火的眾多AI繪畫軟件來看,光錐智能了解到,意間AI繪畫是積分制,初始積分是20,當積分消耗完畢后可以通過觀看廣告視頻來繼續(xù)獲取積分;盜夢師、6pen以及百度的文心一格都是免費生成一定數量的作品之后,按量進行收費。

總的來看,目前國內的AI繪畫軟件變現模式單一,且C端的用戶大多數只是出于好奇心的嘗試,愿意付費的仍是少數。根據6pen的調研,60%的用戶從未在AI繪畫產品上有過付費行為,剩下40%的用戶中,付費超過100元占比僅10%。

C端的付費意愿并不高,因此,諸如工業(yè)設計、游戲制作等B端場景或許會成為AI繪畫未來的一個重要落地方向。

值得注意的是,AI繪畫如果真的在不久的將來實現大規(guī)模商業(yè)化落地,那么內容生產方式的變革也會進一步加速。

光錐智能向盜夢師的To B產品負責人李慶功了解到,過去專業(yè)設計師大多使用的都是PS這類的工具,但目前盜夢師已經在嘗試研發(fā)面向專業(yè)生產場景的AI生成工具,這種全新的創(chuàng)作交互方式不僅能夠讓AI來執(zhí)行設計流程,甚至于連設計師的靈感都可以由AI來提供。

這就意味著,跟原先被AI替代的單一、重復工種一樣,AI繪畫的出現也會替代掉一部分的工作。誰會成為下一個被替代的?

04 結語

當我們在談論AI時,我們究竟是在談論什么?

從AI誕生之日起,它的任務就是要進一步解放生產力。順著AI發(fā)展的脈絡來看,通過不斷模擬人腦的思考過程,AI逐漸具有了對數據和語言的理解、推理、解釋、歸納、演繹的能力,越來越像一個人類。

當然,目前的AI對于人腦的探索遠遠未觸及核心情感層,但我們不得不承認,AI正在醞釀著一場生產力的變革,而這必然會引起新一輪人類價值的轉移。

回顧人類歷史,每一次生產力變革的背后,技術都在不斷地將人類從單一、繁重、重復的勞動中解放出來。從體力勞動開始,到腦力勞動,在這一過程當中,人類的勞動形式逐漸發(fā)生改變,并依次疊加。而伴隨著AI往更高階的智能進發(fā)的同時,另外一種勞動形式也順勢出現。

借用知乎上一位答主的話,那就是想象力勞動。

區(qū)別于腦力勞動,想象力勞動的核心在于靈感和創(chuàng)意的提供。

上文提到,ChatGPT能夠根據人類簡短的指令生成代碼、編寫故事,AI繪畫也能夠識別關鍵詞的語義進行創(chuàng)作,本質上AI正在承擔并且有能力承擔一部分的人類勞動。因此,人類已經無需去思考其中的過程,只需要給AI提出問題、把自己的靈感告訴AI即可。

也正因為AI天然具有根據指令執(zhí)行的機械思維,所以AI無法真正理解人的情感和多樣性,即使AI可以替代程序員寫代碼、替代作家寫故事,但是它所有的靈感來源依舊要從人類那里獲得。

根據傳播學者梅尼賽的研究,技術進步之后,引發(fā)社會變革的途徑之一就是創(chuàng)造新機會和產生新問題,前者引發(fā)產業(yè)結構和社會結構的變化,而后者推動新制度的轉型。

AI作為新一代科技革命技術,它的進步也在不斷反推人類去思考,我們的新問題、新機會在哪兒。

本文為轉載內容,授權事宜請聯系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

改BUG、編故事、繪畫,我還不如AI?

AI勵志到我了,不僅聰明,還很努力。

文|光錐智能 盧瀅西

編輯|周文斌

寫代碼、修復BUG、編故事......

這些看似只有人類才能完成的任務,都出自同一個聊天機器人之手。

當地時間11月30日,OpenAI發(fā)布了一個全新的對話式大規(guī)模語言模型ChatGPT。作為GPT-3.5系列的主力模型之一,通過對話的形式,ChatGPT可以回答后續(xù)問題、承認錯誤、挑戰(zhàn)不正確的前提并拒絕不適當的請求。

這一模型在開放測試以后,迅速涌入了大批用戶,并在社交媒體上曬出自己與ChatGPT的互動。有人用來給自己的貓寫詩,有人用來給代碼改BUG,還有人問它關于人類的意義......12月5日,OpenAI首席執(zhí)行官Sam Altman發(fā)推表示,OpenAI 訓練的大型語言模型ChatGPT于上周三推出,目前已突破100萬用戶。

甚至于馬斯克也為其稱贊“ChatGPT非常好。我們離強大到危險的AI不遠了。”

之所以ChatGPT能夠引起如此大的反響,是因為這一次算法模型的升級讓AI的認知智能更上一層臺階,換句話說,現階段的AI能夠對人類意圖的理解更為深刻、準確。

讓AI更懂人、更像人,一直是技術不斷在攻克的難題,而同樣作為生成式AI(AIGC)中一員的AI繪畫,也因為Diffusion擴散模型的加入,闖入了更多公眾的視野。

只需要輸入幾個關鍵詞,就能獲得一幅由AI生成的繪畫。今年以來,AI繪畫可謂是在社交媒體上賺足了眼球,從年初Disco Diffusion的流行,再到8月,由AI繪畫程序Midjourney生成的《太空歌劇院》獲獎,Stable Diffusion擴散模型的使用,讓AI繪畫在圖像細節(jié)的處理上更為出色。

如果將ChatGPT和Stable Diffusion模型兩者進行“強強聯合”,便能夠讓模型更懂創(chuàng)作者的需求。一方面,利用ChatGPT強大的語言理解能力生成文本描述,另一方面,擴散模型能夠最大程度保持圖像的細節(jié),既保留了圖像中的語義結構,又能夠生成高質量的AI繪畫作品,“甲方爸爸”看了都直呼滿意。

無論是ChatGPT還是Diffusion擴散模型,一個作為多輪對話模型,一個作為輔助多模態(tài)生成的模型,都讓AI的能力從“機械執(zhí)行”,進階到“創(chuàng)造性”,這也意味著AIGC迎來了一個新的發(fā)展階段。

“我不如AI”,在多久后會成為現實?

01 生成式AI到底有多牛?

AI給你改BUG、編故事,是一種什么體驗?

“幫我以魯迅的文筆寫一段話,表達一下我現在因為疫情連門都不敢出的慘狀,還有想吃火鍋的心情”,有網友在ChatGPT中輸入一段自己的需求。幾秒鐘后,ChatGPT就給出了一篇質量頗高的小作文。

除了讓它寫小作文以外,它還擁有解決數學、邏輯和編程問題的能力,有網友直呼:媽媽以后再也不用擔心我的作業(yè)不會做了!

與此同時,ChatGPT還能根據用戶提出的調整建議不停地對回答內容進行修改,同時也能對不恰當的假設和要求提出挑戰(zhàn)和拒絕。

一改AI智障的面孔,能讓聊天機器人如此優(yōu)秀,ChatGPT究竟有哪些創(chuàng)新?

2020年,OpenAI推出自然語言模型GPT-3,這是ChatGPT的上上一代產品,其在總結和簡化文本方面表現出強大的能力,甚至還在《衛(wèi)報》上公開發(fā)表過專欄文章,一時間引起了不小的轟動。

兩年過去,就在眾人對GPT-4翹首以盼的時候,OpenAI在今年年初出其不意地先推出了GPT-3.5,并訓練了InstructGPT模型,能夠幫助GPT-3輸出的結果更為準確。

而ChatGPT則是InstructGPT的兄弟模型,同屬于GPT-3.5。雖然ChatGPT目前仍然處于測試階段,并且還沒有真正聯網,但已經展現出了足夠驚艷的性能。

這次ChatGPT的走紅,除了有社交媒體裂變優(yōu)勢的助力以外,很重要的一個原因還是其跟上一代的GPT-3相比,在生成內容的效果上有了兩方面的顯著提升:一是有記憶功能,可以實現連續(xù)對話;二是能夠更好的理解和完成人類的指令。

在對于人類指令的理解和執(zhí)行上,可以發(fā)現,ChatGPT生成的結果在盡可能地貼合人類的意圖和期望,而GPT-3更像是設定好的套路模版。比如說同一個指令“寫一首簡短的關于青蛙的詩歌”,右邊ChatGPT的可讀性明顯要更強。

對比下來,GPT-3的局限性在于不擅長邏輯的推理和決策,而在ChatGPT中,結果的反饋也成為了學習過程的一部分,實現了在認知智能層面上的提升。這一次ChatGPT的推出,大概率也是為了能夠收集更多的用戶數據反饋,以飼養(yǎng)模型,讓AI更懂人類。

事實上,對于人類意圖的理解一直都是AI難以橫跨的一道坎。

就拿同樣火熱的AI繪畫為例,能夠出圈的一大原因是因為生成的作品“翻車”太厲害。把寵物識別成人,把人物識別成建筑...畫風開始偏離,諸如此類的烏龍開始頻繁出現。

對于一些簡單的人物和環(huán)境都無法準確識別、理解,更別提具有復雜意象的詩歌了。在某個AI繪畫產品中,光錐智能輸入“醉后不知天在水,滿船清夢壓星河”后,生成的結果也跟詩歌意境相差甚遠。

不難發(fā)現,在AI繪畫爆火背后,大多數軟件對于如何保證準確的語義理解和圖片生成能力的敏感度并不算高。

現階段AI繪畫的槽點雖然很多,但進步卻是毋庸置疑的。據一位二次元畫師透露,在今年年初的時候,圈子里的人對于AI繪畫的印象還是“生成速度慢”“生成質量差”,但誰也沒想到AI能夠在短短幾個月時間進步神速。特別是今年8月,AI繪畫作品《太空歌劇院》的獲獎,更是讓大家炸開了鍋,“從來沒感覺到自己離失業(yè)那么近?!倍卧嫀熜≡ɑ┱f道。

02 算法的迭代之路

從“人工智障”到“人工智能”,背后是算法模型的幾次大幅迭代。

從最早基于手寫規(guī)則的簡單學習,到神經網絡的誕生,AI開始像人腦一樣學習,開始嘗試大量數據。

直到2017年,谷歌首次提出了Transform模型,取代了此前的CNN和RNN兩種神經網絡學習方式,這一模型的核心在于注意力機制,讓AI在學習的過程中關注重點而非全部,大大降低了模型訓練所需的時間。Transform模型問世以后,很長一段時間里都是機器翻譯領域的主流模型。

而將Transform模型拆開來看,可以分成編碼器和解碼器兩個部分,編碼器負責把自然語言序列轉化成數學表達,而解碼器則是負責把數學表達再轉化為自然語言序列,即我們日常能夠看得懂的語言。

OpenAI的自然語言模型GPT就是屬于后者。

從2018年推出了GPT-1之后,該自然語言模型系列一共經歷了3次迭代。相較于GPT-1,GPT-2并沒有太多結構上創(chuàng)新,只是數據更多了,參數從原來1.17億增加到了15億。而在GPT-3上,OpenAI再一次加大了對于數據量的投入,訓練參數直接達到了1750億個,上千億的參數和更類人的智能也讓其成為了自然語言模型里程碑式的產物。

到了今天的主角ChatGPT,再一次顛覆了“AI究竟能夠多像人類”的認知。

上文提到,ChatGPT現在更能理解人類的指令和意圖,根本原因在于ChatGPT和InstructGPT都加入了“從人類反饋中強化學習”的訓練方式。

相比于原來訓練標注師單純輸入固定的結果模版,這種訓練方式加入了人類有可能對于結果的反饋,并將不同的結果進行排序,通過獎勵模型讓AI不斷地在人類的反饋中迭代、調整,這樣一來,提前讓ChatGPT與有可能的反饋產生交互,使得最后生成更符合人類指令或者意圖的答案。

值得一提的是,雖然是兄弟模型,但InstructGPT無法判斷人類下達的指令是否是不正當的,仍然存在一些“毒性”,而優(yōu)化過后的ChatGPT則能夠意識到這一點,敢于質疑不正確的前提。

在算法模型的不斷迭代下,加上數據量不斷提升,“AI越來越聰明,也越來越努力?!?/p>

同樣,AI繪畫能夠在今年爆火,也是因為底層技術實現了重大突破。

從識別用戶輸入的文字語義,再到生成一幅AI繪畫作品,這其中的難點之一在于AI需要實現從文字到圖像的跨模態(tài)生成。

讓我們先把時間撥回2014年。彼時,GAN對抗生成網絡的提出標志著AI圖像生成邁出了關鍵一步,但遺憾的是,GAN生成的結果可控性差、圖像分辨率較低、不能實現文字和圖像之間的跨模態(tài)生成。

因此,CLIP模型出現了。2021年,OpenAI提出了基于NLP(自然語言理解)和CV(計算機視覺)的多模態(tài)預訓練算法CLIP,可以將CLIP模型簡單地理解為不同模態(tài)之間架起的一座橋梁。

不過,真正引爆AI繪畫的,還是Diffusion擴散模型的應用。

擴散模型就是一種生成圖像的方法,在正擴散過程中,給圖像添加噪聲,讓圖像變成了一堆隨機的噪聲,然后通過逆擴散給圖像去噪,學習圖像是如何生成的,相當于讓AI換了一種學習畫畫的方式。

伴隨著今年Stability AI對擴散模型的改進之后,模型的計算降低了對算力的要求和對內存的消耗,從前動輒半天、一天的生成速度已經快進到秒級別,這也是為什么在Stable Diffusion開源以后,AI繪畫能夠迅速在C端走紅的原因。

目前的AIGC已經能夠實現文字、圖像、音頻以及視頻等多領域、跨模態(tài)的內容生成。

招商證券認為,得益于深度學習模型的不斷完善、開源模式的推動以及數字內容供給需求的不斷增長,AIGC將會呈現指數級的發(fā)展增速。在技術加持下,一場AIGC的變革正在醞釀。

03 尋找技術和商業(yè)化的交點

生成式AI的進步不斷地給人以驚喜,在應用層,應該如何尋找技術和商業(yè)化的交點?

近日,ChatGPT的火爆之余,馬斯克在推特上也對ChatGPT提出了關鍵性的問題:每次對話的平均費用是多少?

而OpenAI首席執(zhí)行官Sam Altman給出的回復是“每次對話的平均費用可能只有幾美分”,正試圖找出更精確的測量方法并壓縮費用。

類似于ChatGPT這樣的對話式AI產品,最早出現在2016年。隨著技術的發(fā)展,近些年來也被廣泛運用在AI客服、虛擬數字人和電話營銷等領域。不過,從效果上看,這些產品仍然不夠智能,此前中國聯通的AI客服冒充人工,還被用戶識破發(fā)到網上調侃了一番。

此次ChatGPT的出現,不僅僅帶來了技術的關鍵性變革,也讓對話式AI產品的商業(yè)化前景變得更加清晰。

而相較于ChatGPT,AI繪畫的商業(yè)化則走在更前面。

量子位智庫發(fā)布的報告認為,多模態(tài)能力的提升將成為AI真正實現認知智能和決策智能的關鍵轉折點,在未來1-2年,“文字-圖像”的生成將快速落地。

從海外市場的情況來看,不僅有谷歌、Meta、微軟等科技巨頭跑步入場,隨著Stable Diffusion的開源,一大批初創(chuàng)企業(yè)也如雨后春筍般涌現。

再看國內的情況,百度較早地嗅到了AI繪畫的機會,在今年8月就發(fā)布了基于其飛槳、文心大模型的AI繪畫軟件文心一格,而初創(chuàng)企業(yè)里,也有盜夢師、TIAMAT、達利AI、6pen等公司開始冒尖。

現階段AI繪畫仍然處于大量投入的早期階段,商業(yè)模式仍然在探索中。

就拿這次在C端爆火的眾多AI繪畫軟件來看,光錐智能了解到,意間AI繪畫是積分制,初始積分是20,當積分消耗完畢后可以通過觀看廣告視頻來繼續(xù)獲取積分;盜夢師、6pen以及百度的文心一格都是免費生成一定數量的作品之后,按量進行收費。

總的來看,目前國內的AI繪畫軟件變現模式單一,且C端的用戶大多數只是出于好奇心的嘗試,愿意付費的仍是少數。根據6pen的調研,60%的用戶從未在AI繪畫產品上有過付費行為,剩下40%的用戶中,付費超過100元占比僅10%。

C端的付費意愿并不高,因此,諸如工業(yè)設計、游戲制作等B端場景或許會成為AI繪畫未來的一個重要落地方向。

值得注意的是,AI繪畫如果真的在不久的將來實現大規(guī)模商業(yè)化落地,那么內容生產方式的變革也會進一步加速。

光錐智能向盜夢師的To B產品負責人李慶功了解到,過去專業(yè)設計師大多使用的都是PS這類的工具,但目前盜夢師已經在嘗試研發(fā)面向專業(yè)生產場景的AI生成工具,這種全新的創(chuàng)作交互方式不僅能夠讓AI來執(zhí)行設計流程,甚至于連設計師的靈感都可以由AI來提供。

這就意味著,跟原先被AI替代的單一、重復工種一樣,AI繪畫的出現也會替代掉一部分的工作。誰會成為下一個被替代的?

04 結語

當我們在談論AI時,我們究竟是在談論什么?

從AI誕生之日起,它的任務就是要進一步解放生產力。順著AI發(fā)展的脈絡來看,通過不斷模擬人腦的思考過程,AI逐漸具有了對數據和語言的理解、推理、解釋、歸納、演繹的能力,越來越像一個人類。

當然,目前的AI對于人腦的探索遠遠未觸及核心情感層,但我們不得不承認,AI正在醞釀著一場生產力的變革,而這必然會引起新一輪人類價值的轉移。

回顧人類歷史,每一次生產力變革的背后,技術都在不斷地將人類從單一、繁重、重復的勞動中解放出來。從體力勞動開始,到腦力勞動,在這一過程當中,人類的勞動形式逐漸發(fā)生改變,并依次疊加。而伴隨著AI往更高階的智能進發(fā)的同時,另外一種勞動形式也順勢出現。

借用知乎上一位答主的話,那就是想象力勞動。

區(qū)別于腦力勞動,想象力勞動的核心在于靈感和創(chuàng)意的提供。

上文提到,ChatGPT能夠根據人類簡短的指令生成代碼、編寫故事,AI繪畫也能夠識別關鍵詞的語義進行創(chuàng)作,本質上AI正在承擔并且有能力承擔一部分的人類勞動。因此,人類已經無需去思考其中的過程,只需要給AI提出問題、把自己的靈感告訴AI即可。

也正因為AI天然具有根據指令執(zhí)行的機械思維,所以AI無法真正理解人的情感和多樣性,即使AI可以替代程序員寫代碼、替代作家寫故事,但是它所有的靈感來源依舊要從人類那里獲得。

根據傳播學者梅尼賽的研究,技術進步之后,引發(fā)社會變革的途徑之一就是創(chuàng)造新機會和產生新問題,前者引發(fā)產業(yè)結構和社會結構的變化,而后者推動新制度的轉型。

AI作為新一代科技革命技術,它的進步也在不斷反推人類去思考,我們的新問題、新機會在哪兒。

本文為轉載內容,授權事宜請聯系原著作權人。