正在閱讀:

AI繪畫(huà),為何聽(tīng)不懂人話?

掃一掃下載界面新聞APP

AI繪畫(huà),為何聽(tīng)不懂人話?

再不學(xué)AI繪畫(huà)你就OUT了。

文|深燃  唐亞華

編輯|黎明

2023年的AI繪畫(huà)領(lǐng)域是由兩家公司的動(dòng)態(tài)引爆的。

3月17日百度發(fā)布文心一言,網(wǎng)友們瘋狂發(fā)散想象力,令人捧腹的圖片接連被生成。關(guān)于文心一言文字生成圖片的討論熱情空前高漲。

緊接著,3月18日,美國(guó)Midjourney公司宣布第五版AI圖像生成服務(wù),即MidjourneyV5。本來(lái)就處在行業(yè)領(lǐng)先水平的Midjourney,這一次版本更新真正讓AI繪畫(huà)圈沸騰了。因?yàn)镸idjourneyV5生成的圖片堪稱驚艷。

兩個(gè)系統(tǒng)幾乎同時(shí)發(fā)布,免不了被對(duì)比。深燃體驗(yàn)后發(fā)現(xiàn),文心一言的圖片生成功能,能夠識(shí)別簡(jiǎn)單元素、文本沒(méi)有歧義的人或事物,但涉及到成語(yǔ)、專有名詞,以及字面意思和實(shí)際意義不同的表述,它就會(huì)跑偏。Midjourney在這方面幾乎沒(méi)什么問(wèn)題。另外,Midjourney接收到的提示詞(prompt)越詳細(xì)精準(zhǔn),生成的圖片越符合要求,但文心一言需求越多,系統(tǒng)越容易出錯(cuò)。

調(diào)侃背后,AI生成圖片其實(shí)不是一件簡(jiǎn)單的事情,需要在數(shù)據(jù)、算法、算力等方面綜合發(fā)力,既對(duì)技術(shù)和硬件有高要求,還對(duì)數(shù)據(jù)采集和標(biāo)注等苦活累活高度依賴。文心一言的AI繪圖功能與Midjourney在以上三方面都有不小的差距。

百度方面公開(kāi)表示,“大家也會(huì)從接下來(lái)文生圖能力的快速調(diào)優(yōu)迭代,看到百度的自研實(shí)力。文心一言正在大家的使用過(guò)程中不斷學(xué)習(xí)和成長(zhǎng),請(qǐng)大家給自研技術(shù)和產(chǎn)品一點(diǎn)信心和時(shí)間?!睆臉I(yè)者預(yù)估,文心一言全力追趕,用一年左右的時(shí)間有希望達(dá)到國(guó)外80%以上的水平。

AI繪圖這個(gè)戰(zhàn)場(chǎng),槍聲已經(jīng)打響,追逐賽、排位賽都將一輪輪上演。

搞不定成語(yǔ)和專有名詞,提示詞越多AI越廢

文心一言最近接受的最大考驗(yàn),莫過(guò)于畫(huà)一幅中餐菜名圖。在網(wǎng)友們的熱情創(chuàng)作下,驢肉火燒、紅燒獅子頭等菜品出來(lái)的畫(huà)做一個(gè)比一個(gè)離譜,車水馬龍的街道、虎頭虎腦的大胖小子,同樣驚掉了大家的下巴。

網(wǎng)友體驗(yàn)文心一言時(shí)截圖,目前已更新

網(wǎng)民熱心找bug,百度程序員應(yīng)該也在背后發(fā)力,深燃測(cè)試發(fā)現(xiàn),以上內(nèi)容均已更新為可以正確顯示對(duì)應(yīng)圖片。不過(guò),像娃娃菜、臉盆、虎皮雞蛋、三杯雞,還有胸有成竹的男人、虎背熊腰的男人,文心一言仍然給出的是字面直譯后的圖片,畫(huà)風(fēng)一言難盡。

深燃截圖

即便輸入提示詞時(shí)強(qiáng)調(diào)“畫(huà)一個(gè)衛(wèi)浴器材水龍頭”,文心一言畫(huà)出的仍然是水中龍的頭像;當(dāng)深燃輸入“畫(huà)一個(gè)風(fēng)姿綽約的人”時(shí),系統(tǒng)畫(huà)出的是一位男士,顯然AI沒(méi)能理解風(fēng)姿綽約形容的是女人。

深燃截圖

程序員改bug的速度比不上網(wǎng)友找漏洞的速度。很快又有人發(fā)現(xiàn),文心一言畫(huà)圖時(shí)有把提示詞中譯英之后根據(jù)英文意思生成圖片的可能性,據(jù)此有人推測(cè)百度可能用國(guó)外的作圖產(chǎn)品接口,套了一個(gè)自己的殼。

深燃也驗(yàn)證了一下某用戶的測(cè)試。比如輸入“水瓜”,畫(huà)出的是西瓜,這也對(duì)應(yīng)西瓜的英文單詞Watermelon;要求畫(huà)樹(shù)葉、封面、蘋果,畫(huà)出的圖是樹(shù)葉覆蓋蘋果,顯然系統(tǒng)是把封面翻譯成了Cover,這個(gè)單詞也有覆蓋的意思;畫(huà)“土耳其張開(kāi)翅膀”,出現(xiàn)的畫(huà)面是張開(kāi)翅膀的火雞,我們都知道,Turkey是土耳其,也是火雞。

深燃截圖

對(duì)此,百度對(duì)外回應(yīng)稱,文心一言完全是百度自研的大語(yǔ)言模型,文生圖能力來(lái)自文心跨模態(tài)大模型ERNIE-ViLG?!霸诖竽P陀?xùn)練中,我們使用的是全球互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù),符合行業(yè)慣例?!?/p>

亞洲視覺(jué)科技研發(fā)總監(jiān)陳經(jīng)也在接受媒體采訪時(shí)表示,“百度的畫(huà)圖AI采用了英文標(biāo)注的開(kāi)源圖片素材進(jìn)行訓(xùn)練,因此需要中翻英來(lái)當(dāng)prompt(提示詞)。目前,全球AI研發(fā)有開(kāi)源的傳統(tǒng),特別是訓(xùn)練數(shù)據(jù)庫(kù),不然收集圖片效率太低了?!?/p>

深燃體驗(yàn)后還發(fā)現(xiàn),文心一言在單個(gè)需求描述時(shí)表現(xiàn)尚可,比如畫(huà)一幅憤怒的小孩、開(kāi)心的農(nóng)民、一只很餓的流量貓,但一幅圖一旦提出多個(gè)作圖需求,AI就有點(diǎn)懵。

比如請(qǐng)文心一言“生成一幅畫(huà),在一個(gè)下雨天,小紅在植樹(shù),小王在看書(shū)”,系統(tǒng)生成的圖片里只有背靠樹(shù)看書(shū)的一個(gè)人;還有,“畫(huà)一幅畫(huà),里面有大笑的年輕人、哭泣的小孩、愁容滿面的老人”,系統(tǒng)把哭泣和愁容滿面等表情集合在了一張臉上,畫(huà)出了一個(gè)小孩和老人的結(jié)合體。如下圖所示,還有一些類似的情況,系統(tǒng)同樣沒(méi)能準(zhǔn)確完成給出的指令。

深燃截圖

深燃又把上述提示詞輸入到MidjourneyV4測(cè)試了一下,如下圖所示,即使是V4版本,表現(xiàn)也遠(yuǎn)高出文心一言。MidjourneyV4基本能理解句子中的意思,做出的圖幾乎可以包含所有的要素。

深燃體驗(yàn)MidjourneyV4后截圖

深燃還測(cè)試了AI繪畫(huà)領(lǐng)域一直以來(lái)難以攻克的畫(huà)手指難的問(wèn)題。在這方面,文心一言也沒(méi)能經(jīng)受住考驗(yàn)。比如“畫(huà)一位30歲的女士,雙手豎起大拇指”,文心一言生成的圖片大拇指是豎起來(lái)了,但是其中一只手有7根手指;輸入“畫(huà)一個(gè)人,兩只手做點(diǎn)贊姿勢(shì)”時(shí),系統(tǒng)也無(wú)法實(shí)現(xiàn)這一手部姿勢(shì)。

深燃截圖

Midjourney此前的版本同樣存在手指誤差的問(wèn)題,最新發(fā)布的V5版本,已經(jīng)能夠正確畫(huà)出五根手指,雖然有人依舊指出其繪出的大拇指有點(diǎn)長(zhǎng),但相比以往已經(jīng)有不小的進(jìn)步。有從業(yè)者評(píng)價(jià):“Midjourney的此前版本就像是近視患者沒(méi)有戴上眼鏡,而MidjourneyV5就是戴上眼鏡后的清晰效果,4K細(xì)節(jié)拉滿”。

比如MidjourneyV5畫(huà)出的《三體》角色圖,效果被網(wǎng)友評(píng)價(jià)為幾乎要“成精了”。而文心一言畫(huà)《三體》角色時(shí),系統(tǒng)全然不顧描述里提到的留著黑色短發(fā)、戴著眼鏡的要求,畫(huà)出了一個(gè)扎著發(fā)髻,不戴眼鏡,古風(fēng)穿著的男士。

上圖為MidjourneyV5生成的三體角色圖 圖片來(lái)源 / Ai總編推書(shū)

下圖為文心一言作圖 / 深燃截圖

最近MidjourneyV5畫(huà)的一對(duì)情侶的圖片掀起了業(yè)內(nèi)一陣驚呼。作圖的提示詞是:“一對(duì)年輕的情侶穿著牛仔褲和夾克坐在樓頂上”,背景分別是2000年和2023年的北京。最后出圖的效果大大超出很多人的想象。深燃把類似表述輸入文心一言時(shí),系統(tǒng)直接給出了毫不相關(guān)的圖片。

左圖為MidjourneyV5作圖 圖片來(lái)源 / 量子位

右為深燃對(duì)比體驗(yàn)文心一言截圖

對(duì)比來(lái)看,Midjourney作圖已經(jīng)在細(xì)節(jié)上幾近完美了,文心一言還處在難以準(zhǔn)確分辨字面意思和實(shí)際意思的初級(jí)階段。Midjourney提示詞描述越詳細(xì),生成的圖片越精準(zhǔn),文心一言能理解的文字長(zhǎng)度有限,過(guò)多描述會(huì)讓它直接報(bào)錯(cuò)或者胡亂生成圖片。

AI文生圖到底有多難?

按出現(xiàn)時(shí)間來(lái)算,AI繪畫(huà)算是AI領(lǐng)域的新事物。

公開(kāi)報(bào)道顯示,2021年1月,OpenAI發(fā)布了兩個(gè)連接文本與圖像的神經(jīng)網(wǎng)絡(luò):DALL E和 CLIP。DALL E可以基于文本直接生成圖像,CLIP能夠完成圖像與文本類別的匹配。DALL E是基于GPT-3的120億參數(shù)版本實(shí)現(xiàn)的。

隨后在2022年,DALL·E 2、Stable Diffusion等文生圖底層大模型發(fā)布,帶動(dòng)了應(yīng)用層的發(fā)展,出現(xiàn)了一大批爆款產(chǎn)品,包括Midjourney。2022年也被認(rèn)為是“AI繪畫(huà)元年”。

StabilityAI的Stable Diffusion是一個(gè)開(kāi)源模型,很多開(kāi)發(fā)者基于這個(gè)模型開(kāi)發(fā)訓(xùn)練出了更多不同的生成模型。國(guó)內(nèi)很多科技公司的AI繪畫(huà)項(xiàng)目也是由Stable Diffusion提供技術(shù)支撐。Midjourney是付費(fèi)訂閱的,公開(kāi)信息顯示,Midjourney每年的收入可能達(dá)到1億美元左右。另外,有AI繪圖業(yè)務(wù)的還有Google、Meta等公司。百度的文心一言和此前就發(fā)布的文心一格算是國(guó)內(nèi)最早的具備AI繪畫(huà)功能的大模型。

文心一言的發(fā)布和升級(jí)了的MidjourneyV5更是將AI繪畫(huà)行業(yè)推向高潮。這一次迭代是Midjourney自去年推出以來(lái)最大的更新,Midjourney也成了目前市面上最先進(jìn)的AI圖像生成器之一。

熱度還在繼續(xù)。最近,行業(yè)內(nèi)又有一系列企業(yè)跟進(jìn)推出AI繪畫(huà)功能。3月21日,微軟宣布,必應(yīng)搜索引擎接入了OpenAI的DALL·E模型,將AI圖像生成功能引入新版必應(yīng)和Edge瀏覽器,免費(fèi)開(kāi)放。就在同一天,Adobe發(fā)布AI模型Firefly,支持用文字生成圖像、藝術(shù)字體。

可以說(shuō),2023年,AI繪畫(huà)行業(yè)迎來(lái)了真正的大爆發(fā)。

調(diào)侃文心一言之余,客觀來(lái)說(shuō),AI生成圖片本身就不是一件容易實(shí)現(xiàn)的事情。系統(tǒng)的語(yǔ)義理解能力、充分的數(shù)據(jù)標(biāo)注、細(xì)節(jié)處理、用戶的提示詞選擇,都在AI作圖中起著重要作用。

AI領(lǐng)域資深從業(yè)者郭威告訴深燃,之前AI生成圖片只需要確認(rèn)風(fēng)格、物品等,用GAN(生成式對(duì)抗網(wǎng)絡(luò))生成圖片。文心一言和Midjourney這一代模型的做法是先理解自然語(yǔ)義,再生成圖片。把自然語(yǔ)言輸入到系統(tǒng)里,AI對(duì)語(yǔ)義的理解和人類的理解不可避免會(huì)有偏差。

“更大的難點(diǎn),還是標(biāo)注數(shù)據(jù)。語(yǔ)義比詞組的空間更大,需要大量數(shù)據(jù),而且標(biāo)注難度和成本更高。”郭威說(shuō)。

很多人以為,系統(tǒng)生成圖片有誤時(shí),后臺(tái)改一個(gè)標(biāo)注就能矯正系統(tǒng)了。比如生成“驢肉火燒”出了錯(cuò),只是告訴系統(tǒng)這是一道菜,而不是一頭驢就行了,但這種方式只是一對(duì)一修改而沒(méi)有一層層訓(xùn)練,修正了單個(gè)錯(cuò)誤,并不會(huì)增強(qiáng)系統(tǒng)的理解能力,治標(biāo)不治本。

也就是說(shuō),即便是有大量開(kāi)源的全球數(shù)據(jù)庫(kù)圖片可以用,國(guó)內(nèi)的系統(tǒng)在中文提示詞與英文素材對(duì)應(yīng)方面還需要做大量工作。

另外,AI生成的圖片極難完善眼睛、手、腳等部位細(xì)節(jié)。一直以來(lái),行業(yè)內(nèi)就有“AI不會(huì)畫(huà)手”的說(shuō)法,很多人判斷是不是AI作圖,就看圖片中的手畫(huà)得怎么樣?!耙?yàn)樯疃葘W(xué)習(xí)神經(jīng)網(wǎng)絡(luò)沒(méi)有足夠的數(shù)據(jù)學(xué)習(xí)手指與手指之間的架構(gòu)邏輯,加上手指關(guān)節(jié)間特征屬于細(xì)小顆粒度,生成的手容易出錯(cuò)?!辟Y深A(yù)loT算法從業(yè)者連路詩(shī)說(shuō)。目前除了MidjourneyV5,其他AI作圖產(chǎn)品細(xì)節(jié)方面的問(wèn)題還沒(méi)有完全解決。

到了最終生成圖片環(huán)節(jié),用戶選擇用什么提示詞(prompt)和風(fēng)格(style)來(lái)生成想要的圖片也很重要,新用戶往往不得方法,很難找到精準(zhǔn)的提示詞或足夠契合的風(fēng)格。

此外,目前的AI繪圖產(chǎn)品還存在一些共同的挑戰(zhàn)。

連路詩(shī)提到,一方面是時(shí)效性不夠,目前AI繪畫(huà)知識(shí)庫(kù)的更新、數(shù)據(jù)的引入不完全是實(shí)時(shí)的,如果加入實(shí)時(shí)性數(shù)據(jù),需要巨大的成本;另一方面,目前各系統(tǒng)對(duì)數(shù)據(jù)過(guò)濾的嚴(yán)謹(jǐn)程度不一樣,有的設(shè)置了相對(duì)嚴(yán)格的禁用詞,有的沒(méi)有,法律或道德邊界不清。

還有一個(gè)是AI繪圖帶來(lái)的版權(quán)問(wèn)題。目前行業(yè)內(nèi)大部分企業(yè)不對(duì)外宣布自己用來(lái)訓(xùn)練AI的圖片來(lái)源,這樣的AI生成圖片商用時(shí),可能存在未知的法律風(fēng)險(xiǎn)。且目前AI作的圖也不受版權(quán)保護(hù)。

多久才能追上?

行業(yè)共性問(wèn)題之外,根據(jù)多位從業(yè)者的說(shuō)法,在數(shù)據(jù)、算法、算力三方面,文心一言都跟Midjourney差距不小。

數(shù)據(jù)方面,文心一言數(shù)據(jù)的數(shù)量和質(zhì)量都需要提升。

連路詩(shī)解釋,NLP(即natural language process,自然語(yǔ)言處理)分成幾個(gè)過(guò)程,第一步是自然語(yǔ)言理解,比如,實(shí)體識(shí)別,系統(tǒng)會(huì)根據(jù)專屬名詞生成自己的理解;接下來(lái)是自然語(yǔ)言生成,包括生成文字和圖片。大多數(shù)問(wèn)題出在對(duì)自然語(yǔ)言的理解不準(zhǔn)確,這時(shí)候就需要人工對(duì)句子進(jìn)行數(shù)據(jù)處理、參數(shù)調(diào)整等。

“中文本身難在字與字之間沒(méi)有間距,人工分詞一方面要隔開(kāi)字詞的間距,同時(shí)要界定動(dòng)詞、名詞等詞性,還要標(biāo)注主語(yǔ)、謂語(yǔ)、賓語(yǔ),以及是否為常用詞等”,連路詩(shī)補(bǔ)充,“分詞需要龐大的人力投入,一般一個(gè)小組至少需要5000人。AI公司通常把這一需求外包給人力成本較低的省份的公司,另外,AI生成圖片的結(jié)果也需要人類的反饋增強(qiáng)學(xué)習(xí)?!?/p>

基礎(chǔ)標(biāo)注工作做好之后,系統(tǒng)會(huì)將這些詞轉(zhuǎn)成向量進(jìn)行計(jì)算,向量越不準(zhǔn)確,生成的結(jié)果越模糊?!澳壳鞍俣瓤赡茏隽艘徊糠止ぷ?,但還沒(méi)達(dá)到能準(zhǔn)確理解大部分語(yǔ)義的程度,可以判定為不及格。”連路詩(shī)說(shuō)。

陳經(jīng)也提到,大模型需要的數(shù)據(jù)庫(kù)里的“圖片是要標(biāo)注的,這更加大了收集整理圖片的難度。當(dāng)前也有中文標(biāo)準(zhǔn)的訓(xùn)練數(shù)據(jù),但是少很多。由于發(fā)布時(shí)間倉(cāng)促,百度對(duì)于畫(huà)圖AI的中文輸入詞還沒(méi)完全搞定,后續(xù)應(yīng)該會(huì)根據(jù)用戶反饋,把中文的提示詞與英文的訓(xùn)練素材更好的對(duì)應(yīng)上?!?/p>

第二大差距是算法。

算法方面,各公司在底層大模型的使用層數(shù)上有差別。連路詩(shī)認(rèn)為,以文心一言目前在算法方面的表現(xiàn)來(lái)看,有可能與Midjourney等模型的深度神經(jīng)網(wǎng)絡(luò)的層數(shù)有十倍左右的差距。

“AI生成圖片不準(zhǔn)確還有一種可能性,該系統(tǒng)的底層架構(gòu)不是深度神經(jīng)網(wǎng)絡(luò),也沒(méi)有根據(jù)底層Vector(向量)一點(diǎn)點(diǎn)像素級(jí)生成圖片,而是系統(tǒng)先用搜索引擎匹配知識(shí)圖譜,再生成圖像,也可以理解為拼湊貼圖。神經(jīng)網(wǎng)絡(luò)在對(duì)圖片進(jìn)行計(jì)算的時(shí)候,本來(lái)就有圖片的旋轉(zhuǎn)、切割、拼湊,這樣的系統(tǒng)生成的圖片有可能是顆粒度很粗的片狀圖片拼湊出來(lái)的?!边B路詩(shī)做了這樣的推測(cè)。不過(guò),文心一言屬于哪種技術(shù)還不清楚。

第三,算力上的差距。OpenAI號(hào)稱自己的模型是千億規(guī)模參數(shù),也就是每次計(jì)算的時(shí)候擁有1000張以上顯卡分布式計(jì)算的算力。百度與國(guó)外幾家主要科技企業(yè)的算力差距同樣不小。

當(dāng)然,百度和Midjourney目前的發(fā)展程度不一,與其發(fā)展階段也有關(guān)系。

Midjourney于2022年3月首次面世,目前已經(jīng)迭代到了第五代。百度文心一言所具備的AI作圖功能,即文心一格,雖然在2022年8月就推出了,但目前沒(méi)有看到相關(guān)的升級(jí)迭代信息。而在AI領(lǐng)域,變化幾乎是以天為單位的。

國(guó)內(nèi)AI繪圖多久能趕上國(guó)際水平?郭威對(duì)此比較樂(lè)觀。在他看來(lái),“數(shù)據(jù)方面雖然有差異,但最多也只有半年左右的差距,中文類的數(shù)據(jù)國(guó)內(nèi)比國(guó)外更多,拼命補(bǔ)一下能趕上?!?/p>

至于算法差異,他表示,OpenAI等幾家機(jī)構(gòu)比Google、Facebook、百度等高出半年到一年的水平,之前因?yàn)椴淮_定性大,各企業(yè)沒(méi)有重點(diǎn)布局,現(xiàn)在驗(yàn)證這條路是有前途的,針對(duì)性追趕,很快也能趕上。雖然OpenAI沒(méi)開(kāi)源,但從OpenAI出來(lái)的一些人很快也會(huì)把技術(shù)思路共享到小圈子里,頭部公司很容易跟進(jìn)。

“算力的差距就很難彌補(bǔ)了,短期內(nèi)難追上去,但是用一年多時(shí)間把國(guó)內(nèi)系統(tǒng)做到國(guó)外80分或90分以上的程度是可能的?!惫f(shuō)。

無(wú)論如何,接下來(lái),AI繪畫(huà)將會(huì)走到舞臺(tái)中央大放異彩是確定的事實(shí),對(duì)各公司來(lái)說(shuō),拼的是速度。行業(yè)規(guī)則是公開(kāi)的,所有選手都在往前跑,這時(shí)候,競(jìng)爭(zhēng)是最大的動(dòng)力,拿結(jié)果說(shuō)話才是硬道理。

*題圖及文中配圖來(lái)源于pexels。

*應(yīng)受訪者要求,文中郭威為化名。

*深燃(shenrancaijing)

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

AI繪畫(huà),為何聽(tīng)不懂人話?

再不學(xué)AI繪畫(huà)你就OUT了。

文|深燃  唐亞華

編輯|黎明

2023年的AI繪畫(huà)領(lǐng)域是由兩家公司的動(dòng)態(tài)引爆的。

3月17日百度發(fā)布文心一言,網(wǎng)友們瘋狂發(fā)散想象力,令人捧腹的圖片接連被生成。關(guān)于文心一言文字生成圖片的討論熱情空前高漲。

緊接著,3月18日,美國(guó)Midjourney公司宣布第五版AI圖像生成服務(wù),即MidjourneyV5。本來(lái)就處在行業(yè)領(lǐng)先水平的Midjourney,這一次版本更新真正讓AI繪畫(huà)圈沸騰了。因?yàn)镸idjourneyV5生成的圖片堪稱驚艷。

兩個(gè)系統(tǒng)幾乎同時(shí)發(fā)布,免不了被對(duì)比。深燃體驗(yàn)后發(fā)現(xiàn),文心一言的圖片生成功能,能夠識(shí)別簡(jiǎn)單元素、文本沒(méi)有歧義的人或事物,但涉及到成語(yǔ)、專有名詞,以及字面意思和實(shí)際意義不同的表述,它就會(huì)跑偏。Midjourney在這方面幾乎沒(méi)什么問(wèn)題。另外,Midjourney接收到的提示詞(prompt)越詳細(xì)精準(zhǔn),生成的圖片越符合要求,但文心一言需求越多,系統(tǒng)越容易出錯(cuò)。

調(diào)侃背后,AI生成圖片其實(shí)不是一件簡(jiǎn)單的事情,需要在數(shù)據(jù)、算法、算力等方面綜合發(fā)力,既對(duì)技術(shù)和硬件有高要求,還對(duì)數(shù)據(jù)采集和標(biāo)注等苦活累活高度依賴。文心一言的AI繪圖功能與Midjourney在以上三方面都有不小的差距。

百度方面公開(kāi)表示,“大家也會(huì)從接下來(lái)文生圖能力的快速調(diào)優(yōu)迭代,看到百度的自研實(shí)力。文心一言正在大家的使用過(guò)程中不斷學(xué)習(xí)和成長(zhǎng),請(qǐng)大家給自研技術(shù)和產(chǎn)品一點(diǎn)信心和時(shí)間?!睆臉I(yè)者預(yù)估,文心一言全力追趕,用一年左右的時(shí)間有希望達(dá)到國(guó)外80%以上的水平。

AI繪圖這個(gè)戰(zhàn)場(chǎng),槍聲已經(jīng)打響,追逐賽、排位賽都將一輪輪上演。

搞不定成語(yǔ)和專有名詞,提示詞越多AI越廢

文心一言最近接受的最大考驗(yàn),莫過(guò)于畫(huà)一幅中餐菜名圖。在網(wǎng)友們的熱情創(chuàng)作下,驢肉火燒、紅燒獅子頭等菜品出來(lái)的畫(huà)做一個(gè)比一個(gè)離譜,車水馬龍的街道、虎頭虎腦的大胖小子,同樣驚掉了大家的下巴。

網(wǎng)友體驗(yàn)文心一言時(shí)截圖,目前已更新

網(wǎng)民熱心找bug,百度程序員應(yīng)該也在背后發(fā)力,深燃測(cè)試發(fā)現(xiàn),以上內(nèi)容均已更新為可以正確顯示對(duì)應(yīng)圖片。不過(guò),像娃娃菜、臉盆、虎皮雞蛋、三杯雞,還有胸有成竹的男人、虎背熊腰的男人,文心一言仍然給出的是字面直譯后的圖片,畫(huà)風(fēng)一言難盡。

深燃截圖

即便輸入提示詞時(shí)強(qiáng)調(diào)“畫(huà)一個(gè)衛(wèi)浴器材水龍頭”,文心一言畫(huà)出的仍然是水中龍的頭像;當(dāng)深燃輸入“畫(huà)一個(gè)風(fēng)姿綽約的人”時(shí),系統(tǒng)畫(huà)出的是一位男士,顯然AI沒(méi)能理解風(fēng)姿綽約形容的是女人。

深燃截圖

程序員改bug的速度比不上網(wǎng)友找漏洞的速度。很快又有人發(fā)現(xiàn),文心一言畫(huà)圖時(shí)有把提示詞中譯英之后根據(jù)英文意思生成圖片的可能性,據(jù)此有人推測(cè)百度可能用國(guó)外的作圖產(chǎn)品接口,套了一個(gè)自己的殼。

深燃也驗(yàn)證了一下某用戶的測(cè)試。比如輸入“水瓜”,畫(huà)出的是西瓜,這也對(duì)應(yīng)西瓜的英文單詞Watermelon;要求畫(huà)樹(shù)葉、封面、蘋果,畫(huà)出的圖是樹(shù)葉覆蓋蘋果,顯然系統(tǒng)是把封面翻譯成了Cover,這個(gè)單詞也有覆蓋的意思;畫(huà)“土耳其張開(kāi)翅膀”,出現(xiàn)的畫(huà)面是張開(kāi)翅膀的火雞,我們都知道,Turkey是土耳其,也是火雞。

深燃截圖

對(duì)此,百度對(duì)外回應(yīng)稱,文心一言完全是百度自研的大語(yǔ)言模型,文生圖能力來(lái)自文心跨模態(tài)大模型ERNIE-ViLG。“在大模型訓(xùn)練中,我們使用的是全球互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù),符合行業(yè)慣例?!?/p>

亞洲視覺(jué)科技研發(fā)總監(jiān)陳經(jīng)也在接受媒體采訪時(shí)表示,“百度的畫(huà)圖AI采用了英文標(biāo)注的開(kāi)源圖片素材進(jìn)行訓(xùn)練,因此需要中翻英來(lái)當(dāng)prompt(提示詞)。目前,全球AI研發(fā)有開(kāi)源的傳統(tǒng),特別是訓(xùn)練數(shù)據(jù)庫(kù),不然收集圖片效率太低了?!?/p>

深燃體驗(yàn)后還發(fā)現(xiàn),文心一言在單個(gè)需求描述時(shí)表現(xiàn)尚可,比如畫(huà)一幅憤怒的小孩、開(kāi)心的農(nóng)民、一只很餓的流量貓,但一幅圖一旦提出多個(gè)作圖需求,AI就有點(diǎn)懵。

比如請(qǐng)文心一言“生成一幅畫(huà),在一個(gè)下雨天,小紅在植樹(shù),小王在看書(shū)”,系統(tǒng)生成的圖片里只有背靠樹(shù)看書(shū)的一個(gè)人;還有,“畫(huà)一幅畫(huà),里面有大笑的年輕人、哭泣的小孩、愁容滿面的老人”,系統(tǒng)把哭泣和愁容滿面等表情集合在了一張臉上,畫(huà)出了一個(gè)小孩和老人的結(jié)合體。如下圖所示,還有一些類似的情況,系統(tǒng)同樣沒(méi)能準(zhǔn)確完成給出的指令。

深燃截圖

深燃又把上述提示詞輸入到MidjourneyV4測(cè)試了一下,如下圖所示,即使是V4版本,表現(xiàn)也遠(yuǎn)高出文心一言。MidjourneyV4基本能理解句子中的意思,做出的圖幾乎可以包含所有的要素。

深燃體驗(yàn)MidjourneyV4后截圖

深燃還測(cè)試了AI繪畫(huà)領(lǐng)域一直以來(lái)難以攻克的畫(huà)手指難的問(wèn)題。在這方面,文心一言也沒(méi)能經(jīng)受住考驗(yàn)。比如“畫(huà)一位30歲的女士,雙手豎起大拇指”,文心一言生成的圖片大拇指是豎起來(lái)了,但是其中一只手有7根手指;輸入“畫(huà)一個(gè)人,兩只手做點(diǎn)贊姿勢(shì)”時(shí),系統(tǒng)也無(wú)法實(shí)現(xiàn)這一手部姿勢(shì)。

深燃截圖

Midjourney此前的版本同樣存在手指誤差的問(wèn)題,最新發(fā)布的V5版本,已經(jīng)能夠正確畫(huà)出五根手指,雖然有人依舊指出其繪出的大拇指有點(diǎn)長(zhǎng),但相比以往已經(jīng)有不小的進(jìn)步。有從業(yè)者評(píng)價(jià):“Midjourney的此前版本就像是近視患者沒(méi)有戴上眼鏡,而MidjourneyV5就是戴上眼鏡后的清晰效果,4K細(xì)節(jié)拉滿”。

比如MidjourneyV5畫(huà)出的《三體》角色圖,效果被網(wǎng)友評(píng)價(jià)為幾乎要“成精了”。而文心一言畫(huà)《三體》角色時(shí),系統(tǒng)全然不顧描述里提到的留著黑色短發(fā)、戴著眼鏡的要求,畫(huà)出了一個(gè)扎著發(fā)髻,不戴眼鏡,古風(fēng)穿著的男士。

上圖為MidjourneyV5生成的三體角色圖 圖片來(lái)源 / Ai總編推書(shū)

下圖為文心一言作圖 / 深燃截圖

最近MidjourneyV5畫(huà)的一對(duì)情侶的圖片掀起了業(yè)內(nèi)一陣驚呼。作圖的提示詞是:“一對(duì)年輕的情侶穿著牛仔褲和夾克坐在樓頂上”,背景分別是2000年和2023年的北京。最后出圖的效果大大超出很多人的想象。深燃把類似表述輸入文心一言時(shí),系統(tǒng)直接給出了毫不相關(guān)的圖片。

左圖為MidjourneyV5作圖 圖片來(lái)源 / 量子位

右為深燃對(duì)比體驗(yàn)文心一言截圖

對(duì)比來(lái)看,Midjourney作圖已經(jīng)在細(xì)節(jié)上幾近完美了,文心一言還處在難以準(zhǔn)確分辨字面意思和實(shí)際意思的初級(jí)階段。Midjourney提示詞描述越詳細(xì),生成的圖片越精準(zhǔn),文心一言能理解的文字長(zhǎng)度有限,過(guò)多描述會(huì)讓它直接報(bào)錯(cuò)或者胡亂生成圖片。

AI文生圖到底有多難?

按出現(xiàn)時(shí)間來(lái)算,AI繪畫(huà)算是AI領(lǐng)域的新事物。

公開(kāi)報(bào)道顯示,2021年1月,OpenAI發(fā)布了兩個(gè)連接文本與圖像的神經(jīng)網(wǎng)絡(luò):DALL E和 CLIP。DALL E可以基于文本直接生成圖像,CLIP能夠完成圖像與文本類別的匹配。DALL E是基于GPT-3的120億參數(shù)版本實(shí)現(xiàn)的。

隨后在2022年,DALL·E 2、Stable Diffusion等文生圖底層大模型發(fā)布,帶動(dòng)了應(yīng)用層的發(fā)展,出現(xiàn)了一大批爆款產(chǎn)品,包括Midjourney。2022年也被認(rèn)為是“AI繪畫(huà)元年”。

StabilityAI的Stable Diffusion是一個(gè)開(kāi)源模型,很多開(kāi)發(fā)者基于這個(gè)模型開(kāi)發(fā)訓(xùn)練出了更多不同的生成模型。國(guó)內(nèi)很多科技公司的AI繪畫(huà)項(xiàng)目也是由Stable Diffusion提供技術(shù)支撐。Midjourney是付費(fèi)訂閱的,公開(kāi)信息顯示,Midjourney每年的收入可能達(dá)到1億美元左右。另外,有AI繪圖業(yè)務(wù)的還有Google、Meta等公司。百度的文心一言和此前就發(fā)布的文心一格算是國(guó)內(nèi)最早的具備AI繪畫(huà)功能的大模型。

文心一言的發(fā)布和升級(jí)了的MidjourneyV5更是將AI繪畫(huà)行業(yè)推向高潮。這一次迭代是Midjourney自去年推出以來(lái)最大的更新,Midjourney也成了目前市面上最先進(jìn)的AI圖像生成器之一。

熱度還在繼續(xù)。最近,行業(yè)內(nèi)又有一系列企業(yè)跟進(jìn)推出AI繪畫(huà)功能。3月21日,微軟宣布,必應(yīng)搜索引擎接入了OpenAI的DALL·E模型,將AI圖像生成功能引入新版必應(yīng)和Edge瀏覽器,免費(fèi)開(kāi)放。就在同一天,Adobe發(fā)布AI模型Firefly,支持用文字生成圖像、藝術(shù)字體。

可以說(shuō),2023年,AI繪畫(huà)行業(yè)迎來(lái)了真正的大爆發(fā)。

調(diào)侃文心一言之余,客觀來(lái)說(shuō),AI生成圖片本身就不是一件容易實(shí)現(xiàn)的事情。系統(tǒng)的語(yǔ)義理解能力、充分的數(shù)據(jù)標(biāo)注、細(xì)節(jié)處理、用戶的提示詞選擇,都在AI作圖中起著重要作用。

AI領(lǐng)域資深從業(yè)者郭威告訴深燃,之前AI生成圖片只需要確認(rèn)風(fēng)格、物品等,用GAN(生成式對(duì)抗網(wǎng)絡(luò))生成圖片。文心一言和Midjourney這一代模型的做法是先理解自然語(yǔ)義,再生成圖片。把自然語(yǔ)言輸入到系統(tǒng)里,AI對(duì)語(yǔ)義的理解和人類的理解不可避免會(huì)有偏差。

“更大的難點(diǎn),還是標(biāo)注數(shù)據(jù)。語(yǔ)義比詞組的空間更大,需要大量數(shù)據(jù),而且標(biāo)注難度和成本更高?!惫f(shuō)。

很多人以為,系統(tǒng)生成圖片有誤時(shí),后臺(tái)改一個(gè)標(biāo)注就能矯正系統(tǒng)了。比如生成“驢肉火燒”出了錯(cuò),只是告訴系統(tǒng)這是一道菜,而不是一頭驢就行了,但這種方式只是一對(duì)一修改而沒(méi)有一層層訓(xùn)練,修正了單個(gè)錯(cuò)誤,并不會(huì)增強(qiáng)系統(tǒng)的理解能力,治標(biāo)不治本。

也就是說(shuō),即便是有大量開(kāi)源的全球數(shù)據(jù)庫(kù)圖片可以用,國(guó)內(nèi)的系統(tǒng)在中文提示詞與英文素材對(duì)應(yīng)方面還需要做大量工作。

另外,AI生成的圖片極難完善眼睛、手、腳等部位細(xì)節(jié)。一直以來(lái),行業(yè)內(nèi)就有“AI不會(huì)畫(huà)手”的說(shuō)法,很多人判斷是不是AI作圖,就看圖片中的手畫(huà)得怎么樣?!耙?yàn)樯疃葘W(xué)習(xí)神經(jīng)網(wǎng)絡(luò)沒(méi)有足夠的數(shù)據(jù)學(xué)習(xí)手指與手指之間的架構(gòu)邏輯,加上手指關(guān)節(jié)間特征屬于細(xì)小顆粒度,生成的手容易出錯(cuò)。”資深A(yù)loT算法從業(yè)者連路詩(shī)說(shuō)。目前除了MidjourneyV5,其他AI作圖產(chǎn)品細(xì)節(jié)方面的問(wèn)題還沒(méi)有完全解決。

到了最終生成圖片環(huán)節(jié),用戶選擇用什么提示詞(prompt)和風(fēng)格(style)來(lái)生成想要的圖片也很重要,新用戶往往不得方法,很難找到精準(zhǔn)的提示詞或足夠契合的風(fēng)格。

此外,目前的AI繪圖產(chǎn)品還存在一些共同的挑戰(zhàn)。

連路詩(shī)提到,一方面是時(shí)效性不夠,目前AI繪畫(huà)知識(shí)庫(kù)的更新、數(shù)據(jù)的引入不完全是實(shí)時(shí)的,如果加入實(shí)時(shí)性數(shù)據(jù),需要巨大的成本;另一方面,目前各系統(tǒng)對(duì)數(shù)據(jù)過(guò)濾的嚴(yán)謹(jǐn)程度不一樣,有的設(shè)置了相對(duì)嚴(yán)格的禁用詞,有的沒(méi)有,法律或道德邊界不清。

還有一個(gè)是AI繪圖帶來(lái)的版權(quán)問(wèn)題。目前行業(yè)內(nèi)大部分企業(yè)不對(duì)外宣布自己用來(lái)訓(xùn)練AI的圖片來(lái)源,這樣的AI生成圖片商用時(shí),可能存在未知的法律風(fēng)險(xiǎn)。且目前AI作的圖也不受版權(quán)保護(hù)。

多久才能追上?

行業(yè)共性問(wèn)題之外,根據(jù)多位從業(yè)者的說(shuō)法,在數(shù)據(jù)、算法、算力三方面,文心一言都跟Midjourney差距不小。

數(shù)據(jù)方面,文心一言數(shù)據(jù)的數(shù)量和質(zhì)量都需要提升。

連路詩(shī)解釋,NLP(即natural language process,自然語(yǔ)言處理)分成幾個(gè)過(guò)程,第一步是自然語(yǔ)言理解,比如,實(shí)體識(shí)別,系統(tǒng)會(huì)根據(jù)專屬名詞生成自己的理解;接下來(lái)是自然語(yǔ)言生成,包括生成文字和圖片。大多數(shù)問(wèn)題出在對(duì)自然語(yǔ)言的理解不準(zhǔn)確,這時(shí)候就需要人工對(duì)句子進(jìn)行數(shù)據(jù)處理、參數(shù)調(diào)整等。

“中文本身難在字與字之間沒(méi)有間距,人工分詞一方面要隔開(kāi)字詞的間距,同時(shí)要界定動(dòng)詞、名詞等詞性,還要標(biāo)注主語(yǔ)、謂語(yǔ)、賓語(yǔ),以及是否為常用詞等”,連路詩(shī)補(bǔ)充,“分詞需要龐大的人力投入,一般一個(gè)小組至少需要5000人。AI公司通常把這一需求外包給人力成本較低的省份的公司,另外,AI生成圖片的結(jié)果也需要人類的反饋增強(qiáng)學(xué)習(xí)?!?/p>

基礎(chǔ)標(biāo)注工作做好之后,系統(tǒng)會(huì)將這些詞轉(zhuǎn)成向量進(jìn)行計(jì)算,向量越不準(zhǔn)確,生成的結(jié)果越模糊。“目前百度可能做了一部分工作,但還沒(méi)達(dá)到能準(zhǔn)確理解大部分語(yǔ)義的程度,可以判定為不及格?!边B路詩(shī)說(shuō)。

陳經(jīng)也提到,大模型需要的數(shù)據(jù)庫(kù)里的“圖片是要標(biāo)注的,這更加大了收集整理圖片的難度。當(dāng)前也有中文標(biāo)準(zhǔn)的訓(xùn)練數(shù)據(jù),但是少很多。由于發(fā)布時(shí)間倉(cāng)促,百度對(duì)于畫(huà)圖AI的中文輸入詞還沒(méi)完全搞定,后續(xù)應(yīng)該會(huì)根據(jù)用戶反饋,把中文的提示詞與英文的訓(xùn)練素材更好的對(duì)應(yīng)上?!?/p>

第二大差距是算法。

算法方面,各公司在底層大模型的使用層數(shù)上有差別。連路詩(shī)認(rèn)為,以文心一言目前在算法方面的表現(xiàn)來(lái)看,有可能與Midjourney等模型的深度神經(jīng)網(wǎng)絡(luò)的層數(shù)有十倍左右的差距。

“AI生成圖片不準(zhǔn)確還有一種可能性,該系統(tǒng)的底層架構(gòu)不是深度神經(jīng)網(wǎng)絡(luò),也沒(méi)有根據(jù)底層Vector(向量)一點(diǎn)點(diǎn)像素級(jí)生成圖片,而是系統(tǒng)先用搜索引擎匹配知識(shí)圖譜,再生成圖像,也可以理解為拼湊貼圖。神經(jīng)網(wǎng)絡(luò)在對(duì)圖片進(jìn)行計(jì)算的時(shí)候,本來(lái)就有圖片的旋轉(zhuǎn)、切割、拼湊,這樣的系統(tǒng)生成的圖片有可能是顆粒度很粗的片狀圖片拼湊出來(lái)的?!边B路詩(shī)做了這樣的推測(cè)。不過(guò),文心一言屬于哪種技術(shù)還不清楚。

第三,算力上的差距。OpenAI號(hào)稱自己的模型是千億規(guī)模參數(shù),也就是每次計(jì)算的時(shí)候擁有1000張以上顯卡分布式計(jì)算的算力。百度與國(guó)外幾家主要科技企業(yè)的算力差距同樣不小。

當(dāng)然,百度和Midjourney目前的發(fā)展程度不一,與其發(fā)展階段也有關(guān)系。

Midjourney于2022年3月首次面世,目前已經(jīng)迭代到了第五代。百度文心一言所具備的AI作圖功能,即文心一格,雖然在2022年8月就推出了,但目前沒(méi)有看到相關(guān)的升級(jí)迭代信息。而在AI領(lǐng)域,變化幾乎是以天為單位的。

國(guó)內(nèi)AI繪圖多久能趕上國(guó)際水平?郭威對(duì)此比較樂(lè)觀。在他看來(lái),“數(shù)據(jù)方面雖然有差異,但最多也只有半年左右的差距,中文類的數(shù)據(jù)國(guó)內(nèi)比國(guó)外更多,拼命補(bǔ)一下能趕上?!?/p>

至于算法差異,他表示,OpenAI等幾家機(jī)構(gòu)比Google、Facebook、百度等高出半年到一年的水平,之前因?yàn)椴淮_定性大,各企業(yè)沒(méi)有重點(diǎn)布局,現(xiàn)在驗(yàn)證這條路是有前途的,針對(duì)性追趕,很快也能趕上。雖然OpenAI沒(méi)開(kāi)源,但從OpenAI出來(lái)的一些人很快也會(huì)把技術(shù)思路共享到小圈子里,頭部公司很容易跟進(jìn)。

“算力的差距就很難彌補(bǔ)了,短期內(nèi)難追上去,但是用一年多時(shí)間把國(guó)內(nèi)系統(tǒng)做到國(guó)外80分或90分以上的程度是可能的?!惫f(shuō)。

無(wú)論如何,接下來(lái),AI繪畫(huà)將會(huì)走到舞臺(tái)中央大放異彩是確定的事實(shí),對(duì)各公司來(lái)說(shuō),拼的是速度。行業(yè)規(guī)則是公開(kāi)的,所有選手都在往前跑,這時(shí)候,競(jìng)爭(zhēng)是最大的動(dòng)力,拿結(jié)果說(shuō)話才是硬道理。

*題圖及文中配圖來(lái)源于pexels。

*應(yīng)受訪者要求,文中郭威為化名。

*深燃(shenrancaijing)

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。