正在閱讀:

國產(chǎn)大模型,摸著OpenAI過河

掃一掃下載界面新聞APP

國產(chǎn)大模型,摸著OpenAI過河

讓“涌現(xiàn)現(xiàn)象”更有效率發(fā)生。

文|光錐智能 周文斌

編輯|王一粟

GPT-4驚艷亮相后,壓力來到百度這邊。

上臺(tái)后的李彥宏和百度CTO王海峰都略顯緊張,這在多年百度相關(guān)活動(dòng)中還是非常少見。李彥宏坦言,“文心一言對標(biāo)ChatGPT、甚至是對標(biāo)GPT-4,門檻是很高的。我自己測試感覺還是有很多不完美的地方?!?/p>

文心一言是一個(gè)大語言模型、生成式AI產(chǎn)品,發(fā)布會(huì)上演示了五個(gè)使用場景中的綜合能力。其中,文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算是大語言模型常見的能力,在此基礎(chǔ)上,中文理解及多模態(tài)生成能力更能體現(xiàn)技術(shù)水平。

到今日晚間,「光錐智能」拿到文心一言的內(nèi)測邀請碼,在提出多個(gè)問題測試之后我們發(fā)現(xiàn),文心一言與New Bing雖然有差距,但整體要比預(yù)期更好。比如在為商業(yè)訪談?lì)悪谀科鹈?、對洛希極限的解釋上都十分完整。但同時(shí)也存在一些不足,比如在計(jì)算“同時(shí)抽水和放水”的數(shù)學(xué)問題時(shí),文心一言就出現(xiàn)了審題錯(cuò)誤。

金玉在前,百度在文心一言發(fā)布會(huì)召開后,無論是產(chǎn)品口碑,還是股價(jià)表現(xiàn),短期內(nèi)一定會(huì)有壓力。畢竟,世界上還只有一個(gè)OpenAI。

面對如此大的壓力,李彥宏回應(yīng)了為什么依然要在3月16日公開發(fā)布的原因:第一是市場需求,無論是百度的產(chǎn)品,還是客戶,都有需求。第二是收集反饋,“一旦有了真實(shí)的人類反饋,文心一言的進(jìn)步速度會(huì)非???,我們都希望它快點(diǎn)成長”。

事實(shí)上,在ChatGPT驚艷亮相之前,GPT的1~3版本,都是在長期低調(diào)開源測試后,才達(dá)到了后面的結(jié)果。

短期表現(xiàn)和長期價(jià)值還是有所不同,拋開情緒,我們更關(guān)心,文心一言和GPT-4在技術(shù)上有哪些相同和不同?模型真的是越大越好嗎?利用大模型的產(chǎn)業(yè)化之路,應(yīng)該怎么走?

01 “文心一言”對線“GPT-4”

文心一言在發(fā)布會(huì)上相對出彩的展示,莫過于多模態(tài)生成。

在發(fā)布會(huì)上,李彥宏先是讓文心一言為2023智能交通大會(huì)生成了一張海報(bào),然后又讓其撰寫了一段關(guān)于智能交通的文字,并讓其用四川話讀出來,最后還讓文心一言用這些素材生成了一段視頻。

昨天,在GPT-4的發(fā)布會(huì)上,Open AI總裁和聯(lián)合創(chuàng)始人Greg Brockman展示了GPT-4基于一張草圖生成網(wǎng)站的過程,讓許多人知道了大模型單模態(tài)與多模態(tài)的區(qū)別。

GPT-4是一個(gè)典型的多模態(tài)預(yù)訓(xùn)練模型,它能夠支持圖像和文本的輸入,然后以文本的方式輸出。而文心一言展示的則是以文本的方式輸入,以文本、語音、圖像和視頻的方式輸出。

輸入和輸出其實(shí)具有本質(zhì)上的區(qū)別。

有AI開發(fā)從業(yè)者向光錐智能表示,多模態(tài)輸出其實(shí)并不難,難的是輸入。比如輸出語音,不過是先輸出文字然后再加一個(gè)TTS技術(shù),已經(jīng)很成熟了。

而多模態(tài)輸入,則需要大模型真正“長出眼睛”讀懂圖片意思,需要在預(yù)訓(xùn)練階段就將圖片和圖片標(biāo)注信息放入訓(xùn)練數(shù)據(jù)中。

比如這次GPT-4令人驚艷的強(qiáng)大,就表現(xiàn)在圖片理解上。

給到一個(gè)物理題的照片,GPT-4能夠讀懂題目然后解答。

GPT-4還能識別圖片中的幽默部分,比如給GPT-4一個(gè)長相奇怪的充電器的圖片,問為什么這很可笑?GPT-4能回答說,因?yàn)閂GA線充iPhone。

但無論怎么說,從GPT-4到文心一言都在說明李彥宏的那句話,“多模態(tài)是生成式AI一個(gè)明確的發(fā)展趨勢。”

據(jù)王海峰介紹,文心一言主要脫胎于兩大模型,百度ERNIE系列知識增強(qiáng)千億大模型,以及百度大規(guī)模開放域?qū)υ捘P蚉LATO。

此基礎(chǔ)上,主要采用了六項(xiàng)核心技術(shù),包括監(jiān)督精調(diào)、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)、提示構(gòu)建、知識增強(qiáng)、檢索增強(qiáng)和對話增強(qiáng)技術(shù)。

其中,人類反饋強(qiáng)化學(xué)習(xí)是目前大模型訓(xùn)練中普遍應(yīng)用到的技術(shù),ChatGPT能夠在GPT-3的基礎(chǔ)上產(chǎn)生質(zhì)變,成為跨時(shí)代的產(chǎn)品,很大程度上依賴于此。

這些技術(shù)中具有百度特色的主要是知識增強(qiáng)、檢索增強(qiáng)和對話增強(qiáng)技術(shù)。

其中,知識增強(qiáng)主要包含知識內(nèi)化和知識外用兩部分,知識內(nèi)化又包括語義學(xué)習(xí)和數(shù)據(jù)構(gòu)造,知識外用則包含知識推理和提示構(gòu)架。

這些技術(shù)又都基于百度的知識圖譜。所謂知識圖譜是一個(gè)宏大的數(shù)據(jù)模型,是指一個(gè)由世間萬物構(gòu)成的“實(shí)體”以及他們之間的“關(guān)系”構(gòu)建起來的龐大“知識”網(wǎng)絡(luò)。

百度CTO王海峰曾介紹,“百度構(gòu)建了世界上最大規(guī)模的知識圖譜,擁有超過50億實(shí)體,5500億事實(shí),能夠通過語言、聽覺、視覺等獲得對世界的統(tǒng)一認(rèn)知,突破了實(shí)際應(yīng)用中場景復(fù)雜多變、數(shù)據(jù)稀缺等難題。”

在這個(gè)知識圖譜中,除了基礎(chǔ)的通用圖譜之外,百度還針對不同的應(yīng)用場景和知識形態(tài),構(gòu)建了事件圖譜、多媒體圖譜、行業(yè)知識圖譜等多種圖譜。

檢索增強(qiáng)則與百度在搜索引擎上的技術(shù)積累有關(guān),簡單理解就是,當(dāng)用戶問出一個(gè)問題后,文心一言會(huì)先通過搜索引擎將知識都檢索一遍,然后再篩選整合其中有用的信息作為輸出。

最后的對話理解,則包含百度積累的記憶機(jī)制,上下文理解,對話規(guī)劃等等。

除了基礎(chǔ)技術(shù)架構(gòu),百度并沒有公布模型結(jié)構(gòu)和參數(shù),而是花了大量的時(shí)間用來解釋自己在文心大模型、產(chǎn)業(yè)大模型、AI技術(shù)四層構(gòu)架上的布局。

由于這都是此前積累的能力,因此這次文心一言的發(fā)布,不像是百度研發(fā)了一個(gè)新產(chǎn)品和新技術(shù),更像是百度將之前所有的工作打包,以文心一言的方式整合輸出。所以,我們會(huì)在文心一言里看到文心一格的圖片生成,會(huì)看到已經(jīng)在百家號應(yīng)用的自動(dòng)圖文轉(zhuǎn)視頻的功能。

就像李彥宏提到的一樣,“從某種意義上說,我們已經(jīng)為此準(zhǔn)備了多年,十幾年前就開始投入AI研究,2019年就推出了文心大語言模型,今天的文心一言是過去多年努力的延續(xù)。”

02 摸著OpenAI過河,讓“涌現(xiàn)現(xiàn)象”更有效率發(fā)生

雖然除了OpenAI,其他的公司目前都是others,但大家都在摸著GPT過河,在尋找更優(yōu)質(zhì)的模型方案。中國公司也一直在積極探索相應(yīng)大模型的研發(fā)和應(yīng)用,并總結(jié)出了許多“中國經(jīng)驗(yàn)”。

什么樣的模型是一個(gè)好模型?模型真的是越大越好嗎?

要回答這個(gè)問題,得先理解,ChatGPT和GPT-4能表現(xiàn)出類人的圖片和語言理解能力,就是因?yàn)椤坝楷F(xiàn)現(xiàn)象”,說得通俗一點(diǎn),就是“開竅了”。

涌現(xiàn)現(xiàn)象,是指在當(dāng)大模型的數(shù)規(guī)模達(dá)到一定程度時(shí),其解決問題的能力就會(huì)發(fā)生突變。大模型能力的提升,很大程度上依賴于這種涌現(xiàn)能力,也就是“大力出奇跡”。所以,現(xiàn)在模型規(guī)模被越做越大,一定程度上因?yàn)榇蠹蚁胍ㄟ^增大參數(shù)規(guī)模來獲得更多的涌現(xiàn)能力。

目前這一能力通常在百億、千億級別的參數(shù)區(qū)間出現(xiàn)?!暗唧w多少參數(shù)能夠出現(xiàn)涌現(xiàn)現(xiàn)象,也與具體任務(wù)、具體模型有關(guān),某些任務(wù)13B規(guī)模即可,有些任務(wù)需要540B,大部分要達(dá)到70B?!毙吕诵录夹g(shù)研發(fā)負(fù)責(zé)人張俊林提到。

但模型做大之后,卻又帶來產(chǎn)業(yè)落地方面的問題。比如更大的模型通常意味著更大的算力消耗,更高的部署成本,這讓一些垂類領(lǐng)域,如學(xué)校,醫(yī)院等場景很難負(fù)擔(dān)得起。

因此,在產(chǎn)生“涌現(xiàn)能力”的閾值后,如何將模型做“小”反而是產(chǎn)業(yè)落地的一個(gè)重要課題,并且也是技術(shù)發(fā)展的一個(gè)重要方向。

那么問題來了,如何既將模型做小,又能保證涌現(xiàn)能力呢?

張俊林提到幾個(gè)例子,比如DeepMind發(fā)布的Chinchilla和Meta發(fā)布的LLaMA,其中Chinchilla的模型規(guī)模只有70B,LLaMA的模型規(guī)模在7B到65B之間,都是目前規(guī)模相對較小的模型。

而從實(shí)驗(yàn)結(jié)果上看,即使模型規(guī)模相對較小也同樣可以具備涌現(xiàn)能力,但前提是增加更多的訓(xùn)練數(shù)據(jù)量。以Chinchilla為例,其對標(biāo)的模型規(guī)模是280B是Gopher,而Chinchilla能夠以70B的參數(shù)規(guī)模做出同樣的效果,代價(jià)是將訓(xùn)練數(shù)據(jù)提升了4倍。

因此,張俊林認(rèn)為:“減小模型大小增加訓(xùn)練數(shù)據(jù)數(shù)量,可能不影響小模型的涌現(xiàn)能力。”這成為做小模型的一個(gè)前提?!霸谶@樣的基礎(chǔ)上,我們或許可以先做小,再做大?!?/p>

在解決了涌現(xiàn)能力之外,將模型做小的另一個(gè)原因在于,現(xiàn)在大模型的許多參數(shù)其實(shí)并沒有被有效利用。

DeepMind在2022年的一個(gè)研究中提到,在給定總計(jì)算量不變的情況下,模型訓(xùn)練Loss在模型參數(shù)量和訓(xùn)練數(shù)據(jù)量的變化存在一個(gè)最優(yōu)的平衡點(diǎn)。

該研究給出了三種最優(yōu)計(jì)算方式,并且比較了GPT-3等千億模型,發(fā)現(xiàn)它們都沒有達(dá)到理論上的最優(yōu)點(diǎn),這意味著GPT-3龐大的數(shù)據(jù)其實(shí)并沒有被充分利用。

達(dá)觀數(shù)據(jù)董事長CEO陳運(yùn)文認(rèn)為,當(dāng)下的千億參數(shù)模型可能只發(fā)揮了百億模型的理論效果,一些參數(shù)可能被浪費(fèi)了。換句話說,千億規(guī)模的大模型其實(shí)是可以壓縮,并做得更小的。

Meta在這方面就曾做過嘗試,2023年Meta推出百億規(guī)模的模型LLaMA,雖然參數(shù)規(guī)模只有百億,不到GPT-3的十分之一,但通過實(shí)驗(yàn)顯示在下游任務(wù)中的表現(xiàn)好于GPT-3等千億規(guī)模的模型。這其中的關(guān)鍵在于,Meta使用了1.4萬億Token,是GPT-3的近4.7倍。

所以陳運(yùn)文也認(rèn)為,“整體來看盡管模型的參數(shù)規(guī)模越大越好,但性價(jià)比更高的參數(shù)規(guī)模方案仍然值得探索。”

除了將“大”模型做“小”更利于產(chǎn)業(yè)落地之外,通過更新指令學(xué)習(xí)方法,用更小的樣本獲得更好的學(xué)習(xí)效果也是目前國內(nèi)在探索的方向。

做這樣的探索也和目前中文產(chǎn)業(yè)面臨的客觀環(huán)境有關(guān)。一方面,中文數(shù)據(jù)在整個(gè)互聯(lián)網(wǎng)中的占比本身就比較小,僅有5%左右。另一方面,即使數(shù)量龐大的英文數(shù)據(jù)在模型爆炸的今天也面臨著即將被耗盡的問題。

有研究預(yù)計(jì),互聯(lián)網(wǎng)上可用的數(shù)據(jù)資源很有可能會(huì)被耗盡,其中高質(zhì)量的語言數(shù)據(jù)大約在2026年耗盡,低質(zhì)量語言數(shù)據(jù)大約在2050年耗盡,視覺圖像數(shù)據(jù)也將在2060年耗盡。

因此,如何提高數(shù)據(jù)的利用效率成為一個(gè)重要的課題。

目前,AI大模型的理解能力主要來源于兩個(gè)方面,即“預(yù)訓(xùn)練+參數(shù)微調(diào)”以及“預(yù)訓(xùn)練+提示學(xué)習(xí)”,這兩個(gè)學(xué)習(xí)方式各有優(yōu)劣。

其中“預(yù)訓(xùn)練+參數(shù)微調(diào)”會(huì)面臨資源占用過多,過擬合問題嚴(yán)重,缺乏通用能力等問題。而提示學(xué)習(xí)也有單一的外部提示信號難以最大限度地激發(fā)預(yù)訓(xùn)練大模型的能力,從而高質(zhì)量地完成具體任務(wù)的問題。

在這樣的背景下,行業(yè)提出了從提示學(xué)習(xí)到指令學(xué)習(xí)的改變。

所謂指令學(xué)習(xí),是指通過若干任務(wù)相關(guān)提示增強(qiáng)來監(jiān)督數(shù)據(jù),優(yōu)化模型參數(shù)。即通過參數(shù)微調(diào)提升多任務(wù)執(zhí)行效果,利用提示語出發(fā)模型執(zhí)行特定任務(wù)。

其核心在于,它仍然像微調(diào)一樣調(diào)整其中的參數(shù)來使大模型適應(yīng)不同的任務(wù),但調(diào)整完成之后的模型是一樣的,所有的任務(wù)都可以對應(yīng)一個(gè)模型。

有了這樣的調(diào)整,對大模型的訓(xùn)練效率就會(huì)提升。

比如在Google的一個(gè)案例中,他們在62個(gè)數(shù)據(jù)集中的40個(gè)任務(wù)進(jìn)行訓(xùn)練。但模型參數(shù)達(dá)到百億規(guī)模之后,這幾十個(gè)參數(shù)的聯(lián)合指令學(xué)習(xí)卻可以解決許多之前未訓(xùn)練的問題。

在這之前,大家普遍應(yīng)用的是多任務(wù)學(xué)習(xí),即學(xué)習(xí)一個(gè)任務(wù)解決一個(gè)任務(wù),沒有學(xué)習(xí)過的任務(wù)就沒法解決。而在這之后,一些之前沒有訓(xùn)練過的任務(wù)也能夠被解決,即大模型的通用能力在增強(qiáng)。

但要實(shí)現(xiàn)這個(gè)問題,找到合適的指令就變得非常重要,畢竟不同的任務(wù)、不同的樣本、用什么樣的提示語才能獲得更好結(jié)果是需要去嘗試的。

這也是OpenAI選擇免費(fèi)開放ChatGPT的一個(gè)重要原因,因?yàn)樗枰ㄟ^這種方式收集全球的問題指令,來完成大模型的進(jìn)一步優(yōu)化。

李彥宏也在文心一言發(fā)布會(huì)上提到,之所以選擇在這個(gè)時(shí)候發(fā)布文心一言,除了許多業(yè)務(wù)和客戶需要這項(xiàng)技術(shù)外,也因?yàn)槲男囊谎员旧硇枰ㄟ^用戶使用來收集數(shù)據(jù)。

針對這個(gè)場景,中科院自動(dòng)化所就提出,能不能通過機(jī)器自動(dòng)去尋找這些提示語,讓整個(gè)模型的效果變得更好。因此他們提出了統(tǒng)一的提示語學(xué)習(xí)方法,可以同時(shí)建模任務(wù)級信息和樣本級信息。

這種學(xué)習(xí)方法的優(yōu)勢在于,它可以為每個(gè)任務(wù)學(xué)習(xí)以一個(gè)提示,為任務(wù)中的每個(gè)樣本學(xué)習(xí)一個(gè)提示,然后將兩類提示信息進(jìn)行融合,獲得最佳提示。

通過統(tǒng)一提示學(xué)習(xí)方法,中科院自動(dòng)化研究所的SuperGLEU標(biāo)準(zhǔn)數(shù)據(jù)集上取得少樣本學(xué)習(xí)的最佳平均性能。

其中,在單任務(wù)和句子分析上,Dyanmic-UPL獲得了83.2分,GPT-3則是70分。而在雙任務(wù)和雙句子的分析上,Dyanmic-UPL獲得70分,GPT-3是49.8分。

 

03 得到一個(gè)好答案,不如提出一個(gè)好問題

GPT-4依然在不斷突破著人們對AI認(rèn)知的可能性,對意圖理解的高度提升,并且不僅停留在語言上,更升維到圖像里。另外,它還擁有幾乎全能的專業(yè)和職業(yè)技巧,人類生物腦無法比擬的數(shù)據(jù)存儲(chǔ)容量、進(jìn)化速度。

這幾點(diǎn)加起來,就非??膳?。有網(wǎng)友就貼出了一張ChatGPT回答的圖片:

興奮之后,技術(shù)進(jìn)步帶來的總是焦慮。

18世紀(jì)60年代,當(dāng)珍妮機(jī)大規(guī)模進(jìn)入工廠拉開第一次工業(yè)革命的大幕時(shí),就曾有大批紡織工人聚集起來,將制作好的“珍妮機(jī)”通通搗毀。兩百多年后的今天,當(dāng)ChatGPT風(fēng)靡全球之后,人們爭相討論的焦點(diǎn)仍然是“誰將會(huì)被替代”的問題。

但實(shí)際上,“GPT”們要全面替代人可能并不容易。

我們會(huì)看到,ChatGPT能夠?qū)懽鳎軌蜃鲆?guī)劃,甚至能自動(dòng)編程、Stable Diffusion能夠完成AI繪畫,以及各種能自動(dòng)生成周報(bào),能寫詩的大模型和產(chǎn)品層出不窮。

但這些強(qiáng)大的能力背后仍然需要人去操作,這其中甚至需要人具備更多的專業(yè)知識。

比如在下面這張圖片生成中,創(chuàng)作者對AI的創(chuàng)作進(jìn)行了詳細(xì)的規(guī)劃,包括風(fēng)格、眼睛、衣服、甚至光線。

在這樣的限制下,AI就能發(fā)揮出比較穩(wěn)定的結(jié)果,生成出高水平的作品。而這些詞匯,在大模型的生成訓(xùn)練中被稱為“提示詞”,提示詞越準(zhǔn)確生成的結(jié)果越好。

從光錐智能獲得的一份關(guān)于AI繪畫的提示詞中可以看到,其中涉及到許多專業(yè)詞匯,比如東方山水畫、日本浮世繪、抽象風(fēng)、墨水渲染、概念藝術(shù)、哥特式黑暗等等。

可以看到,對這些詞匯背后的含義,用在繪畫上的效果以及如何搭配更富有美感,非專業(yè)人士其實(shí)并不容易掌握。

再以編程為例,普通人確實(shí)可以隨機(jī)讓ChatGPT編寫一條程序,但面對復(fù)雜APP時(shí),什么樣的提示詞能夠獲得最優(yōu)的代碼,系統(tǒng)整體代碼需要如何架構(gòu)、程序如何編寫運(yùn)行更有效率、AI生成的程序是否存在錯(cuò)誤等等,這些也并非普通人上手就能完成的。

也就是說,雖然GPT這類的大模型降低了許多工作的門檻,但這些工作的上限并沒有改變。即普通人能夠生成一些基礎(chǔ)的內(nèi)容,但要持續(xù)、穩(wěn)定、高質(zhì)量的生成專業(yè)內(nèi)容,對背后操作人員的專業(yè)性仍然具有挑戰(zhàn)。

比如在NLP大模型研發(fā)領(lǐng)域,由于不同提示語產(chǎn)生的結(jié)果往往差異很大,如何為每個(gè)問題尋找提示語成為難題。中科院自動(dòng)化所研究員張家俊提到,現(xiàn)在行業(yè)里出現(xiàn)了一個(gè)提示工程師的職業(yè),工作就是研究如何為每一個(gè)問題尋找最佳的提示語。

也就是說,在大模型應(yīng)用之后,許多人的工作不是被替代掉了,而是轉(zhuǎn)變了工作性質(zhì)和工作方式。比如畫師從具體動(dòng)手畫一幅畫轉(zhuǎn)變成提出想法、豐富細(xì)節(jié),然后讓AI去做執(zhí)行。

而這個(gè)過程本質(zhì)上是AI在作為一種工具去提高勞動(dòng)者的勞動(dòng)效率。但同時(shí),也是AI在反向給人類工作者提出更高的要求,即在AI能夠?qū)⒁恍┫敕ㄖ苯幼兂涩F(xiàn)實(shí)的背景下,相比于給出一個(gè)好的答案,不如提出一個(gè)好的問題。

正如李彥宏在文心一言發(fā)布會(huì)上提到的,隨著大模型的使用,腦力工作者的效率會(huì)有4倍的提升,許多人的工作性質(zhì)會(huì)發(fā)生不可逆轉(zhuǎn)的改變。

但不可否認(rèn)的是,隨著大模型的普及,大多數(shù)的現(xiàn)有工作和崗位配置的價(jià)值定位都需要重新思考。同時(shí)我們對于人才培養(yǎng)的標(biāo)準(zhǔn)、篩選模式都需要重新構(gòu)建。

畢竟GPT-4在考試中已經(jīng)能夠超過80%~90%的學(xué)生,如果僅僅依靠考試成績來篩選人才,那對于大多數(shù)崗位來說,不如選擇AI。

所以,在AI席卷的未來,人類工作者如何找到新的定位,不僅是某一個(gè)人的問題,也是整個(gè)社會(huì)的問題。

我們原本以為人工智能發(fā)展之后,優(yōu)先替代的會(huì)是簡單重復(fù)勞動(dòng),但技術(shù)人意外的是,它優(yōu)先替代的卻是有創(chuàng)造性卻又不那么強(qiáng)的崗位。

所以,至少目前而言,那些月薪幾萬的崗位可能會(huì)被替代,但你月薪3000搬磚的崗位暫時(shí)會(huì)比較牢靠。

畢竟,AI大模型也是有成本的,它可比你貴多了(Dog)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

百度

5.9k
  • 百度健康業(yè)務(wù)調(diào)整,楊明璐再次掛帥
  • 百度計(jì)劃在香港推出無人駕駛出租車服務(wù)

谷歌

6.4k
  • 谷歌宣布與凱羅斯電力公司簽署協(xié)議,將購買核電
  • 谷歌希望暫緩執(zhí)行第三方應(yīng)用商店開放令

評論

暫無評論哦,快來評價(jià)一下吧!

下載界面新聞

微信公眾號

微博

國產(chǎn)大模型,摸著OpenAI過河

讓“涌現(xiàn)現(xiàn)象”更有效率發(fā)生。

文|光錐智能 周文斌

編輯|王一粟

GPT-4驚艷亮相后,壓力來到百度這邊。

上臺(tái)后的李彥宏和百度CTO王海峰都略顯緊張,這在多年百度相關(guān)活動(dòng)中還是非常少見。李彥宏坦言,“文心一言對標(biāo)ChatGPT、甚至是對標(biāo)GPT-4,門檻是很高的。我自己測試感覺還是有很多不完美的地方。”

文心一言是一個(gè)大語言模型、生成式AI產(chǎn)品,發(fā)布會(huì)上演示了五個(gè)使用場景中的綜合能力。其中,文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算是大語言模型常見的能力,在此基礎(chǔ)上,中文理解及多模態(tài)生成能力更能體現(xiàn)技術(shù)水平。

到今日晚間,「光錐智能」拿到文心一言的內(nèi)測邀請碼,在提出多個(gè)問題測試之后我們發(fā)現(xiàn),文心一言與New Bing雖然有差距,但整體要比預(yù)期更好。比如在為商業(yè)訪談?lì)悪谀科鹈β逑O限的解釋上都十分完整。但同時(shí)也存在一些不足,比如在計(jì)算“同時(shí)抽水和放水”的數(shù)學(xué)問題時(shí),文心一言就出現(xiàn)了審題錯(cuò)誤。

金玉在前,百度在文心一言發(fā)布會(huì)召開后,無論是產(chǎn)品口碑,還是股價(jià)表現(xiàn),短期內(nèi)一定會(huì)有壓力。畢竟,世界上還只有一個(gè)OpenAI。

面對如此大的壓力,李彥宏回應(yīng)了為什么依然要在3月16日公開發(fā)布的原因:第一是市場需求,無論是百度的產(chǎn)品,還是客戶,都有需求。第二是收集反饋,“一旦有了真實(shí)的人類反饋,文心一言的進(jìn)步速度會(huì)非???,我們都希望它快點(diǎn)成長”。

事實(shí)上,在ChatGPT驚艷亮相之前,GPT的1~3版本,都是在長期低調(diào)開源測試后,才達(dá)到了后面的結(jié)果。

短期表現(xiàn)和長期價(jià)值還是有所不同,拋開情緒,我們更關(guān)心,文心一言和GPT-4在技術(shù)上有哪些相同和不同?模型真的是越大越好嗎?利用大模型的產(chǎn)業(yè)化之路,應(yīng)該怎么走?

01 “文心一言”對線“GPT-4”

文心一言在發(fā)布會(huì)上相對出彩的展示,莫過于多模態(tài)生成。

在發(fā)布會(huì)上,李彥宏先是讓文心一言為2023智能交通大會(huì)生成了一張海報(bào),然后又讓其撰寫了一段關(guān)于智能交通的文字,并讓其用四川話讀出來,最后還讓文心一言用這些素材生成了一段視頻。

昨天,在GPT-4的發(fā)布會(huì)上,Open AI總裁和聯(lián)合創(chuàng)始人Greg Brockman展示了GPT-4基于一張草圖生成網(wǎng)站的過程,讓許多人知道了大模型單模態(tài)與多模態(tài)的區(qū)別。

GPT-4是一個(gè)典型的多模態(tài)預(yù)訓(xùn)練模型,它能夠支持圖像和文本的輸入,然后以文本的方式輸出。而文心一言展示的則是以文本的方式輸入,以文本、語音、圖像和視頻的方式輸出。

輸入和輸出其實(shí)具有本質(zhì)上的區(qū)別。

有AI開發(fā)從業(yè)者向光錐智能表示,多模態(tài)輸出其實(shí)并不難,難的是輸入。比如輸出語音,不過是先輸出文字然后再加一個(gè)TTS技術(shù),已經(jīng)很成熟了。

而多模態(tài)輸入,則需要大模型真正“長出眼睛”讀懂圖片意思,需要在預(yù)訓(xùn)練階段就將圖片和圖片標(biāo)注信息放入訓(xùn)練數(shù)據(jù)中。

比如這次GPT-4令人驚艷的強(qiáng)大,就表現(xiàn)在圖片理解上。

給到一個(gè)物理題的照片,GPT-4能夠讀懂題目然后解答。

GPT-4還能識別圖片中的幽默部分,比如給GPT-4一個(gè)長相奇怪的充電器的圖片,問為什么這很可笑?GPT-4能回答說,因?yàn)閂GA線充iPhone。

但無論怎么說,從GPT-4到文心一言都在說明李彥宏的那句話,“多模態(tài)是生成式AI一個(gè)明確的發(fā)展趨勢?!?/p>

據(jù)王海峰介紹,文心一言主要脫胎于兩大模型,百度ERNIE系列知識增強(qiáng)千億大模型,以及百度大規(guī)模開放域?qū)υ捘P蚉LATO。

此基礎(chǔ)上,主要采用了六項(xiàng)核心技術(shù),包括監(jiān)督精調(diào)、人類反饋強(qiáng)化學(xué)習(xí)(RLHF)、提示構(gòu)建、知識增強(qiáng)、檢索增強(qiáng)和對話增強(qiáng)技術(shù)。

其中,人類反饋強(qiáng)化學(xué)習(xí)是目前大模型訓(xùn)練中普遍應(yīng)用到的技術(shù),ChatGPT能夠在GPT-3的基礎(chǔ)上產(chǎn)生質(zhì)變,成為跨時(shí)代的產(chǎn)品,很大程度上依賴于此。

這些技術(shù)中具有百度特色的主要是知識增強(qiáng)、檢索增強(qiáng)和對話增強(qiáng)技術(shù)。

其中,知識增強(qiáng)主要包含知識內(nèi)化和知識外用兩部分,知識內(nèi)化又包括語義學(xué)習(xí)和數(shù)據(jù)構(gòu)造,知識外用則包含知識推理和提示構(gòu)架。

這些技術(shù)又都基于百度的知識圖譜。所謂知識圖譜是一個(gè)宏大的數(shù)據(jù)模型,是指一個(gè)由世間萬物構(gòu)成的“實(shí)體”以及他們之間的“關(guān)系”構(gòu)建起來的龐大“知識”網(wǎng)絡(luò)。

百度CTO王海峰曾介紹,“百度構(gòu)建了世界上最大規(guī)模的知識圖譜,擁有超過50億實(shí)體,5500億事實(shí),能夠通過語言、聽覺、視覺等獲得對世界的統(tǒng)一認(rèn)知,突破了實(shí)際應(yīng)用中場景復(fù)雜多變、數(shù)據(jù)稀缺等難題?!?/p>

在這個(gè)知識圖譜中,除了基礎(chǔ)的通用圖譜之外,百度還針對不同的應(yīng)用場景和知識形態(tài),構(gòu)建了事件圖譜、多媒體圖譜、行業(yè)知識圖譜等多種圖譜。

檢索增強(qiáng)則與百度在搜索引擎上的技術(shù)積累有關(guān),簡單理解就是,當(dāng)用戶問出一個(gè)問題后,文心一言會(huì)先通過搜索引擎將知識都檢索一遍,然后再篩選整合其中有用的信息作為輸出。

最后的對話理解,則包含百度積累的記憶機(jī)制,上下文理解,對話規(guī)劃等等。

除了基礎(chǔ)技術(shù)架構(gòu),百度并沒有公布模型結(jié)構(gòu)和參數(shù),而是花了大量的時(shí)間用來解釋自己在文心大模型、產(chǎn)業(yè)大模型、AI技術(shù)四層構(gòu)架上的布局。

由于這都是此前積累的能力,因此這次文心一言的發(fā)布,不像是百度研發(fā)了一個(gè)新產(chǎn)品和新技術(shù),更像是百度將之前所有的工作打包,以文心一言的方式整合輸出。所以,我們會(huì)在文心一言里看到文心一格的圖片生成,會(huì)看到已經(jīng)在百家號應(yīng)用的自動(dòng)圖文轉(zhuǎn)視頻的功能。

就像李彥宏提到的一樣,“從某種意義上說,我們已經(jīng)為此準(zhǔn)備了多年,十幾年前就開始投入AI研究,2019年就推出了文心大語言模型,今天的文心一言是過去多年努力的延續(xù)?!?/p>

02 摸著OpenAI過河,讓“涌現(xiàn)現(xiàn)象”更有效率發(fā)生

雖然除了OpenAI,其他的公司目前都是others,但大家都在摸著GPT過河,在尋找更優(yōu)質(zhì)的模型方案。中國公司也一直在積極探索相應(yīng)大模型的研發(fā)和應(yīng)用,并總結(jié)出了許多“中國經(jīng)驗(yàn)”。

什么樣的模型是一個(gè)好模型?模型真的是越大越好嗎?

要回答這個(gè)問題,得先理解,ChatGPT和GPT-4能表現(xiàn)出類人的圖片和語言理解能力,就是因?yàn)椤坝楷F(xiàn)現(xiàn)象”,說得通俗一點(diǎn),就是“開竅了”。

涌現(xiàn)現(xiàn)象,是指在當(dāng)大模型的數(shù)規(guī)模達(dá)到一定程度時(shí),其解決問題的能力就會(huì)發(fā)生突變。大模型能力的提升,很大程度上依賴于這種涌現(xiàn)能力,也就是“大力出奇跡”。所以,現(xiàn)在模型規(guī)模被越做越大,一定程度上因?yàn)榇蠹蚁胍ㄟ^增大參數(shù)規(guī)模來獲得更多的涌現(xiàn)能力。

目前這一能力通常在百億、千億級別的參數(shù)區(qū)間出現(xiàn)?!暗唧w多少參數(shù)能夠出現(xiàn)涌現(xiàn)現(xiàn)象,也與具體任務(wù)、具體模型有關(guān),某些任務(wù)13B規(guī)模即可,有些任務(wù)需要540B,大部分要達(dá)到70B?!毙吕诵录夹g(shù)研發(fā)負(fù)責(zé)人張俊林提到。

但模型做大之后,卻又帶來產(chǎn)業(yè)落地方面的問題。比如更大的模型通常意味著更大的算力消耗,更高的部署成本,這讓一些垂類領(lǐng)域,如學(xué)校,醫(yī)院等場景很難負(fù)擔(dān)得起。

因此,在產(chǎn)生“涌現(xiàn)能力”的閾值后,如何將模型做“小”反而是產(chǎn)業(yè)落地的一個(gè)重要課題,并且也是技術(shù)發(fā)展的一個(gè)重要方向。

那么問題來了,如何既將模型做小,又能保證涌現(xiàn)能力呢?

張俊林提到幾個(gè)例子,比如DeepMind發(fā)布的Chinchilla和Meta發(fā)布的LLaMA,其中Chinchilla的模型規(guī)模只有70B,LLaMA的模型規(guī)模在7B到65B之間,都是目前規(guī)模相對較小的模型。

而從實(shí)驗(yàn)結(jié)果上看,即使模型規(guī)模相對較小也同樣可以具備涌現(xiàn)能力,但前提是增加更多的訓(xùn)練數(shù)據(jù)量。以Chinchilla為例,其對標(biāo)的模型規(guī)模是280B是Gopher,而Chinchilla能夠以70B的參數(shù)規(guī)模做出同樣的效果,代價(jià)是將訓(xùn)練數(shù)據(jù)提升了4倍。

因此,張俊林認(rèn)為:“減小模型大小增加訓(xùn)練數(shù)據(jù)數(shù)量,可能不影響小模型的涌現(xiàn)能力?!边@成為做小模型的一個(gè)前提?!霸谶@樣的基礎(chǔ)上,我們或許可以先做小,再做大。”

在解決了涌現(xiàn)能力之外,將模型做小的另一個(gè)原因在于,現(xiàn)在大模型的許多參數(shù)其實(shí)并沒有被有效利用。

DeepMind在2022年的一個(gè)研究中提到,在給定總計(jì)算量不變的情況下,模型訓(xùn)練Loss在模型參數(shù)量和訓(xùn)練數(shù)據(jù)量的變化存在一個(gè)最優(yōu)的平衡點(diǎn)。

該研究給出了三種最優(yōu)計(jì)算方式,并且比較了GPT-3等千億模型,發(fā)現(xiàn)它們都沒有達(dá)到理論上的最優(yōu)點(diǎn),這意味著GPT-3龐大的數(shù)據(jù)其實(shí)并沒有被充分利用。

達(dá)觀數(shù)據(jù)董事長CEO陳運(yùn)文認(rèn)為,當(dāng)下的千億參數(shù)模型可能只發(fā)揮了百億模型的理論效果,一些參數(shù)可能被浪費(fèi)了。換句話說,千億規(guī)模的大模型其實(shí)是可以壓縮,并做得更小的。

Meta在這方面就曾做過嘗試,2023年Meta推出百億規(guī)模的模型LLaMA,雖然參數(shù)規(guī)模只有百億,不到GPT-3的十分之一,但通過實(shí)驗(yàn)顯示在下游任務(wù)中的表現(xiàn)好于GPT-3等千億規(guī)模的模型。這其中的關(guān)鍵在于,Meta使用了1.4萬億Token,是GPT-3的近4.7倍。

所以陳運(yùn)文也認(rèn)為,“整體來看盡管模型的參數(shù)規(guī)模越大越好,但性價(jià)比更高的參數(shù)規(guī)模方案仍然值得探索?!?/p>

除了將“大”模型做“小”更利于產(chǎn)業(yè)落地之外,通過更新指令學(xué)習(xí)方法,用更小的樣本獲得更好的學(xué)習(xí)效果也是目前國內(nèi)在探索的方向。

做這樣的探索也和目前中文產(chǎn)業(yè)面臨的客觀環(huán)境有關(guān)。一方面,中文數(shù)據(jù)在整個(gè)互聯(lián)網(wǎng)中的占比本身就比較小,僅有5%左右。另一方面,即使數(shù)量龐大的英文數(shù)據(jù)在模型爆炸的今天也面臨著即將被耗盡的問題。

有研究預(yù)計(jì),互聯(lián)網(wǎng)上可用的數(shù)據(jù)資源很有可能會(huì)被耗盡,其中高質(zhì)量的語言數(shù)據(jù)大約在2026年耗盡,低質(zhì)量語言數(shù)據(jù)大約在2050年耗盡,視覺圖像數(shù)據(jù)也將在2060年耗盡。

因此,如何提高數(shù)據(jù)的利用效率成為一個(gè)重要的課題。

目前,AI大模型的理解能力主要來源于兩個(gè)方面,即“預(yù)訓(xùn)練+參數(shù)微調(diào)”以及“預(yù)訓(xùn)練+提示學(xué)習(xí)”,這兩個(gè)學(xué)習(xí)方式各有優(yōu)劣。

其中“預(yù)訓(xùn)練+參數(shù)微調(diào)”會(huì)面臨資源占用過多,過擬合問題嚴(yán)重,缺乏通用能力等問題。而提示學(xué)習(xí)也有單一的外部提示信號難以最大限度地激發(fā)預(yù)訓(xùn)練大模型的能力,從而高質(zhì)量地完成具體任務(wù)的問題。

在這樣的背景下,行業(yè)提出了從提示學(xué)習(xí)到指令學(xué)習(xí)的改變。

所謂指令學(xué)習(xí),是指通過若干任務(wù)相關(guān)提示增強(qiáng)來監(jiān)督數(shù)據(jù),優(yōu)化模型參數(shù)。即通過參數(shù)微調(diào)提升多任務(wù)執(zhí)行效果,利用提示語出發(fā)模型執(zhí)行特定任務(wù)。

其核心在于,它仍然像微調(diào)一樣調(diào)整其中的參數(shù)來使大模型適應(yīng)不同的任務(wù),但調(diào)整完成之后的模型是一樣的,所有的任務(wù)都可以對應(yīng)一個(gè)模型。

有了這樣的調(diào)整,對大模型的訓(xùn)練效率就會(huì)提升。

比如在Google的一個(gè)案例中,他們在62個(gè)數(shù)據(jù)集中的40個(gè)任務(wù)進(jìn)行訓(xùn)練。但模型參數(shù)達(dá)到百億規(guī)模之后,這幾十個(gè)參數(shù)的聯(lián)合指令學(xué)習(xí)卻可以解決許多之前未訓(xùn)練的問題。

在這之前,大家普遍應(yīng)用的是多任務(wù)學(xué)習(xí),即學(xué)習(xí)一個(gè)任務(wù)解決一個(gè)任務(wù),沒有學(xué)習(xí)過的任務(wù)就沒法解決。而在這之后,一些之前沒有訓(xùn)練過的任務(wù)也能夠被解決,即大模型的通用能力在增強(qiáng)。

但要實(shí)現(xiàn)這個(gè)問題,找到合適的指令就變得非常重要,畢竟不同的任務(wù)、不同的樣本、用什么樣的提示語才能獲得更好結(jié)果是需要去嘗試的。

這也是OpenAI選擇免費(fèi)開放ChatGPT的一個(gè)重要原因,因?yàn)樗枰ㄟ^這種方式收集全球的問題指令,來完成大模型的進(jìn)一步優(yōu)化。

李彥宏也在文心一言發(fā)布會(huì)上提到,之所以選擇在這個(gè)時(shí)候發(fā)布文心一言,除了許多業(yè)務(wù)和客戶需要這項(xiàng)技術(shù)外,也因?yàn)槲男囊谎员旧硇枰ㄟ^用戶使用來收集數(shù)據(jù)。

針對這個(gè)場景,中科院自動(dòng)化所就提出,能不能通過機(jī)器自動(dòng)去尋找這些提示語,讓整個(gè)模型的效果變得更好。因此他們提出了統(tǒng)一的提示語學(xué)習(xí)方法,可以同時(shí)建模任務(wù)級信息和樣本級信息。

這種學(xué)習(xí)方法的優(yōu)勢在于,它可以為每個(gè)任務(wù)學(xué)習(xí)以一個(gè)提示,為任務(wù)中的每個(gè)樣本學(xué)習(xí)一個(gè)提示,然后將兩類提示信息進(jìn)行融合,獲得最佳提示。

通過統(tǒng)一提示學(xué)習(xí)方法,中科院自動(dòng)化研究所的SuperGLEU標(biāo)準(zhǔn)數(shù)據(jù)集上取得少樣本學(xué)習(xí)的最佳平均性能。

其中,在單任務(wù)和句子分析上,Dyanmic-UPL獲得了83.2分,GPT-3則是70分。而在雙任務(wù)和雙句子的分析上,Dyanmic-UPL獲得70分,GPT-3是49.8分。

 

03 得到一個(gè)好答案,不如提出一個(gè)好問題

GPT-4依然在不斷突破著人們對AI認(rèn)知的可能性,對意圖理解的高度提升,并且不僅停留在語言上,更升維到圖像里。另外,它還擁有幾乎全能的專業(yè)和職業(yè)技巧,人類生物腦無法比擬的數(shù)據(jù)存儲(chǔ)容量、進(jìn)化速度。

這幾點(diǎn)加起來,就非常可怕。有網(wǎng)友就貼出了一張ChatGPT回答的圖片:

興奮之后,技術(shù)進(jìn)步帶來的總是焦慮。

18世紀(jì)60年代,當(dāng)珍妮機(jī)大規(guī)模進(jìn)入工廠拉開第一次工業(yè)革命的大幕時(shí),就曾有大批紡織工人聚集起來,將制作好的“珍妮機(jī)”通通搗毀。兩百多年后的今天,當(dāng)ChatGPT風(fēng)靡全球之后,人們爭相討論的焦點(diǎn)仍然是“誰將會(huì)被替代”的問題。

但實(shí)際上,“GPT”們要全面替代人可能并不容易。

我們會(huì)看到,ChatGPT能夠?qū)懽鳎軌蜃鲆?guī)劃,甚至能自動(dòng)編程、Stable Diffusion能夠完成AI繪畫,以及各種能自動(dòng)生成周報(bào),能寫詩的大模型和產(chǎn)品層出不窮。

但這些強(qiáng)大的能力背后仍然需要人去操作,這其中甚至需要人具備更多的專業(yè)知識。

比如在下面這張圖片生成中,創(chuàng)作者對AI的創(chuàng)作進(jìn)行了詳細(xì)的規(guī)劃,包括風(fēng)格、眼睛、衣服、甚至光線。

在這樣的限制下,AI就能發(fā)揮出比較穩(wěn)定的結(jié)果,生成出高水平的作品。而這些詞匯,在大模型的生成訓(xùn)練中被稱為“提示詞”,提示詞越準(zhǔn)確生成的結(jié)果越好。

從光錐智能獲得的一份關(guān)于AI繪畫的提示詞中可以看到,其中涉及到許多專業(yè)詞匯,比如東方山水畫、日本浮世繪、抽象風(fēng)、墨水渲染、概念藝術(shù)、哥特式黑暗等等。

可以看到,對這些詞匯背后的含義,用在繪畫上的效果以及如何搭配更富有美感,非專業(yè)人士其實(shí)并不容易掌握。

再以編程為例,普通人確實(shí)可以隨機(jī)讓ChatGPT編寫一條程序,但面對復(fù)雜APP時(shí),什么樣的提示詞能夠獲得最優(yōu)的代碼,系統(tǒng)整體代碼需要如何架構(gòu)、程序如何編寫運(yùn)行更有效率、AI生成的程序是否存在錯(cuò)誤等等,這些也并非普通人上手就能完成的。

也就是說,雖然GPT這類的大模型降低了許多工作的門檻,但這些工作的上限并沒有改變。即普通人能夠生成一些基礎(chǔ)的內(nèi)容,但要持續(xù)、穩(wěn)定、高質(zhì)量的生成專業(yè)內(nèi)容,對背后操作人員的專業(yè)性仍然具有挑戰(zhàn)。

比如在NLP大模型研發(fā)領(lǐng)域,由于不同提示語產(chǎn)生的結(jié)果往往差異很大,如何為每個(gè)問題尋找提示語成為難題。中科院自動(dòng)化所研究員張家俊提到,現(xiàn)在行業(yè)里出現(xiàn)了一個(gè)提示工程師的職業(yè),工作就是研究如何為每一個(gè)問題尋找最佳的提示語。

也就是說,在大模型應(yīng)用之后,許多人的工作不是被替代掉了,而是轉(zhuǎn)變了工作性質(zhì)和工作方式。比如畫師從具體動(dòng)手畫一幅畫轉(zhuǎn)變成提出想法、豐富細(xì)節(jié),然后讓AI去做執(zhí)行。

而這個(gè)過程本質(zhì)上是AI在作為一種工具去提高勞動(dòng)者的勞動(dòng)效率。但同時(shí),也是AI在反向給人類工作者提出更高的要求,即在AI能夠?qū)⒁恍┫敕ㄖ苯幼兂涩F(xiàn)實(shí)的背景下,相比于給出一個(gè)好的答案,不如提出一個(gè)好的問題。

正如李彥宏在文心一言發(fā)布會(huì)上提到的,隨著大模型的使用,腦力工作者的效率會(huì)有4倍的提升,許多人的工作性質(zhì)會(huì)發(fā)生不可逆轉(zhuǎn)的改變。

但不可否認(rèn)的是,隨著大模型的普及,大多數(shù)的現(xiàn)有工作和崗位配置的價(jià)值定位都需要重新思考。同時(shí)我們對于人才培養(yǎng)的標(biāo)準(zhǔn)、篩選模式都需要重新構(gòu)建。

畢竟GPT-4在考試中已經(jīng)能夠超過80%~90%的學(xué)生,如果僅僅依靠考試成績來篩選人才,那對于大多數(shù)崗位來說,不如選擇AI。

所以,在AI席卷的未來,人類工作者如何找到新的定位,不僅是某一個(gè)人的問題,也是整個(gè)社會(huì)的問題。

我們原本以為人工智能發(fā)展之后,優(yōu)先替代的會(huì)是簡單重復(fù)勞動(dòng),但技術(shù)人意外的是,它優(yōu)先替代的卻是有創(chuàng)造性卻又不那么強(qiáng)的崗位。

所以,至少目前而言,那些月薪幾萬的崗位可能會(huì)被替代,但你月薪3000搬磚的崗位暫時(shí)會(huì)比較牢靠。

畢竟,AI大模型也是有成本的,它可比你貴多了(Dog)。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。