文|經(jīng)緯創(chuàng)投
開源大模型的王座又要換人了。
當(dāng)?shù)貢r間4月18日,Meta發(fā)布了其最新開源模型Llama 3,提供8B和70B的預(yù)訓(xùn)練和指令微調(diào)版本,號稱是最強大的開源大語言模型。
與此同時,扎克伯格宣布:基于最新的 Llama 3 模型,Meta 的 AI 助手現(xiàn)在已經(jīng)覆蓋 Instagram、WhatsApp、Facebook 等全系應(yīng)用,并單獨開啟了網(wǎng)站。另外還有一個圖像生成器,可根據(jù)自然語言提示詞生成圖片。
該消息一經(jīng)發(fā)出瞬間引起熱議。英偉達高級科學(xué)家Jim Fan認為,之后可能會發(fā)布的Llama 3-400B以上的版本,將成為某種“分水嶺”,開源社區(qū)或?qū)⒛苡蒙螱PT-4級別的模型。
同時,扎克伯格表示,“我們的目標不是與開源模型競爭,而是要超過所有人,打造最領(lǐng)先的人工智能?!蔽磥?,Meta團隊將會公布Llama 3的技術(shù)報告,披露模型更多的細節(jié)。
那么,作為以開源特性聞名的語言模型,Llama 3和其他模型有哪些不一樣?在過往的基礎(chǔ)上有哪些更新?開源和閉源之爭,什么才是背后的決定因素?以下,Enjoy:
01 新一代Llama3模型,有哪些亮點?
當(dāng)?shù)貢r間4月18日,Meta不負眾望發(fā)布了兩款開源Llama 3 8B與Llama 3 70B模型。并稱這是同等體量下,性能最好的開源模型。
號稱一代更比一代強的Llama 3 8B,在部分性能測試上甚至比Llama 2 70B還要強大。無論是預(yù)訓(xùn)練還是指令微調(diào),都展現(xiàn)出更靈活易用的特點。
這也受益于Meta在研發(fā)Llama 3 過程中,設(shè)計的一套更高質(zhì)量的人類評估標準。1800個測試項、12個主要應(yīng)用場景,囊括了角色扮演、邏輯推理、開放/封閉式問題等多項標準。
基于這一評估標準,相較于Claude Sonnet、Mistral Medium 以及 GPT-3.5 模型,Meta Llama3的提升可見一斑。
備受矚目的Meta Llama3,將精力集中在四大核心要素:模型架構(gòu)、預(yù)訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練規(guī)模、指令微調(diào)。
模型架構(gòu):
與前一代Llama2相比,Llama3進行了關(guān)鍵性能改進。首先,Llama3采用128K token的分詞器,以提高編碼語言效率;其次,8B和70B規(guī)模模型采用GQA技術(shù),最多可以處理8192個Token序列,并且通過掩碼技術(shù)規(guī)范模型的自注意力機制,以防跨越不同文檔界限。
訓(xùn)練數(shù)據(jù):
與前一代Llama2相比,Llama3的訓(xùn)練集規(guī)模擴大了7倍、代碼數(shù)據(jù)量增加了4倍,在預(yù)訓(xùn)練數(shù)據(jù)投入了更多資源,基于超過15T 的 Token,覆蓋了超30種語言。并且,訓(xùn)練過程中,為保障優(yōu)質(zhì)數(shù)據(jù),還打造了包含應(yīng)用啟發(fā)式過濾器、NSFW 內(nèi)容過濾、語義去重技術(shù)和文本質(zhì)量分類器等一系列高效數(shù)據(jù)過濾流程。
訓(xùn)練規(guī)模:
訓(xùn)練數(shù)據(jù)的提升使訓(xùn)練規(guī)模也需要跟上節(jié)奏。為挑選出最佳的數(shù)據(jù)處理方案,Llama 3 制定了一套詳盡的 Scaling Laws以確保多場景下的能力表現(xiàn)。
為訓(xùn)練目前為止最大規(guī)格的Llama 3 模型,Meta采用了三種并行技術(shù):數(shù)據(jù)并行、模型并行和流水線并行。以此達到在16K的GPU上同時訓(xùn)練,最高效可以實現(xiàn)每個GPU超400TFLOPS的計算利用率。
總體而言,相較Llama 2 ,Llama 3 的訓(xùn)練效率提升了大約三倍。
指令微調(diào):
為了提高聊天應(yīng)用場景的效能,Llama 3 還通過指令微調(diào)的辦法完成創(chuàng)新性改進。關(guān)于Llama 3的訓(xùn)練策略融合了監(jiān)督式微調(diào)、拒絕抽樣、近端策略優(yōu)化和直接策略優(yōu)化等多種技術(shù),以此提升 Llama 3 在邏輯推理和編程任務(wù)上的表現(xiàn)。
針對“瘋狂”的Llama 3,科技大佬紛紛現(xiàn)身,發(fā)表意見。 在Yann LeCun 為 Llama 3 的發(fā)布搖旗吶喊的帖子下,馬斯克現(xiàn)身該評論區(qū),留下一句「Not bad 」,表達認可和期待。
英偉達高級科學(xué)家Jim Fan稱,“ Llama-3-400B+ 將標志著社區(qū)獲得 GPT-4 級模型的開放權(quán)重訪問權(quán)的分水嶺時刻。它將改變許多研究工作和草根初創(chuàng)公司的計算方式。我在 Claude 3 Opus、GPT-4-2024-04-09 和 Gemini 上拉了數(shù)據(jù),Llama-3-400B仍在訓(xùn)練中,希望在接下來的幾個月里會變得更好。有如此多的研究潛力可以通過如此強大的能力釋放,期待整個生態(tài)系統(tǒng)的建設(shè)者能量激增!”
傳奇研究員,AI開源倡導(dǎo)者吳恩達表示:“Llama 3的發(fā)布是自己這輩子收到過的最好的禮物,謝謝你Meta!”
小扎則表示,“我們的目標不僅僅是與開源模型競爭,而是要超過所有人,打造最領(lǐng)先的人工智能?!?/p>
根據(jù)Meta AI的工程師Aston Zhang透露,未來Llama 3還會解鎖新的能力,比如多模態(tài)、以及性能更強的400B版本。
Meta自己也放了隱藏小彩蛋:“您很快就可以在我們的 Ray-Ban Meta 智能眼鏡上測試多模式 Meta AI。一如既往,我們期待看到您使用 Meta Llama 3 構(gòu)建的所有令人驚嘆的產(chǎn)品和體驗?!?/p>
“通過 Llama 3,我們著手構(gòu)建與當(dāng)今最好的專有模型相媲美的最佳開放模型,”Meta強調(diào),“我們致力于開放 AI 生態(tài)系統(tǒng)的持續(xù)增長和發(fā)展,以負責(zé)任地發(fā)布我們的模型。我們長期以來一直相信,開放可以帶來更好、更安全的產(chǎn)品、更快的創(chuàng)新以及更健康的整體市場。這對 Meta 有利,對社會也有利?!?/p>
02 從“開源先鋒”到商業(yè)版圖,Meta在走什么樣的路?
比起過往兩款產(chǎn)品,Llama3模型顯然更走心。但回顧過去,Meta其實一直在擁抱開源文化——技術(shù)的開放性,不僅激發(fā)了學(xué)術(shù)界的熱情,研究人員得以快速迭代和創(chuàng)新,共同推動AI技術(shù)的快速進步,更開拓了商品化的可能,讓AI從一個單獨的技術(shù),變成一種生態(tài)。
2023年2月,人們對于AI語言模型的想象還沒有那么豐富時,Meta就發(fā)布了首個開源大型語言模型Llama 1,參數(shù)規(guī)模從7B到65B不等。作為是第一個向?qū)W術(shù)界開源的模型,Meta在訓(xùn)練這些模型使用了數(shù)萬億個token,并且證明了完全可以只使用公開可得的數(shù)據(jù)集來訓(xùn)練最先進的模型,而無需使用專有和不可獲取的數(shù)據(jù)集。
Llama 1時代,推理速度和性能,是Meta的第一追求。在訓(xùn)練模型時,為滿足模型在推理部署時的性能和要求,推理速度和推理性能變得至關(guān)重要。因此,LLaMA選擇用更小的模型,以及更多的數(shù)據(jù)集來進行預(yù)訓(xùn)練。
有意思的是,通過使用更小的模型和更多的數(shù)據(jù)集進行訓(xùn)練,Meta的科學(xué)家和工程師們同樣實現(xiàn)了幾乎最先進的性能。這意味著,在不犧牲性能的情況下,降低訓(xùn)練成本和時間,反而能更快推動AI技術(shù)的發(fā)展。
這樣的發(fā)現(xiàn)顯然也為AI領(lǐng)域的研究人員和開發(fā)者提供了新可能。過去,人們普遍認為只有通過不斷增加模型的大小才能獲得更好的性能,然而,Llama第一代的問世,不僅兼顧了推理性能的需求,更證明了這種觀點并不完全正確——在追求更高、更快、更強的AI技術(shù)時成本可以更低,結(jié)果可能更好。
但對于Meta的開源之路來說,這只是一個開始。
發(fā)布Llama不到半年后,Meta很快做出了一個新決定:商業(yè)化。
2023年7月,Meta決定將LLMs推向更廣泛的商業(yè)應(yīng)用場景。在新一代Llama2模型中,上下文窗口得到擴大,參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)量大幅提升,同時針對聊天場景的能力得到了優(yōu)化——這些能力的提升,共同為免費可商用的創(chuàng)業(yè)和企業(yè)界應(yīng)用提供了可能。
為了讓商業(yè)化的場景更多元,Llama 2還著重布局了產(chǎn)品的社區(qū)力量。通過打造社區(qū)合作和衍生產(chǎn)品,開發(fā)者和研究人員共同協(xié)作,在GitHub和其他平臺上交流,并為Llama 2提供了無數(shù)的衍生產(chǎn)品和優(yōu)化,這樣的合作式開發(fā)模式,不僅加速了模型的改進,還激發(fā)了更多關(guān)于安全性、可控性和道德性的探討,更重要的是,讓開源大模型的商業(yè)化,變得有更多途徑和應(yīng)用。
而走到第三代開源模型產(chǎn)品,Meta的目標是打造一款完美的類“GPT”產(chǎn)品,但又要比GPT更加開放、有效。在新模型發(fā)布的前幾個月,Meta 內(nèi)部的生成式 AI 部門的員工一直在努力使 Llama 3 在回答有爭議的問題上更開放,此前 Meta 的領(lǐng)導(dǎo)就曾認為 Llama 2 在其回答中過于保守。
此外,在算力的投入上,Meta也一直在AI基礎(chǔ)設(shè)施上有所布局,據(jù)悉,目前只有微軟擁有與之相當(dāng)?shù)挠嬎隳芰?。根?jù),Meta發(fā)布的一篇技術(shù)博客,到2024年底,該公司將再購350000個英偉達H100 GPU,算上其他GPU,其算力相當(dāng)于近600000個H100。
從最初有關(guān)“開源”的先鋒暢想,到今天第三代的開放社區(qū)和多元嘗試,Meta在走的是不是一條成功的路,無法斷言,但可以確定的是,有關(guān)大語言模型的商業(yè)化嘗試,也許能給AI世界,開啟一個更接近生活的未來。
03 “開源”VS“閉源”,市場怎么看?
此次Meta發(fā)布的Llama3,延續(xù)了Meta一貫堅持的開源路線。
目前,開源模型界的競爭正在變得愈發(fā)激烈,開源大模型也已成為多家爭做的關(guān)鍵。目前,除了Meta的Llama3外,谷歌的Gemma、馬斯克旗下的xAI、Mistral AI、StabilityAI等產(chǎn)品,共同構(gòu)成了開源模型的廣闊市場。
就在Llama3發(fā)布的幾個月前,2 月 21 日,谷歌推出了全新的開源模型系列「Gemma」。相比 Gemini,Gemma 更加輕量,可以視作 Gemini 的技術(shù)下放,同時保持免費可用,模型權(quán)重也一并開源且允許商用,更可以在筆記本電腦、臺式機、物聯(lián)網(wǎng)、移動設(shè)備和云端等多個主流設(shè)備類型上運行。
而一直愛好“追逐潮流”的馬斯克,當(dāng)然也沒有放過開源的風(fēng)口。xAI推出的開源模型,專注于實現(xiàn)高效的機器學(xué)習(xí)算法。其大模型致力于提供更快速、節(jié)能的AI解決方案,以適應(yīng)不斷增長的計算需求和環(huán)境友好性的挑戰(zhàn)。在應(yīng)用方面,其也旨在通過優(yōu)化算法和模型設(shè)計來降低大型語言模型的訓(xùn)練成本,從而推動更廣泛的研究和應(yīng)用。
同樣作為致力于創(chuàng)建對話式人工智能模型的公司,Mistral AI的開源模型通常專注于自然語言處理(NLP)任務(wù),如文本生成、情感分析和語言理解。他們提供的模型往往強調(diào)多語言支持和跨域功能,使它們能夠在全球范圍內(nèi)的不同應(yīng)用場景中發(fā)揮作用。Mistral AI的模型旨在通過高度的定制能力和可擴展性,幫助企業(yè)解決復(fù)雜的NLP問題。
在圖像生成方面,StabilityAI因為其開源的穩(wěn)定擴散模型而聞名。這些模型使用概率性方法來生成數(shù)據(jù)分布,特別適用于圖像生成、藝術(shù)創(chuàng)作和數(shù)據(jù)增強等任務(wù),通過提供易于使用的開源工具,讓更多創(chuàng)作者和開發(fā)者參與到生成性AI領(lǐng)域的創(chuàng)新中來。
可以看到的是,多家科技巨頭入局開源模型,意味著更多人愿意為構(gòu)建一個更加智能、互聯(lián)的世界貢獻力量。然而,盡管開源模型帶來的開放性、協(xié)同性,讓大語言模型的發(fā)展不斷加速,但與此同時,有關(guān)AI技術(shù)安全性和可控性的探討,也比以往更加激烈。
對開源模型的爭議,AI三巨頭之一的楊立昆Yann LeCun給予了有理有據(jù)的回應(yīng),科學(xué)論文、代碼的自由交換以及AI訓(xùn)練模型的公開共享使美國在科學(xué)技術(shù)領(lǐng)域保持領(lǐng)先地位。這個理念并非新穎,很久以前就有了。所以,開源技術(shù)推動了我們現(xiàn)在視為基礎(chǔ)設(shè)施的系統(tǒng),例如互聯(lián)網(wǎng)和移動通信網(wǎng)絡(luò),取得了快速進步。
這并不意味著每個模型都可以或應(yīng)該開放。專有模型和開源模型都有其作用,但開源基礎(chǔ)模型應(yīng)該是構(gòu)建活力四射的生態(tài)系統(tǒng)的基石。開源模型創(chuàng)建了行業(yè)標準,就像90年代中期的互聯(lián)網(wǎng)模型一樣。通過這種協(xié)作努力,AI技術(shù)將更快地發(fā)展,變得更加可靠、更加安全。
同時,開源還為企業(yè)和研究人員提供了他們無法自行構(gòu)建的工具,這有助于創(chuàng)造大量的社會和經(jīng)濟機會。換句話說,開源實現(xiàn)了對訪問的民主化。它讓更多的人和企業(yè)有能力利用最先進的技術(shù),并彌補潛在的弱點。這也有助于促進民主價值觀和制度,減少社會差距并改善競爭。
而反對開源的一派認為,開源AI會被不良行為者操縱。來自麻省理工學(xué)院和劍橋大學(xué)的科學(xué)家們曾發(fā)表過一篇論文,他們通過實驗研究了持續(xù)模型權(quán)重的擴散是否會幫助惡意者利用更強大的未來模型來造成大規(guī)模傷害,結(jié)果發(fā)現(xiàn),開源大模型的確可能存在風(fēng)險。Anthropic 公司研究人員也曾發(fā)表論文警告稱,AI中毒可能導(dǎo)致開源大模型變成潛伏的間諜。
開源和閉源之爭,漸漸演變成一場宗教般的信仰之爭,很難有人保持中立??墒?,未來真如游戲《賽博朋克2077》那般,超級科技巨頭荒坂集團掌控著大部分國家的政府及經(jīng)濟命脈,滲透進所有人生活的每個角落。那么,如果AI只掌控在幾家科技公司手中,什么才是正確的答案?
對今天的世界來說,AI的技術(shù)發(fā)展是變革性的。一次次對于創(chuàng)新、商業(yè)化的“見證”,可能才是市場最需要的東西。
此次,Meta新一代Llama3模型發(fā)布,讓大語言模型的多模態(tài)能力、生態(tài)化,有了更進一步的革新。
更重要的是在一次次的更迭中,我們站在科技變革的門檻上,得以窺見AI技術(shù)已經(jīng)不再是冰冷的算法和數(shù)據(jù)的堆砌,而是擁有了更多元的感知能力和更為精準的社會理解。它預(yù)示著,未來的人工智能將更深入地融入我們的生活。這樣的融入,也許在開源與閉源的辯論聲中,顯得有些暗淡,但在此刻,聽到不同的聲音和立場,感受技術(shù)進步帶來的激烈碰撞,也許才是科技本身的意義。
參考資料:
1.Llama生態(tài)系統(tǒng):過去、現(xiàn)在和未來 by Web3天空之城
2.LLaMA 1 模型架構(gòu)、預(yù)訓(xùn)練、部署優(yōu)化特點總結(jié) by NewBee NLP 3.Llama 2 技術(shù)細節(jié),來自Meta的最強可商用開源大模型 by 子非AI
4.Meta確認開源大模型LLaMA 3下個月登場,年底還將建成等同于60萬個H100 GPU的“超級算力庫” by 每日經(jīng)濟新聞
5.李彥宏給開源大模型潑冷水,他們卻有不同看法 by 第一財經(jīng)
6.ChatGPT vs LLaMa 2 差異性對比 by twt企業(yè)AI社區(qū)
7.Llama 3 發(fā)布!目前最強開源大模型,全面登陸 Meta 系產(chǎn)品,即將推出 4000 億模型 by Founder Park