正在閱讀:

Meta Llama 3震撼發(fā)布,科技大佬紛紛圍觀點(diǎn)贊

掃一掃下載界面新聞APP

Meta Llama 3震撼發(fā)布,科技大佬紛紛圍觀點(diǎn)贊

一次次對(duì)于創(chuàng)新、商業(yè)化的“見(jiàn)證”,可能才是市場(chǎng)最需要的東西。

圖片來(lái)源:界面新聞 匡達(dá)

文|經(jīng)緯創(chuàng)投

開(kāi)源大模型的王座又要換人了。

當(dāng)?shù)貢r(shí)間4月18日,Meta發(fā)布了其最新開(kāi)源模型Llama 3,提供8B和70B的預(yù)訓(xùn)練和指令微調(diào)版本,號(hào)稱是最強(qiáng)大的開(kāi)源大語(yǔ)言模型。

與此同時(shí),扎克伯格宣布:基于最新的 Llama 3 模型,Meta 的 AI 助手現(xiàn)在已經(jīng)覆蓋 Instagram、WhatsApp、Facebook 等全系應(yīng)用,并單獨(dú)開(kāi)啟了網(wǎng)站。另外還有一個(gè)圖像生成器,可根據(jù)自然語(yǔ)言提示詞生成圖片。

該消息一經(jīng)發(fā)出瞬間引起熱議。英偉達(dá)高級(jí)科學(xué)家Jim Fan認(rèn)為,之后可能會(huì)發(fā)布的Llama 3-400B以上的版本,將成為某種“分水嶺”,開(kāi)源社區(qū)或?qū)⒛苡蒙螱PT-4級(jí)別的模型。

同時(shí),扎克伯格表示,“我們的目標(biāo)不是與開(kāi)源模型競(jìng)爭(zhēng),而是要超過(guò)所有人,打造最領(lǐng)先的人工智能?!蔽磥?lái),Meta團(tuán)隊(duì)將會(huì)公布Llama 3的技術(shù)報(bào)告,披露模型更多的細(xì)節(jié)。

那么,作為以開(kāi)源特性聞名的語(yǔ)言模型,Llama 3和其他模型有哪些不一樣?在過(guò)往的基礎(chǔ)上有哪些更新?開(kāi)源和閉源之爭(zhēng),什么才是背后的決定因素?以下,Enjoy:

01 新一代Llama3模型,有哪些亮點(diǎn)?

當(dāng)?shù)貢r(shí)間4月18日,Meta不負(fù)眾望發(fā)布了兩款開(kāi)源Llama 3 8B與Llama 3 70B模型。并稱這是同等體量下,性能最好的開(kāi)源模型。

號(hào)稱一代更比一代強(qiáng)的Llama 3 8B,在部分性能測(cè)試上甚至比Llama 2 70B還要強(qiáng)大。無(wú)論是預(yù)訓(xùn)練還是指令微調(diào),都展現(xiàn)出更靈活易用的特點(diǎn)。

這也受益于Meta在研發(fā)Llama 3 過(guò)程中,設(shè)計(jì)的一套更高質(zhì)量的人類(lèi)評(píng)估標(biāo)準(zhǔn)。1800個(gè)測(cè)試項(xiàng)、12個(gè)主要應(yīng)用場(chǎng)景,囊括了角色扮演、邏輯推理、開(kāi)放/封閉式問(wèn)題等多項(xiàng)標(biāo)準(zhǔn)。

基于這一評(píng)估標(biāo)準(zhǔn),相較于Claude Sonnet、Mistral Medium 以及 GPT-3.5 模型,Meta Llama3的提升可見(jiàn)一斑。

備受矚目的Meta Llama3,將精力集中在四大核心要素:模型架構(gòu)、預(yù)訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練規(guī)模、指令微調(diào)。

模型架構(gòu):

與前一代Llama2相比,Llama3進(jìn)行了關(guān)鍵性能改進(jìn)。首先,Llama3采用128K token的分詞器,以提高編碼語(yǔ)言效率;其次,8B和70B規(guī)模模型采用GQA技術(shù),最多可以處理8192個(gè)Token序列,并且通過(guò)掩碼技術(shù)規(guī)范模型的自注意力機(jī)制,以防跨越不同文檔界限。

訓(xùn)練數(shù)據(jù):

與前一代Llama2相比,Llama3的訓(xùn)練集規(guī)模擴(kuò)大了7倍、代碼數(shù)據(jù)量增加了4倍,在預(yù)訓(xùn)練數(shù)據(jù)投入了更多資源,基于超過(guò)15T 的 Token,覆蓋了超30種語(yǔ)言。并且,訓(xùn)練過(guò)程中,為保障優(yōu)質(zhì)數(shù)據(jù),還打造了包含應(yīng)用啟發(fā)式過(guò)濾器、NSFW 內(nèi)容過(guò)濾、語(yǔ)義去重技術(shù)和文本質(zhì)量分類(lèi)器等一系列高效數(shù)據(jù)過(guò)濾流程。

訓(xùn)練規(guī)模:

訓(xùn)練數(shù)據(jù)的提升使訓(xùn)練規(guī)模也需要跟上節(jié)奏。為挑選出最佳的數(shù)據(jù)處理方案,Llama 3 制定了一套詳盡的 Scaling Laws以確保多場(chǎng)景下的能力表現(xiàn)。

為訓(xùn)練目前為止最大規(guī)格的Llama 3 模型,Meta采用了三種并行技術(shù):數(shù)據(jù)并行、模型并行和流水線并行。以此達(dá)到在16K的GPU上同時(shí)訓(xùn)練,最高效可以實(shí)現(xiàn)每個(gè)GPU超400TFLOPS的計(jì)算利用率。

總體而言,相較Llama 2 ,Llama 3 的訓(xùn)練效率提升了大約三倍。

指令微調(diào):

為了提高聊天應(yīng)用場(chǎng)景的效能,Llama 3 還通過(guò)指令微調(diào)的辦法完成創(chuàng)新性改進(jìn)。關(guān)于Llama 3的訓(xùn)練策略融合了監(jiān)督式微調(diào)、拒絕抽樣、近端策略優(yōu)化和直接策略優(yōu)化等多種技術(shù),以此提升 Llama 3 在邏輯推理和編程任務(wù)上的表現(xiàn)。

針對(duì)“瘋狂”的Llama 3,科技大佬紛紛現(xiàn)身,發(fā)表意見(jiàn)。 在Yann LeCun 為 Llama 3 的發(fā)布搖旗吶喊的帖子下,馬斯克現(xiàn)身該評(píng)論區(qū),留下一句「Not bad 」,表達(dá)認(rèn)可和期待。

英偉達(dá)高級(jí)科學(xué)家Jim Fan稱,“ Llama-3-400B+ 將標(biāo)志著社區(qū)獲得 GPT-4 級(jí)模型的開(kāi)放權(quán)重訪問(wèn)權(quán)的分水嶺時(shí)刻。它將改變?cè)S多研究工作和草根初創(chuàng)公司的計(jì)算方式。我在 Claude 3 Opus、GPT-4-2024-04-09 和 Gemini 上拉了數(shù)據(jù),Llama-3-400B仍在訓(xùn)練中,希望在接下來(lái)的幾個(gè)月里會(huì)變得更好。有如此多的研究潛力可以通過(guò)如此強(qiáng)大的能力釋放,期待整個(gè)生態(tài)系統(tǒng)的建設(shè)者能量激增!”

傳奇研究員,AI開(kāi)源倡導(dǎo)者吳恩達(dá)表示:“Llama 3的發(fā)布是自己這輩子收到過(guò)的最好的禮物,謝謝你Meta!”

小扎則表示,“我們的目標(biāo)不僅僅是與開(kāi)源模型競(jìng)爭(zhēng),而是要超過(guò)所有人,打造最領(lǐng)先的人工智能?!?/p>

根據(jù)Meta AI的工程師Aston Zhang透露,未來(lái)Llama 3還會(huì)解鎖新的能力,比如多模態(tài)、以及性能更強(qiáng)的400B版本。

Meta自己也放了隱藏小彩蛋:“您很快就可以在我們的 Ray-Ban Meta 智能眼鏡上測(cè)試多模式 Meta AI。一如既往,我們期待看到您使用 Meta Llama 3 構(gòu)建的所有令人驚嘆的產(chǎn)品和體驗(yàn)。”

“通過(guò) Llama 3,我們著手構(gòu)建與當(dāng)今最好的專(zhuān)有模型相媲美的最佳開(kāi)放模型,”Meta強(qiáng)調(diào),“我們致力于開(kāi)放 AI 生態(tài)系統(tǒng)的持續(xù)增長(zhǎng)和發(fā)展,以負(fù)責(zé)任地發(fā)布我們的模型。我們長(zhǎng)期以來(lái)一直相信,開(kāi)放可以帶來(lái)更好、更安全的產(chǎn)品、更快的創(chuàng)新以及更健康的整體市場(chǎng)。這對(duì) Meta 有利,對(duì)社會(huì)也有利?!?/p>

02 從“開(kāi)源先鋒”到商業(yè)版圖,Meta在走什么樣的路?

比起過(guò)往兩款產(chǎn)品,Llama3模型顯然更走心。但回顧過(guò)去,Meta其實(shí)一直在擁抱開(kāi)源文化——技術(shù)的開(kāi)放性,不僅激發(fā)了學(xué)術(shù)界的熱情,研究人員得以快速迭代和創(chuàng)新,共同推動(dòng)AI技術(shù)的快速進(jìn)步,更開(kāi)拓了商品化的可能,讓AI從一個(gè)單獨(dú)的技術(shù),變成一種生態(tài)。

2023年2月,人們對(duì)于AI語(yǔ)言模型的想象還沒(méi)有那么豐富時(shí),Meta就發(fā)布了首個(gè)開(kāi)源大型語(yǔ)言模型Llama 1,參數(shù)規(guī)模從7B到65B不等。作為是第一個(gè)向?qū)W術(shù)界開(kāi)源的模型,Meta在訓(xùn)練這些模型使用了數(shù)萬(wàn)億個(gè)token,并且證明了完全可以只使用公開(kāi)可得的數(shù)據(jù)集來(lái)訓(xùn)練最先進(jìn)的模型,而無(wú)需使用專(zhuān)有和不可獲取的數(shù)據(jù)集。

Llama 1時(shí)代,推理速度和性能,是Meta的第一追求。在訓(xùn)練模型時(shí),為滿足模型在推理部署時(shí)的性能和要求,推理速度和推理性能變得至關(guān)重要。因此,LLaMA選擇用更小的模型,以及更多的數(shù)據(jù)集來(lái)進(jìn)行預(yù)訓(xùn)練。

有意思的是,通過(guò)使用更小的模型和更多的數(shù)據(jù)集進(jìn)行訓(xùn)練,Meta的科學(xué)家和工程師們同樣實(shí)現(xiàn)了幾乎最先進(jìn)的性能。這意味著,在不犧牲性能的情況下,降低訓(xùn)練成本和時(shí)間,反而能更快推動(dòng)AI技術(shù)的發(fā)展。

這樣的發(fā)現(xiàn)顯然也為AI領(lǐng)域的研究人員和開(kāi)發(fā)者提供了新可能。過(guò)去,人們普遍認(rèn)為只有通過(guò)不斷增加模型的大小才能獲得更好的性能,然而,Llama第一代的問(wèn)世,不僅兼顧了推理性能的需求,更證明了這種觀點(diǎn)并不完全正確——在追求更高、更快、更強(qiáng)的AI技術(shù)時(shí)成本可以更低,結(jié)果可能更好。

但對(duì)于Meta的開(kāi)源之路來(lái)說(shuō),這只是一個(gè)開(kāi)始。

發(fā)布Llama不到半年后,Meta很快做出了一個(gè)新決定:商業(yè)化。

2023年7月,Meta決定將LLMs推向更廣泛的商業(yè)應(yīng)用場(chǎng)景。在新一代Llama2模型中,上下文窗口得到擴(kuò)大,參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)量大幅提升,同時(shí)針對(duì)聊天場(chǎng)景的能力得到了優(yōu)化——這些能力的提升,共同為免費(fèi)可商用的創(chuàng)業(yè)和企業(yè)界應(yīng)用提供了可能。

為了讓商業(yè)化的場(chǎng)景更多元,Llama 2還著重布局了產(chǎn)品的社區(qū)力量。通過(guò)打造社區(qū)合作和衍生產(chǎn)品,開(kāi)發(fā)者和研究人員共同協(xié)作,在GitHub和其他平臺(tái)上交流,并為L(zhǎng)lama 2提供了無(wú)數(shù)的衍生產(chǎn)品和優(yōu)化,這樣的合作式開(kāi)發(fā)模式,不僅加速了模型的改進(jìn),還激發(fā)了更多關(guān)于安全性、可控性和道德性的探討,更重要的是,讓開(kāi)源大模型的商業(yè)化,變得有更多途徑和應(yīng)用。

而走到第三代開(kāi)源模型產(chǎn)品,Meta的目標(biāo)是打造一款完美的類(lèi)“GPT”產(chǎn)品,但又要比GPT更加開(kāi)放、有效。在新模型發(fā)布的前幾個(gè)月,Meta 內(nèi)部的生成式 AI 部門(mén)的員工一直在努力使 Llama 3 在回答有爭(zhēng)議的問(wèn)題上更開(kāi)放,此前 Meta 的領(lǐng)導(dǎo)就曾認(rèn)為 Llama 2 在其回答中過(guò)于保守。

此外,在算力的投入上,Meta也一直在AI基礎(chǔ)設(shè)施上有所布局,據(jù)悉,目前只有微軟擁有與之相當(dāng)?shù)挠?jì)算能力儲(chǔ)備。根據(jù),Meta發(fā)布的一篇技術(shù)博客,到2024年底,該公司將再購(gòu)350000個(gè)英偉達(dá)H100 GPU,算上其他GPU,其算力相當(dāng)于近600000個(gè)H100。

從最初有關(guān)“開(kāi)源”的先鋒暢想,到今天第三代的開(kāi)放社區(qū)和多元嘗試,Meta在走的是不是一條成功的路,無(wú)法斷言,但可以確定的是,有關(guān)大語(yǔ)言模型的商業(yè)化嘗試,也許能給AI世界,開(kāi)啟一個(gè)更接近生活的未來(lái)。

03 “開(kāi)源”VS“閉源”,市場(chǎng)怎么看?

此次Meta發(fā)布的Llama3,延續(xù)了Meta一貫堅(jiān)持的開(kāi)源路線。

目前,開(kāi)源模型界的競(jìng)爭(zhēng)正在變得愈發(fā)激烈,開(kāi)源大模型也已成為多家爭(zhēng)做的關(guān)鍵。目前,除了Meta的Llama3外,谷歌的Gemma、馬斯克旗下的xAI、Mistral AI、StabilityAI等產(chǎn)品,共同構(gòu)成了開(kāi)源模型的廣闊市場(chǎng)。

就在Llama3發(fā)布的幾個(gè)月前,2 月 21 日,谷歌推出了全新的開(kāi)源模型系列「Gemma」。相比 Gemini,Gemma 更加輕量,可以視作 Gemini 的技術(shù)下放,同時(shí)保持免費(fèi)可用,模型權(quán)重也一并開(kāi)源且允許商用,更可以在筆記本電腦、臺(tái)式機(jī)、物聯(lián)網(wǎng)、移動(dòng)設(shè)備和云端等多個(gè)主流設(shè)備類(lèi)型上運(yùn)行。

而一直愛(ài)好“追逐潮流”的馬斯克,當(dāng)然也沒(méi)有放過(guò)開(kāi)源的風(fēng)口。xAI推出的開(kāi)源模型,專(zhuān)注于實(shí)現(xiàn)高效的機(jī)器學(xué)習(xí)算法。其大模型致力于提供更快速、節(jié)能的AI解決方案,以適應(yīng)不斷增長(zhǎng)的計(jì)算需求和環(huán)境友好性的挑戰(zhàn)。在應(yīng)用方面,其也旨在通過(guò)優(yōu)化算法和模型設(shè)計(jì)來(lái)降低大型語(yǔ)言模型的訓(xùn)練成本,從而推動(dòng)更廣泛的研究和應(yīng)用。

同樣作為致力于創(chuàng)建對(duì)話式人工智能模型的公司,Mistral AI的開(kāi)源模型通常專(zhuān)注于自然語(yǔ)言處理(NLP)任務(wù),如文本生成、情感分析和語(yǔ)言理解。他們提供的模型往往強(qiáng)調(diào)多語(yǔ)言支持和跨域功能,使它們能夠在全球范圍內(nèi)的不同應(yīng)用場(chǎng)景中發(fā)揮作用。Mistral AI的模型旨在通過(guò)高度的定制能力和可擴(kuò)展性,幫助企業(yè)解決復(fù)雜的NLP問(wèn)題。

在圖像生成方面,StabilityAI因?yàn)槠溟_(kāi)源的穩(wěn)定擴(kuò)散模型而聞名。這些模型使用概率性方法來(lái)生成數(shù)據(jù)分布,特別適用于圖像生成、藝術(shù)創(chuàng)作和數(shù)據(jù)增強(qiáng)等任務(wù),通過(guò)提供易于使用的開(kāi)源工具,讓更多創(chuàng)作者和開(kāi)發(fā)者參與到生成性AI領(lǐng)域的創(chuàng)新中來(lái)。

可以看到的是,多家科技巨頭入局開(kāi)源模型,意味著更多人愿意為構(gòu)建一個(gè)更加智能、互聯(lián)的世界貢獻(xiàn)力量。然而,盡管開(kāi)源模型帶來(lái)的開(kāi)放性、協(xié)同性,讓大語(yǔ)言模型的發(fā)展不斷加速,但與此同時(shí),有關(guān)AI技術(shù)安全性和可控性的探討,也比以往更加激烈。

對(duì)開(kāi)源模型的爭(zhēng)議,AI三巨頭之一的楊立昆Yann LeCun給予了有理有據(jù)的回應(yīng),科學(xué)論文、代碼的自由交換以及AI訓(xùn)練模型的公開(kāi)共享使美國(guó)在科學(xué)技術(shù)領(lǐng)域保持領(lǐng)先地位。這個(gè)理念并非新穎,很久以前就有了。所以,開(kāi)源技術(shù)推動(dòng)了我們現(xiàn)在視為基礎(chǔ)設(shè)施的系統(tǒng),例如互聯(lián)網(wǎng)和移動(dòng)通信網(wǎng)絡(luò),取得了快速進(jìn)步。

這并不意味著每個(gè)模型都可以或應(yīng)該開(kāi)放。專(zhuān)有模型和開(kāi)源模型都有其作用,但開(kāi)源基礎(chǔ)模型應(yīng)該是構(gòu)建活力四射的生態(tài)系統(tǒng)的基石。開(kāi)源模型創(chuàng)建了行業(yè)標(biāo)準(zhǔn),就像90年代中期的互聯(lián)網(wǎng)模型一樣。通過(guò)這種協(xié)作努力,AI技術(shù)將更快地發(fā)展,變得更加可靠、更加安全。

同時(shí),開(kāi)源還為企業(yè)和研究人員提供了他們無(wú)法自行構(gòu)建的工具,這有助于創(chuàng)造大量的社會(huì)和經(jīng)濟(jì)機(jī)會(huì)。換句話說(shuō),開(kāi)源實(shí)現(xiàn)了對(duì)訪問(wèn)的民主化。它讓更多的人和企業(yè)有能力利用最先進(jìn)的技術(shù),并彌補(bǔ)潛在的弱點(diǎn)。這也有助于促進(jìn)民主價(jià)值觀和制度,減少社會(huì)差距并改善競(jìng)爭(zhēng)。

而反對(duì)開(kāi)源的一派認(rèn)為,開(kāi)源AI會(huì)被不良行為者操縱。來(lái)自麻省理工學(xué)院和劍橋大學(xué)的科學(xué)家們?cè)l(fā)表過(guò)一篇論文,他們通過(guò)實(shí)驗(yàn)研究了持續(xù)模型權(quán)重的擴(kuò)散是否會(huì)幫助惡意者利用更強(qiáng)大的未來(lái)模型來(lái)造成大規(guī)模傷害,結(jié)果發(fā)現(xiàn),開(kāi)源大模型的確可能存在風(fēng)險(xiǎn)。Anthropic 公司研究人員也曾發(fā)表論文警告稱,AI中毒可能導(dǎo)致開(kāi)源大模型變成潛伏的間諜。

開(kāi)源和閉源之爭(zhēng),漸漸演變成一場(chǎng)宗教般的信仰之爭(zhēng),很難有人保持中立。可是,未來(lái)真如游戲《賽博朋克2077》那般,超級(jí)科技巨頭荒坂集團(tuán)掌控著大部分國(guó)家的政府及經(jīng)濟(jì)命脈,滲透進(jìn)所有人生活的每個(gè)角落。那么,如果AI只掌控在幾家科技公司手中,什么才是正確的答案?

對(duì)今天的世界來(lái)說(shuō),AI的技術(shù)發(fā)展是變革性的。一次次對(duì)于創(chuàng)新、商業(yè)化的“見(jiàn)證”,可能才是市場(chǎng)最需要的東西。

此次,Meta新一代Llama3模型發(fā)布,讓大語(yǔ)言模型的多模態(tài)能力、生態(tài)化,有了更進(jìn)一步的革新。

更重要的是在一次次的更迭中,我們站在科技變革的門(mén)檻上,得以窺見(jiàn)AI技術(shù)已經(jīng)不再是冰冷的算法和數(shù)據(jù)的堆砌,而是擁有了更多元的感知能力和更為精準(zhǔn)的社會(huì)理解。它預(yù)示著,未來(lái)的人工智能將更深入地融入我們的生活。這樣的融入,也許在開(kāi)源與閉源的辯論聲中,顯得有些暗淡,但在此刻,聽(tīng)到不同的聲音和立場(chǎng),感受技術(shù)進(jìn)步帶來(lái)的激烈碰撞,也許才是科技本身的意義。

參考資料:

1.Llama生態(tài)系統(tǒng):過(guò)去、現(xiàn)在和未來(lái) by Web3天空之城

2.LLaMA 1 模型架構(gòu)、預(yù)訓(xùn)練、部署優(yōu)化特點(diǎn)總結(jié) by NewBee NLP 3.Llama 2 技術(shù)細(xì)節(jié),來(lái)自Meta的最強(qiáng)可商用開(kāi)源大模型 by 子非AI

4.Meta確認(rèn)開(kāi)源大模型LLaMA 3下個(gè)月登場(chǎng),年底還將建成等同于60萬(wàn)個(gè)H100 GPU的“超級(jí)算力庫(kù)” by 每日經(jīng)濟(jì)新聞

5.李彥宏給開(kāi)源大模型潑冷水,他們卻有不同看法 by 第一財(cái)經(jīng)

6.ChatGPT vs LLaMa 2 差異性對(duì)比 by twt企業(yè)AI社區(qū)

7.Llama 3 發(fā)布!目前最強(qiáng)開(kāi)源大模型,全面登陸 Meta 系產(chǎn)品,即將推出 4000 億模型 by Founder Park

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。

Facebook

5.2k
  • Meta取消高端混合現(xiàn)實(shí)頭顯開(kāi)發(fā)計(jì)劃
  • OpenAI聘請(qǐng)Meta前高管領(lǐng)導(dǎo)戰(zhàn)略計(jì)劃

評(píng)論

暫無(wú)評(píng)論哦,快來(lái)評(píng)價(jià)一下吧!

下載界面新聞

微信公眾號(hào)

微博

Meta Llama 3震撼發(fā)布,科技大佬紛紛圍觀點(diǎn)贊

一次次對(duì)于創(chuàng)新、商業(yè)化的“見(jiàn)證”,可能才是市場(chǎng)最需要的東西。

圖片來(lái)源:界面新聞 匡達(dá)

文|經(jīng)緯創(chuàng)投

開(kāi)源大模型的王座又要換人了。

當(dāng)?shù)貢r(shí)間4月18日,Meta發(fā)布了其最新開(kāi)源模型Llama 3,提供8B和70B的預(yù)訓(xùn)練和指令微調(diào)版本,號(hào)稱是最強(qiáng)大的開(kāi)源大語(yǔ)言模型。

與此同時(shí),扎克伯格宣布:基于最新的 Llama 3 模型,Meta 的 AI 助手現(xiàn)在已經(jīng)覆蓋 Instagram、WhatsApp、Facebook 等全系應(yīng)用,并單獨(dú)開(kāi)啟了網(wǎng)站。另外還有一個(gè)圖像生成器,可根據(jù)自然語(yǔ)言提示詞生成圖片。

該消息一經(jīng)發(fā)出瞬間引起熱議。英偉達(dá)高級(jí)科學(xué)家Jim Fan認(rèn)為,之后可能會(huì)發(fā)布的Llama 3-400B以上的版本,將成為某種“分水嶺”,開(kāi)源社區(qū)或?qū)⒛苡蒙螱PT-4級(jí)別的模型。

同時(shí),扎克伯格表示,“我們的目標(biāo)不是與開(kāi)源模型競(jìng)爭(zhēng),而是要超過(guò)所有人,打造最領(lǐng)先的人工智能?!蔽磥?lái),Meta團(tuán)隊(duì)將會(huì)公布Llama 3的技術(shù)報(bào)告,披露模型更多的細(xì)節(jié)。

那么,作為以開(kāi)源特性聞名的語(yǔ)言模型,Llama 3和其他模型有哪些不一樣?在過(guò)往的基礎(chǔ)上有哪些更新?開(kāi)源和閉源之爭(zhēng),什么才是背后的決定因素?以下,Enjoy:

01 新一代Llama3模型,有哪些亮點(diǎn)?

當(dāng)?shù)貢r(shí)間4月18日,Meta不負(fù)眾望發(fā)布了兩款開(kāi)源Llama 3 8B與Llama 3 70B模型。并稱這是同等體量下,性能最好的開(kāi)源模型。

號(hào)稱一代更比一代強(qiáng)的Llama 3 8B,在部分性能測(cè)試上甚至比Llama 2 70B還要強(qiáng)大。無(wú)論是預(yù)訓(xùn)練還是指令微調(diào),都展現(xiàn)出更靈活易用的特點(diǎn)。

這也受益于Meta在研發(fā)Llama 3 過(guò)程中,設(shè)計(jì)的一套更高質(zhì)量的人類(lèi)評(píng)估標(biāo)準(zhǔn)。1800個(gè)測(cè)試項(xiàng)、12個(gè)主要應(yīng)用場(chǎng)景,囊括了角色扮演、邏輯推理、開(kāi)放/封閉式問(wèn)題等多項(xiàng)標(biāo)準(zhǔn)。

基于這一評(píng)估標(biāo)準(zhǔn),相較于Claude Sonnet、Mistral Medium 以及 GPT-3.5 模型,Meta Llama3的提升可見(jiàn)一斑。

備受矚目的Meta Llama3,將精力集中在四大核心要素:模型架構(gòu)、預(yù)訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練規(guī)模、指令微調(diào)。

模型架構(gòu):

與前一代Llama2相比,Llama3進(jìn)行了關(guān)鍵性能改進(jìn)。首先,Llama3采用128K token的分詞器,以提高編碼語(yǔ)言效率;其次,8B和70B規(guī)模模型采用GQA技術(shù),最多可以處理8192個(gè)Token序列,并且通過(guò)掩碼技術(shù)規(guī)范模型的自注意力機(jī)制,以防跨越不同文檔界限。

訓(xùn)練數(shù)據(jù):

與前一代Llama2相比,Llama3的訓(xùn)練集規(guī)模擴(kuò)大了7倍、代碼數(shù)據(jù)量增加了4倍,在預(yù)訓(xùn)練數(shù)據(jù)投入了更多資源,基于超過(guò)15T 的 Token,覆蓋了超30種語(yǔ)言。并且,訓(xùn)練過(guò)程中,為保障優(yōu)質(zhì)數(shù)據(jù),還打造了包含應(yīng)用啟發(fā)式過(guò)濾器、NSFW 內(nèi)容過(guò)濾、語(yǔ)義去重技術(shù)和文本質(zhì)量分類(lèi)器等一系列高效數(shù)據(jù)過(guò)濾流程。

訓(xùn)練規(guī)模:

訓(xùn)練數(shù)據(jù)的提升使訓(xùn)練規(guī)模也需要跟上節(jié)奏。為挑選出最佳的數(shù)據(jù)處理方案,Llama 3 制定了一套詳盡的 Scaling Laws以確保多場(chǎng)景下的能力表現(xiàn)。

為訓(xùn)練目前為止最大規(guī)格的Llama 3 模型,Meta采用了三種并行技術(shù):數(shù)據(jù)并行、模型并行和流水線并行。以此達(dá)到在16K的GPU上同時(shí)訓(xùn)練,最高效可以實(shí)現(xiàn)每個(gè)GPU超400TFLOPS的計(jì)算利用率。

總體而言,相較Llama 2 ,Llama 3 的訓(xùn)練效率提升了大約三倍。

指令微調(diào):

為了提高聊天應(yīng)用場(chǎng)景的效能,Llama 3 還通過(guò)指令微調(diào)的辦法完成創(chuàng)新性改進(jìn)。關(guān)于Llama 3的訓(xùn)練策略融合了監(jiān)督式微調(diào)、拒絕抽樣、近端策略優(yōu)化和直接策略優(yōu)化等多種技術(shù),以此提升 Llama 3 在邏輯推理和編程任務(wù)上的表現(xiàn)。

針對(duì)“瘋狂”的Llama 3,科技大佬紛紛現(xiàn)身,發(fā)表意見(jiàn)。 在Yann LeCun 為 Llama 3 的發(fā)布搖旗吶喊的帖子下,馬斯克現(xiàn)身該評(píng)論區(qū),留下一句「Not bad 」,表達(dá)認(rèn)可和期待。

英偉達(dá)高級(jí)科學(xué)家Jim Fan稱,“ Llama-3-400B+ 將標(biāo)志著社區(qū)獲得 GPT-4 級(jí)模型的開(kāi)放權(quán)重訪問(wèn)權(quán)的分水嶺時(shí)刻。它將改變?cè)S多研究工作和草根初創(chuàng)公司的計(jì)算方式。我在 Claude 3 Opus、GPT-4-2024-04-09 和 Gemini 上拉了數(shù)據(jù),Llama-3-400B仍在訓(xùn)練中,希望在接下來(lái)的幾個(gè)月里會(huì)變得更好。有如此多的研究潛力可以通過(guò)如此強(qiáng)大的能力釋放,期待整個(gè)生態(tài)系統(tǒng)的建設(shè)者能量激增!”

傳奇研究員,AI開(kāi)源倡導(dǎo)者吳恩達(dá)表示:“Llama 3的發(fā)布是自己這輩子收到過(guò)的最好的禮物,謝謝你Meta!”

小扎則表示,“我們的目標(biāo)不僅僅是與開(kāi)源模型競(jìng)爭(zhēng),而是要超過(guò)所有人,打造最領(lǐng)先的人工智能?!?/p>

根據(jù)Meta AI的工程師Aston Zhang透露,未來(lái)Llama 3還會(huì)解鎖新的能力,比如多模態(tài)、以及性能更強(qiáng)的400B版本。

Meta自己也放了隱藏小彩蛋:“您很快就可以在我們的 Ray-Ban Meta 智能眼鏡上測(cè)試多模式 Meta AI。一如既往,我們期待看到您使用 Meta Llama 3 構(gòu)建的所有令人驚嘆的產(chǎn)品和體驗(yàn)?!?/p>

“通過(guò) Llama 3,我們著手構(gòu)建與當(dāng)今最好的專(zhuān)有模型相媲美的最佳開(kāi)放模型,”Meta強(qiáng)調(diào),“我們致力于開(kāi)放 AI 生態(tài)系統(tǒng)的持續(xù)增長(zhǎng)和發(fā)展,以負(fù)責(zé)任地發(fā)布我們的模型。我們長(zhǎng)期以來(lái)一直相信,開(kāi)放可以帶來(lái)更好、更安全的產(chǎn)品、更快的創(chuàng)新以及更健康的整體市場(chǎng)。這對(duì) Meta 有利,對(duì)社會(huì)也有利?!?/p>

02 從“開(kāi)源先鋒”到商業(yè)版圖,Meta在走什么樣的路?

比起過(guò)往兩款產(chǎn)品,Llama3模型顯然更走心。但回顧過(guò)去,Meta其實(shí)一直在擁抱開(kāi)源文化——技術(shù)的開(kāi)放性,不僅激發(fā)了學(xué)術(shù)界的熱情,研究人員得以快速迭代和創(chuàng)新,共同推動(dòng)AI技術(shù)的快速進(jìn)步,更開(kāi)拓了商品化的可能,讓AI從一個(gè)單獨(dú)的技術(shù),變成一種生態(tài)。

2023年2月,人們對(duì)于AI語(yǔ)言模型的想象還沒(méi)有那么豐富時(shí),Meta就發(fā)布了首個(gè)開(kāi)源大型語(yǔ)言模型Llama 1,參數(shù)規(guī)模從7B到65B不等。作為是第一個(gè)向?qū)W術(shù)界開(kāi)源的模型,Meta在訓(xùn)練這些模型使用了數(shù)萬(wàn)億個(gè)token,并且證明了完全可以只使用公開(kāi)可得的數(shù)據(jù)集來(lái)訓(xùn)練最先進(jìn)的模型,而無(wú)需使用專(zhuān)有和不可獲取的數(shù)據(jù)集。

Llama 1時(shí)代,推理速度和性能,是Meta的第一追求。在訓(xùn)練模型時(shí),為滿足模型在推理部署時(shí)的性能和要求,推理速度和推理性能變得至關(guān)重要。因此,LLaMA選擇用更小的模型,以及更多的數(shù)據(jù)集來(lái)進(jìn)行預(yù)訓(xùn)練。

有意思的是,通過(guò)使用更小的模型和更多的數(shù)據(jù)集進(jìn)行訓(xùn)練,Meta的科學(xué)家和工程師們同樣實(shí)現(xiàn)了幾乎最先進(jìn)的性能。這意味著,在不犧牲性能的情況下,降低訓(xùn)練成本和時(shí)間,反而能更快推動(dòng)AI技術(shù)的發(fā)展。

這樣的發(fā)現(xiàn)顯然也為AI領(lǐng)域的研究人員和開(kāi)發(fā)者提供了新可能。過(guò)去,人們普遍認(rèn)為只有通過(guò)不斷增加模型的大小才能獲得更好的性能,然而,Llama第一代的問(wèn)世,不僅兼顧了推理性能的需求,更證明了這種觀點(diǎn)并不完全正確——在追求更高、更快、更強(qiáng)的AI技術(shù)時(shí)成本可以更低,結(jié)果可能更好。

但對(duì)于Meta的開(kāi)源之路來(lái)說(shuō),這只是一個(gè)開(kāi)始。

發(fā)布Llama不到半年后,Meta很快做出了一個(gè)新決定:商業(yè)化。

2023年7月,Meta決定將LLMs推向更廣泛的商業(yè)應(yīng)用場(chǎng)景。在新一代Llama2模型中,上下文窗口得到擴(kuò)大,參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)量大幅提升,同時(shí)針對(duì)聊天場(chǎng)景的能力得到了優(yōu)化——這些能力的提升,共同為免費(fèi)可商用的創(chuàng)業(yè)和企業(yè)界應(yīng)用提供了可能。

為了讓商業(yè)化的場(chǎng)景更多元,Llama 2還著重布局了產(chǎn)品的社區(qū)力量。通過(guò)打造社區(qū)合作和衍生產(chǎn)品,開(kāi)發(fā)者和研究人員共同協(xié)作,在GitHub和其他平臺(tái)上交流,并為L(zhǎng)lama 2提供了無(wú)數(shù)的衍生產(chǎn)品和優(yōu)化,這樣的合作式開(kāi)發(fā)模式,不僅加速了模型的改進(jìn),還激發(fā)了更多關(guān)于安全性、可控性和道德性的探討,更重要的是,讓開(kāi)源大模型的商業(yè)化,變得有更多途徑和應(yīng)用。

而走到第三代開(kāi)源模型產(chǎn)品,Meta的目標(biāo)是打造一款完美的類(lèi)“GPT”產(chǎn)品,但又要比GPT更加開(kāi)放、有效。在新模型發(fā)布的前幾個(gè)月,Meta 內(nèi)部的生成式 AI 部門(mén)的員工一直在努力使 Llama 3 在回答有爭(zhēng)議的問(wèn)題上更開(kāi)放,此前 Meta 的領(lǐng)導(dǎo)就曾認(rèn)為 Llama 2 在其回答中過(guò)于保守。

此外,在算力的投入上,Meta也一直在AI基礎(chǔ)設(shè)施上有所布局,據(jù)悉,目前只有微軟擁有與之相當(dāng)?shù)挠?jì)算能力儲(chǔ)備。根據(jù),Meta發(fā)布的一篇技術(shù)博客,到2024年底,該公司將再購(gòu)350000個(gè)英偉達(dá)H100 GPU,算上其他GPU,其算力相當(dāng)于近600000個(gè)H100。

從最初有關(guān)“開(kāi)源”的先鋒暢想,到今天第三代的開(kāi)放社區(qū)和多元嘗試,Meta在走的是不是一條成功的路,無(wú)法斷言,但可以確定的是,有關(guān)大語(yǔ)言模型的商業(yè)化嘗試,也許能給AI世界,開(kāi)啟一個(gè)更接近生活的未來(lái)。

03 “開(kāi)源”VS“閉源”,市場(chǎng)怎么看?

此次Meta發(fā)布的Llama3,延續(xù)了Meta一貫堅(jiān)持的開(kāi)源路線。

目前,開(kāi)源模型界的競(jìng)爭(zhēng)正在變得愈發(fā)激烈,開(kāi)源大模型也已成為多家爭(zhēng)做的關(guān)鍵。目前,除了Meta的Llama3外,谷歌的Gemma、馬斯克旗下的xAI、Mistral AI、StabilityAI等產(chǎn)品,共同構(gòu)成了開(kāi)源模型的廣闊市場(chǎng)。

就在Llama3發(fā)布的幾個(gè)月前,2 月 21 日,谷歌推出了全新的開(kāi)源模型系列「Gemma」。相比 Gemini,Gemma 更加輕量,可以視作 Gemini 的技術(shù)下放,同時(shí)保持免費(fèi)可用,模型權(quán)重也一并開(kāi)源且允許商用,更可以在筆記本電腦、臺(tái)式機(jī)、物聯(lián)網(wǎng)、移動(dòng)設(shè)備和云端等多個(gè)主流設(shè)備類(lèi)型上運(yùn)行。

而一直愛(ài)好“追逐潮流”的馬斯克,當(dāng)然也沒(méi)有放過(guò)開(kāi)源的風(fēng)口。xAI推出的開(kāi)源模型,專(zhuān)注于實(shí)現(xiàn)高效的機(jī)器學(xué)習(xí)算法。其大模型致力于提供更快速、節(jié)能的AI解決方案,以適應(yīng)不斷增長(zhǎng)的計(jì)算需求和環(huán)境友好性的挑戰(zhàn)。在應(yīng)用方面,其也旨在通過(guò)優(yōu)化算法和模型設(shè)計(jì)來(lái)降低大型語(yǔ)言模型的訓(xùn)練成本,從而推動(dòng)更廣泛的研究和應(yīng)用。

同樣作為致力于創(chuàng)建對(duì)話式人工智能模型的公司,Mistral AI的開(kāi)源模型通常專(zhuān)注于自然語(yǔ)言處理(NLP)任務(wù),如文本生成、情感分析和語(yǔ)言理解。他們提供的模型往往強(qiáng)調(diào)多語(yǔ)言支持和跨域功能,使它們能夠在全球范圍內(nèi)的不同應(yīng)用場(chǎng)景中發(fā)揮作用。Mistral AI的模型旨在通過(guò)高度的定制能力和可擴(kuò)展性,幫助企業(yè)解決復(fù)雜的NLP問(wèn)題。

在圖像生成方面,StabilityAI因?yàn)槠溟_(kāi)源的穩(wěn)定擴(kuò)散模型而聞名。這些模型使用概率性方法來(lái)生成數(shù)據(jù)分布,特別適用于圖像生成、藝術(shù)創(chuàng)作和數(shù)據(jù)增強(qiáng)等任務(wù),通過(guò)提供易于使用的開(kāi)源工具,讓更多創(chuàng)作者和開(kāi)發(fā)者參與到生成性AI領(lǐng)域的創(chuàng)新中來(lái)。

可以看到的是,多家科技巨頭入局開(kāi)源模型,意味著更多人愿意為構(gòu)建一個(gè)更加智能、互聯(lián)的世界貢獻(xiàn)力量。然而,盡管開(kāi)源模型帶來(lái)的開(kāi)放性、協(xié)同性,讓大語(yǔ)言模型的發(fā)展不斷加速,但與此同時(shí),有關(guān)AI技術(shù)安全性和可控性的探討,也比以往更加激烈。

對(duì)開(kāi)源模型的爭(zhēng)議,AI三巨頭之一的楊立昆Yann LeCun給予了有理有據(jù)的回應(yīng),科學(xué)論文、代碼的自由交換以及AI訓(xùn)練模型的公開(kāi)共享使美國(guó)在科學(xué)技術(shù)領(lǐng)域保持領(lǐng)先地位。這個(gè)理念并非新穎,很久以前就有了。所以,開(kāi)源技術(shù)推動(dòng)了我們現(xiàn)在視為基礎(chǔ)設(shè)施的系統(tǒng),例如互聯(lián)網(wǎng)和移動(dòng)通信網(wǎng)絡(luò),取得了快速進(jìn)步。

這并不意味著每個(gè)模型都可以或應(yīng)該開(kāi)放。專(zhuān)有模型和開(kāi)源模型都有其作用,但開(kāi)源基礎(chǔ)模型應(yīng)該是構(gòu)建活力四射的生態(tài)系統(tǒng)的基石。開(kāi)源模型創(chuàng)建了行業(yè)標(biāo)準(zhǔn),就像90年代中期的互聯(lián)網(wǎng)模型一樣。通過(guò)這種協(xié)作努力,AI技術(shù)將更快地發(fā)展,變得更加可靠、更加安全。

同時(shí),開(kāi)源還為企業(yè)和研究人員提供了他們無(wú)法自行構(gòu)建的工具,這有助于創(chuàng)造大量的社會(huì)和經(jīng)濟(jì)機(jī)會(huì)。換句話說(shuō),開(kāi)源實(shí)現(xiàn)了對(duì)訪問(wèn)的民主化。它讓更多的人和企業(yè)有能力利用最先進(jìn)的技術(shù),并彌補(bǔ)潛在的弱點(diǎn)。這也有助于促進(jìn)民主價(jià)值觀和制度,減少社會(huì)差距并改善競(jìng)爭(zhēng)。

而反對(duì)開(kāi)源的一派認(rèn)為,開(kāi)源AI會(huì)被不良行為者操縱。來(lái)自麻省理工學(xué)院和劍橋大學(xué)的科學(xué)家們?cè)l(fā)表過(guò)一篇論文,他們通過(guò)實(shí)驗(yàn)研究了持續(xù)模型權(quán)重的擴(kuò)散是否會(huì)幫助惡意者利用更強(qiáng)大的未來(lái)模型來(lái)造成大規(guī)模傷害,結(jié)果發(fā)現(xiàn),開(kāi)源大模型的確可能存在風(fēng)險(xiǎn)。Anthropic 公司研究人員也曾發(fā)表論文警告稱,AI中毒可能導(dǎo)致開(kāi)源大模型變成潛伏的間諜。

開(kāi)源和閉源之爭(zhēng),漸漸演變成一場(chǎng)宗教般的信仰之爭(zhēng),很難有人保持中立??墒?,未來(lái)真如游戲《賽博朋克2077》那般,超級(jí)科技巨頭荒坂集團(tuán)掌控著大部分國(guó)家的政府及經(jīng)濟(jì)命脈,滲透進(jìn)所有人生活的每個(gè)角落。那么,如果AI只掌控在幾家科技公司手中,什么才是正確的答案?

對(duì)今天的世界來(lái)說(shuō),AI的技術(shù)發(fā)展是變革性的。一次次對(duì)于創(chuàng)新、商業(yè)化的“見(jiàn)證”,可能才是市場(chǎng)最需要的東西。

此次,Meta新一代Llama3模型發(fā)布,讓大語(yǔ)言模型的多模態(tài)能力、生態(tài)化,有了更進(jìn)一步的革新。

更重要的是在一次次的更迭中,我們站在科技變革的門(mén)檻上,得以窺見(jiàn)AI技術(shù)已經(jīng)不再是冰冷的算法和數(shù)據(jù)的堆砌,而是擁有了更多元的感知能力和更為精準(zhǔn)的社會(huì)理解。它預(yù)示著,未來(lái)的人工智能將更深入地融入我們的生活。這樣的融入,也許在開(kāi)源與閉源的辯論聲中,顯得有些暗淡,但在此刻,聽(tīng)到不同的聲音和立場(chǎng),感受技術(shù)進(jìn)步帶來(lái)的激烈碰撞,也許才是科技本身的意義。

參考資料:

1.Llama生態(tài)系統(tǒng):過(guò)去、現(xiàn)在和未來(lái) by Web3天空之城

2.LLaMA 1 模型架構(gòu)、預(yù)訓(xùn)練、部署優(yōu)化特點(diǎn)總結(jié) by NewBee NLP 3.Llama 2 技術(shù)細(xì)節(jié),來(lái)自Meta的最強(qiáng)可商用開(kāi)源大模型 by 子非AI

4.Meta確認(rèn)開(kāi)源大模型LLaMA 3下個(gè)月登場(chǎng),年底還將建成等同于60萬(wàn)個(gè)H100 GPU的“超級(jí)算力庫(kù)” by 每日經(jīng)濟(jì)新聞

5.李彥宏給開(kāi)源大模型潑冷水,他們卻有不同看法 by 第一財(cái)經(jīng)

6.ChatGPT vs LLaMa 2 差異性對(duì)比 by twt企業(yè)AI社區(qū)

7.Llama 3 發(fā)布!目前最強(qiáng)開(kāi)源大模型,全面登陸 Meta 系產(chǎn)品,即將推出 4000 億模型 by Founder Park

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請(qǐng)聯(lián)系原著作權(quán)人。