亚洲国产高清av网站,在线日本有码中文字幕

文|經(jīng)緯創(chuàng)投

開源大模型的王座又要換人了。

當(dāng)?shù)貢r間4月18日，Meta發(fā)布了其最新開源模型Llama 3，提供8B和70B的預(yù)訓(xùn)練和指令微調(diào)版本，號稱是最強大的開源大語言模型。

與此同時，扎克伯格宣布：基于最新的 Llama 3 模型，Meta 的 AI 助手現(xiàn)在已經(jīng)覆蓋 Instagram、WhatsApp、Facebook 等全系應(yīng)用，并單獨開啟了網(wǎng)站。另外還有一個圖像生成器，可根據(jù)自然語言提示詞生成圖片。

該消息一經(jīng)發(fā)出瞬間引起熱議。英偉達高級科學(xué)家Jim Fan認為，之后可能會發(fā)布的Llama 3-400B以上的版本，將成為某種“分水嶺”，開源社區(qū)或?qū)⒛苡蒙螱PT-4級別的模型。

同時，扎克伯格表示，“我們的目標不是與開源模型競爭，而是要超過所有人，打造最領(lǐng)先的人工智能?！蔽磥?，Meta團隊將會公布Llama 3的技術(shù)報告，披露模型更多的細節(jié)。

那么，作為以開源特性聞名的語言模型，Llama 3和其他模型有哪些不一樣？在過往的基礎(chǔ)上有哪些更新？開源和閉源之爭，什么才是背后的決定因素？以下，Enjoy：

01 新一代Llama3模型，有哪些亮點？

當(dāng)?shù)貢r間4月18日，Meta不負眾望發(fā)布了兩款開源Llama 3 8B與Llama 3 70B模型。并稱這是同等體量下，性能最好的開源模型。

號稱一代更比一代強的Llama 3 8B，在部分性能測試上甚至比Llama 2 70B還要強大。無論是預(yù)訓(xùn)練還是指令微調(diào)，都展現(xiàn)出更靈活易用的特點。

這也受益于Meta在研發(fā)Llama 3 過程中，設(shè)計的一套更高質(zhì)量的人類評估標準。1800個測試項、12個主要應(yīng)用場景，囊括了角色扮演、邏輯推理、開放/封閉式問題等多項標準。

基于這一評估標準，相較于Claude Sonnet、Mistral Medium 以及 GPT-3.5 模型，Meta Llama3的提升可見一斑。

備受矚目的Meta Llama3，將精力集中在四大核心要素：模型架構(gòu)、預(yù)訓(xùn)練數(shù)據(jù)、預(yù)訓(xùn)練規(guī)模、指令微調(diào)。

模型架構(gòu)：

與前一代Llama2相比，Llama3進行了關(guān)鍵性能改進。首先，Llama3采用128K token的分詞器，以提高編碼語言效率；其次，8B和70B規(guī)模模型采用GQA技術(shù)，最多可以處理8192個Token序列，并且通過掩碼技術(shù)規(guī)范模型的自注意力機制，以防跨越不同文檔界限。

訓(xùn)練數(shù)據(jù)：

與前一代Llama2相比，Llama3的訓(xùn)練集規(guī)模擴大了7倍、代碼數(shù)據(jù)量增加了4倍，在預(yù)訓(xùn)練數(shù)據(jù)投入了更多資源，基于超過15T 的 Token，覆蓋了超30種語言。并且，訓(xùn)練過程中，為保障優(yōu)質(zhì)數(shù)據(jù)，還打造了包含應(yīng)用啟發(fā)式過濾器、NSFW 內(nèi)容過濾、語義去重技術(shù)和文本質(zhì)量分類器等一系列高效數(shù)據(jù)過濾流程。

訓(xùn)練規(guī)模：

訓(xùn)練數(shù)據(jù)的提升使訓(xùn)練規(guī)模也需要跟上節(jié)奏。為挑選出最佳的數(shù)據(jù)處理方案，Llama 3 制定了一套詳盡的 Scaling Laws以確保多場景下的能力表現(xiàn)。

為訓(xùn)練目前為止最大規(guī)格的Llama 3 模型，Meta采用了三種并行技術(shù)：數(shù)據(jù)并行、模型并行和流水線并行。以此達到在16K的GPU上同時訓(xùn)練，最高效可以實現(xiàn)每個GPU超400TFLOPS的計算利用率。

總體而言，相較Llama 2 ，Llama 3 的訓(xùn)練效率提升了大約三倍。

指令微調(diào)：

為了提高聊天應(yīng)用場景的效能，Llama 3 還通過指令微調(diào)的辦法完成創(chuàng)新性改進。關(guān)于Llama 3的訓(xùn)練策略融合了監(jiān)督式微調(diào)、拒絕抽樣、近端策略優(yōu)化和直接策略優(yōu)化等多種技術(shù)，以此提升 Llama 3 在邏輯推理和編程任務(wù)上的表現(xiàn)。

針對“瘋狂”的Llama 3，科技大佬紛紛現(xiàn)身，發(fā)表意見。在Yann LeCun 為 Llama 3 的發(fā)布搖旗吶喊的帖子下，馬斯克現(xiàn)身該評論區(qū)，留下一句「Not bad 」，表達認可和期待。

英偉達高級科學(xué)家Jim Fan稱，“ Llama-3-400B+ 將標志著社區(qū)獲得 GPT-4 級模型的開放權(quán)重訪問權(quán)的分水嶺時刻。它將改變許多研究工作和草根初創(chuàng)公司的計算方式。我在 Claude 3 Opus、GPT-4-2024-04-09 和 Gemini 上拉了數(shù)據(jù)，Llama-3-400B仍在訓(xùn)練中，希望在接下來的幾個月里會變得更好。有如此多的研究潛力可以通過如此強大的能力釋放，期待整個生態(tài)系統(tǒng)的建設(shè)者能量激增！”

傳奇研究員，AI開源倡導(dǎo)者吳恩達表示：“Llama 3的發(fā)布是自己這輩子收到過的最好的禮物，謝謝你Meta！”

小扎則表示，“我們的目標不僅僅是與開源模型競爭，而是要超過所有人，打造最領(lǐng)先的人工智能?！?/p>

根據(jù)Meta AI的工程師Aston Zhang透露，未來Llama 3還會解鎖新的能力，比如多模態(tài)、以及性能更強的400B版本。

Meta自己也放了隱藏小彩蛋：“您很快就可以在我們的 Ray-Ban Meta 智能眼鏡上測試多模式 Meta AI。一如既往，我們期待看到您使用 Meta Llama 3 構(gòu)建的所有令人驚嘆的產(chǎn)品和體驗?！?/p>

“通過 Llama 3，我們著手構(gòu)建與當(dāng)今最好的專有模型相媲美的最佳開放模型，”Meta強調(diào)，“我們致力于開放 AI 生態(tài)系統(tǒng)的持續(xù)增長和發(fā)展，以負責(zé)任地發(fā)布我們的模型。我們長期以來一直相信，開放可以帶來更好、更安全的產(chǎn)品、更快的創(chuàng)新以及更健康的整體市場。這對 Meta 有利，對社會也有利?！?/p>

02 從“開源先鋒”到商業(yè)版圖，Meta在走什么樣的路？

比起過往兩款產(chǎn)品，Llama3模型顯然更走心。但回顧過去，Meta其實一直在擁抱開源文化——技術(shù)的開放性，不僅激發(fā)了學(xué)術(shù)界的熱情，研究人員得以快速迭代和創(chuàng)新，共同推動AI技術(shù)的快速進步，更開拓了商品化的可能，讓AI從一個單獨的技術(shù)，變成一種生態(tài)。

2023年2月，人們對于AI語言模型的想象還沒有那么豐富時，Meta就發(fā)布了首個開源大型語言模型Llama 1，參數(shù)規(guī)模從7B到65B不等。作為是第一個向?qū)W術(shù)界開源的模型，Meta在訓(xùn)練這些模型使用了數(shù)萬億個token，并且證明了完全可以只使用公開可得的數(shù)據(jù)集來訓(xùn)練最先進的模型，而無需使用專有和不可獲取的數(shù)據(jù)集。

Llama 1時代，推理速度和性能，是Meta的第一追求。在訓(xùn)練模型時，為滿足模型在推理部署時的性能和要求，推理速度和推理性能變得至關(guān)重要。因此，LLaMA選擇用更小的模型，以及更多的數(shù)據(jù)集來進行預(yù)訓(xùn)練。

有意思的是，通過使用更小的模型和更多的數(shù)據(jù)集進行訓(xùn)練，Meta的科學(xué)家和工程師們同樣實現(xiàn)了幾乎最先進的性能。這意味著，在不犧牲性能的情況下，降低訓(xùn)練成本和時間，反而能更快推動AI技術(shù)的發(fā)展。

這樣的發(fā)現(xiàn)顯然也為AI領(lǐng)域的研究人員和開發(fā)者提供了新可能。過去，人們普遍認為只有通過不斷增加模型的大小才能獲得更好的性能，然而，Llama第一代的問世，不僅兼顧了推理性能的需求，更證明了這種觀點并不完全正確——在追求更高、更快、更強的AI技術(shù)時成本可以更低，結(jié)果可能更好。

但對于Meta的開源之路來說，這只是一個開始。

發(fā)布Llama不到半年后，Meta很快做出了一個新決定：商業(yè)化。

2023年7月，Meta決定將LLMs推向更廣泛的商業(yè)應(yīng)用場景。在新一代Llama2模型中，上下文窗口得到擴大，參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)量大幅提升，同時針對聊天場景的能力得到了優(yōu)化——這些能力的提升，共同為免費可商用的創(chuàng)業(yè)和企業(yè)界應(yīng)用提供了可能。

為了讓商業(yè)化的場景更多元，Llama 2還著重布局了產(chǎn)品的社區(qū)力量。通過打造社區(qū)合作和衍生產(chǎn)品，開發(fā)者和研究人員共同協(xié)作，在GitHub和其他平臺上交流，并為Llama 2提供了無數(shù)的衍生產(chǎn)品和優(yōu)化，這樣的合作式開發(fā)模式，不僅加速了模型的改進，還激發(fā)了更多關(guān)于安全性、可控性和道德性的探討，更重要的是，讓開源大模型的商業(yè)化，變得有更多途徑和應(yīng)用。

而走到第三代開源模型產(chǎn)品，Meta的目標是打造一款完美的類“GPT”產(chǎn)品，但又要比GPT更加開放、有效。在新模型發(fā)布的前幾個月，Meta 內(nèi)部的生成式 AI 部門的員工一直在努力使 Llama 3 在回答有爭議的問題上更開放，此前 Meta 的領(lǐng)導(dǎo)就曾認為 Llama 2 在其回答中過于保守。

此外，在算力的投入上，Meta也一直在AI基礎(chǔ)設(shè)施上有所布局，據(jù)悉，目前只有微軟擁有與之相當(dāng)?shù)挠嬎隳芰?。根?jù)，Meta發(fā)布的一篇技術(shù)博客，到2024年底，該公司將再購350000個英偉達H100 GPU，算上其他GPU，其算力相當(dāng)于近600000個H100。

從最初有關(guān)“開源”的先鋒暢想，到今天第三代的開放社區(qū)和多元嘗試，Meta在走的是不是一條成功的路，無法斷言，但可以確定的是，有關(guān)大語言模型的商業(yè)化嘗試，也許能給AI世界，開啟一個更接近生活的未來。

03 “開源”VS“閉源”，市場怎么看？

此次Meta發(fā)布的Llama3，延續(xù)了Meta一貫堅持的開源路線。

目前，開源模型界的競爭正在變得愈發(fā)激烈，開源大模型也已成為多家爭做的關(guān)鍵。目前，除了Meta的Llama3外，谷歌的Gemma、馬斯克旗下的xAI、Mistral AI、StabilityAI等產(chǎn)品，共同構(gòu)成了開源模型的廣闊市場。

就在Llama3發(fā)布的幾個月前，2 月 21 日，谷歌推出了全新的開源模型系列「Gemma」。相比 Gemini，Gemma 更加輕量，可以視作 Gemini 的技術(shù)下放，同時保持免費可用，模型權(quán)重也一并開源且允許商用，更可以在筆記本電腦、臺式機、物聯(lián)網(wǎng)、移動設(shè)備和云端等多個主流設(shè)備類型上運行。

而一直愛好“追逐潮流”的馬斯克，當(dāng)然也沒有放過開源的風(fēng)口。xAI推出的開源模型，專注于實現(xiàn)高效的機器學(xué)習(xí)算法。其大模型致力于提供更快速、節(jié)能的AI解決方案，以適應(yīng)不斷增長的計算需求和環(huán)境友好性的挑戰(zhàn)。在應(yīng)用方面，其也旨在通過優(yōu)化算法和模型設(shè)計來降低大型語言模型的訓(xùn)練成本，從而推動更廣泛的研究和應(yīng)用。

同樣作為致力于創(chuàng)建對話式人工智能模型的公司，Mistral AI的開源模型通常專注于自然語言處理(NLP)任務(wù)，如文本生成、情感分析和語言理解。他們提供的模型往往強調(diào)多語言支持和跨域功能，使它們能夠在全球范圍內(nèi)的不同應(yīng)用場景中發(fā)揮作用。Mistral AI的模型旨在通過高度的定制能力和可擴展性，幫助企業(yè)解決復(fù)雜的NLP問題。

在圖像生成方面，StabilityAI因為其開源的穩(wěn)定擴散模型而聞名。這些模型使用概率性方法來生成數(shù)據(jù)分布，特別適用于圖像生成、藝術(shù)創(chuàng)作和數(shù)據(jù)增強等任務(wù)，通過提供易于使用的開源工具，讓更多創(chuàng)作者和開發(fā)者參與到生成性AI領(lǐng)域的創(chuàng)新中來。

可以看到的是，多家科技巨頭入局開源模型，意味著更多人愿意為構(gòu)建一個更加智能、互聯(lián)的世界貢獻力量。然而，盡管開源模型帶來的開放性、協(xié)同性，讓大語言模型的發(fā)展不斷加速，但與此同時，有關(guān)AI技術(shù)安全性和可控性的探討，也比以往更加激烈。

對開源模型的爭議，AI三巨頭之一的楊立昆Yann LeCun給予了有理有據(jù)的回應(yīng)，科學(xué)論文、代碼的自由交換以及AI訓(xùn)練模型的公開共享使美國在科學(xué)技術(shù)領(lǐng)域保持領(lǐng)先地位。這個理念并非新穎，很久以前就有了。所以，開源技術(shù)推動了我們現(xiàn)在視為基礎(chǔ)設(shè)施的系統(tǒng)，例如互聯(lián)網(wǎng)和移動通信網(wǎng)絡(luò)，取得了快速進步。

這并不意味著每個模型都可以或應(yīng)該開放。專有模型和開源模型都有其作用，但開源基礎(chǔ)模型應(yīng)該是構(gòu)建活力四射的生態(tài)系統(tǒng)的基石。開源模型創(chuàng)建了行業(yè)標準，就像90年代中期的互聯(lián)網(wǎng)模型一樣。通過這種協(xié)作努力，AI技術(shù)將更快地發(fā)展，變得更加可靠、更加安全。

同時，開源還為企業(yè)和研究人員提供了他們無法自行構(gòu)建的工具，這有助于創(chuàng)造大量的社會和經(jīng)濟機會。換句話說，開源實現(xiàn)了對訪問的民主化。它讓更多的人和企業(yè)有能力利用最先進的技術(shù)，并彌補潛在的弱點。這也有助于促進民主價值觀和制度，減少社會差距并改善競爭。

而反對開源的一派認為，開源AI會被不良行為者操縱。來自麻省理工學(xué)院和劍橋大學(xué)的科學(xué)家們曾發(fā)表過一篇論文，他們通過實驗研究了持續(xù)模型權(quán)重的擴散是否會幫助惡意者利用更強大的未來模型來造成大規(guī)模傷害，結(jié)果發(fā)現(xiàn)，開源大模型的確可能存在風(fēng)險。Anthropic 公司研究人員也曾發(fā)表論文警告稱，AI中毒可能導(dǎo)致開源大模型變成潛伏的間諜。

開源和閉源之爭，漸漸演變成一場宗教般的信仰之爭，很難有人保持中立?？墒?，未來真如游戲《賽博朋克2077》那般，超級科技巨頭荒坂集團掌控著大部分國家的政府及經(jīng)濟命脈，滲透進所有人生活的每個角落。那么，如果AI只掌控在幾家科技公司手中，什么才是正確的答案？

對今天的世界來說，AI的技術(shù)發(fā)展是變革性的。一次次對于創(chuàng)新、商業(yè)化的“見證”，可能才是市場最需要的東西。

此次，Meta新一代Llama3模型發(fā)布，讓大語言模型的多模態(tài)能力、生態(tài)化，有了更進一步的革新。

更重要的是在一次次的更迭中，我們站在科技變革的門檻上，得以窺見AI技術(shù)已經(jīng)不再是冰冷的算法和數(shù)據(jù)的堆砌，而是擁有了更多元的感知能力和更為精準的社會理解。它預(yù)示著，未來的人工智能將更深入地融入我們的生活。這樣的融入，也許在開源與閉源的辯論聲中，顯得有些暗淡，但在此刻，聽到不同的聲音和立場，感受技術(shù)進步帶來的激烈碰撞，也許才是科技本身的意義。

參考資料：

1.Llama生態(tài)系統(tǒng)：過去、現(xiàn)在和未來 by Web3天空之城

2.LLaMA 1 模型架構(gòu)、預(yù)訓(xùn)練、部署優(yōu)化特點總結(jié) by NewBee NLP 3.Llama 2 技術(shù)細節(jié)，來自Meta的最強可商用開源大模型 by 子非AI

4.Meta確認開源大模型LLaMA 3下個月登場，年底還將建成等同于60萬個H100 GPU的“超級算力庫” by 每日經(jīng)濟新聞

5.李彥宏給開源大模型潑冷水，他們卻有不同看法 by 第一財經(jīng)

6.ChatGPT vs LLaMa 2 差異性對比 by twt企業(yè)AI社區(qū)

7.Llama 3 發(fā)布！目前最強開源大模型，全面登陸 Meta 系產(chǎn)品，即將推出 4000 億模型 by Founder Park

文|經(jīng)緯創(chuàng)投

開源大模型的王座又要換人了。

當(dāng)?shù)貢r間4月18日，Meta發(fā)布了其最新開源模型Llama 3，提供8B和70B的預(yù)訓(xùn)練和指令微調(diào)版本，號稱是最強大的開源大語言模型。

同時，扎克伯格表示，“我們的目標不是與開源模型競爭，而是要超過所有人，打造最領(lǐng)先的人工智能。”未來，Meta團隊將會公布Llama 3的技術(shù)報告，披露模型更多的細節(jié)。