正在閱讀:

Meta最強大模型超越GPT-4o,扎克伯格再次挑起開閉源之爭

掃一掃下載界面新聞APP

Meta最強大模型超越GPT-4o,扎克伯格再次挑起開閉源之爭

扎克伯格預計,從明年開始,Llama 3就能成為業(yè)內(nèi)最先進的模型。

圖片來源:界面圖庫

界面新聞記者 | 伍洋宇

界面新聞編輯 | 宋佳楠

OpenAI突然上線一款“小模型”GPT-4o mini之后,Meta決定拋出其超大參數(shù)的大模型炸場。

7月24日,Meta發(fā)布了開源大模型系列Llama 3.1 405B,以及升級后的70B和8B兩個尺寸模型。

Llama 3.1 405B被認為是當前最強的開源大模型。根據(jù)Meta公布的信息,該模型上下文長度支持128K,增加了對八種語言的支持,在通用知識、可操控性、數(shù)學、工具使用和多語言翻譯等方面能夠與GPT-4o和Claude 3.5 sonnet等旗艦模型相媲美,甚至在人工評估(Human Evaluation)的比較中,其總體表現(xiàn)比這兩個模型更好。 

同時,8B和70B兩個型號的升級版本也是多語言的,并且都拓展到了128K上下文長度。

Llama 3.1 405B是Meta迄今為止最大的模型。Meta表示,該模型的訓練涉及超過15萬億tokens,為了在合理時間內(nèi)達到理想效果,團隊優(yōu)化了整個訓練堆棧,使用了超過16000個H100 GPU——這也是第一個在如此大規(guī)模算力下完成訓練的Llama模型。

這個艱難的訓練目標被團隊拆分為多個關鍵步驟。為了最大程度保證訓練穩(wěn)定性,Meta沒有選擇MoE架構(gòu)(混合專家架構(gòu)),而是采用了標準僅解碼器的Transformer模型架構(gòu)進行小幅調(diào)整。

據(jù)Meta介紹,團隊也使用了迭代的后訓練過程,對每一輪進行監(jiān)督微調(diào)和直接偏好優(yōu)化,為每個回合創(chuàng)建最高質(zhì)量的合成數(shù)據(jù),以提高每種能力的性能。與此前版本的Llama相比,團隊提升和改進了用于訓練前、后的數(shù)據(jù)數(shù)量和質(zhì)量。

在Llama 3.1 405B炸場的同時,馬克·扎克伯格發(fā)表了一篇題為“開源AI是前進的道路”的宣言,再次強調(diào)開源大模型的意義與價值,劍鋒直指OpenAI等走上閉源路線的大模型公司。

扎克伯格重提開源Linux與閉源Unix的故事,認為前者支持更多功能和更廣泛的生態(tài)系統(tǒng),并且是云計算和運行大多數(shù)移動設備操作系統(tǒng)的行業(yè)標準基礎?!拔蚁嘈湃斯ぶ悄芤矔灶愃频姆绞桨l(fā)展?!?/span>

他指出,幾家科技公司在開發(fā)領先的閉源大模型,但開源大模型正在迅速縮小這一差距。最直接的證據(jù)是,Llama 2此前只能與落后的老一代模型相比,但Llama 3已經(jīng)可與最新模型相提并論,并在某些領域獲得領先。

他預計,從明年開始,Llama 3就能成為業(yè)內(nèi)最先進的模型——而在此之前,Llama已經(jīng)在開放性、可修改性和成本效率方面處于領先地位。

扎克伯格引用了很多理由闡述為什么這個世界需要開源模型,稱對開發(fā)者而言,除了更透明的開發(fā)環(huán)境以更好訓練、微調(diào)和提煉他們自己的模型,另一個重要因素是“需要一種既高效又負擔得起的模式”。

他解釋道,對于面向用戶和離線的推理任務,開發(fā)人員可以在自己的基礎設施上運行Llama 3.1 405B,成本大約是GPT- 4o等閉源模型的50%。

圍繞開源、閉源兩大路線之爭,此前業(yè)界已有過多番討論,但當時的主要基調(diào)在于,兩者各有價值,開源能夠以高性價比的方式惠及廣大開發(fā)者,并且有利于大語言模型自身的技術迭代與發(fā)展,而閉源能夠集中資源更快、更深突破性能瓶頸,比開源更有望率先達成AGI(通用人工智能)。

換句話說,業(yè)界普遍認為,在模型的性能水平上,開源很難追上閉源。而Llama 3.1 405B的出現(xiàn)或許會讓行業(yè)重新思考這一結(jié)論,很可能將影響一大批已經(jīng)傾向于使用閉源模型服務的企業(yè)和開發(fā)者群體。

目前,Meta的生態(tài)圈已經(jīng)非常龐大。Llama 3.1模型上線后,超過25個合作伙伴將提供相關服務,包括亞馬遜AWS、英偉達、Databricks、Groq、戴爾、微軟Azure和谷歌云等。

只是扎克伯格對于Llama系列模型處于領先地位的預期是明年,不排除中間有再被閉源模型掀翻屋頂?shù)目赡?。在此期間,外界可能會紛紛關注到那些性能水平趕不上Llama 3.1 405B的閉源大模型,它們當前的處境的確有些尷尬。

他還特別談及中國與美國在大模型領域的競爭,認為美國在這方面永遠領先中國數(shù)年是不現(xiàn)實的。但即使是幾個月的微小領先,也會隨著時間的推移而“積少成多”,從而使美國獲得“明顯優(yōu)勢”。

“美國的優(yōu)勢是去中心化和開放式創(chuàng)新。有些人認為,我們必須封閉我們的模式,以防止中國獲得這些模式,但我認為這行不通,只會讓美國及其盟友處于不利地位?!痹?span>扎克伯格看來,一個只有封閉模式的世界,會導致少數(shù)大公司和地緣政治對手能夠獲得領先的模式,而初創(chuàng)公司、大學和小企業(yè)則錯失機會。此外,將美國創(chuàng)新限制在封閉開發(fā)中,增加了完全無法領先的可能性。

“相反,我認為我們最好的策略是建立一個強大的開放生態(tài)系統(tǒng),讓我們的領先公司與政府和盟友密切合作,以確保他們能夠最好地利用最新進展,并在長期內(nèi)實現(xiàn)可持續(xù)的先發(fā)優(yōu)勢。”扎克伯格表示。

未經(jīng)正式授權嚴禁轉(zhuǎn)載本文,侵權必究。

Facebook

4.8k
  • 美股又新高,圣誕節(jié)行情來了?美國50ETF(159577)漲超1%,開盤1分鐘已觸及5000萬單日申購上限!指數(shù)年內(nèi)漲超32%,高居美股主流寬基指數(shù)第一
  • 美國50ETF(159577)開盤10分鐘打滿單日5000萬份申購上限,融資余額再創(chuàng)新高,最新份額創(chuàng)近1月新高!機構(gòu):美股強勁行情或?qū)⒊掷m(xù)

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

Meta最強大模型超越GPT-4o,扎克伯格再次挑起開閉源之爭

扎克伯格預計,從明年開始,Llama 3就能成為業(yè)內(nèi)最先進的模型。

圖片來源:界面圖庫

界面新聞記者 | 伍洋宇

界面新聞編輯 | 宋佳楠

OpenAI突然上線一款“小模型”GPT-4o mini之后,Meta決定拋出其超大參數(shù)的大模型炸場。

7月24日,Meta發(fā)布了開源大模型系列Llama 3.1 405B,以及升級后的70B和8B兩個尺寸模型。

Llama 3.1 405B被認為是當前最強的開源大模型。根據(jù)Meta公布的信息,該模型上下文長度支持128K,增加了對八種語言的支持,在通用知識、可操控性、數(shù)學、工具使用和多語言翻譯等方面能夠與GPT-4o和Claude 3.5 sonnet等旗艦模型相媲美,甚至在人工評估(Human Evaluation)的比較中,其總體表現(xiàn)比這兩個模型更好。 

同時,8B和70B兩個型號的升級版本也是多語言的,并且都拓展到了128K上下文長度。

Llama 3.1 405B是Meta迄今為止最大的模型。Meta表示,該模型的訓練涉及超過15萬億tokens,為了在合理時間內(nèi)達到理想效果,團隊優(yōu)化了整個訓練堆棧,使用了超過16000個H100 GPU——這也是第一個在如此大規(guī)模算力下完成訓練的Llama模型。

這個艱難的訓練目標被團隊拆分為多個關鍵步驟。為了最大程度保證訓練穩(wěn)定性,Meta沒有選擇MoE架構(gòu)(混合專家架構(gòu)),而是采用了標準僅解碼器的Transformer模型架構(gòu)進行小幅調(diào)整。

據(jù)Meta介紹,團隊也使用了迭代的后訓練過程,對每一輪進行監(jiān)督微調(diào)和直接偏好優(yōu)化,為每個回合創(chuàng)建最高質(zhì)量的合成數(shù)據(jù),以提高每種能力的性能。與此前版本的Llama相比,團隊提升和改進了用于訓練前、后的數(shù)據(jù)數(shù)量和質(zhì)量。

在Llama 3.1 405B炸場的同時,馬克·扎克伯格發(fā)表了一篇題為“開源AI是前進的道路”的宣言,再次強調(diào)開源大模型的意義與價值,劍鋒直指OpenAI等走上閉源路線的大模型公司。

扎克伯格重提開源Linux與閉源Unix的故事,認為前者支持更多功能和更廣泛的生態(tài)系統(tǒng),并且是云計算和運行大多數(shù)移動設備操作系統(tǒng)的行業(yè)標準基礎?!拔蚁嘈湃斯ぶ悄芤矔灶愃频姆绞桨l(fā)展。”

他指出,幾家科技公司在開發(fā)領先的閉源大模型,但開源大模型正在迅速縮小這一差距。最直接的證據(jù)是,Llama 2此前只能與落后的老一代模型相比,但Llama 3已經(jīng)可與最新模型相提并論,并在某些領域獲得領先。

他預計,從明年開始,Llama 3就能成為業(yè)內(nèi)最先進的模型——而在此之前,Llama已經(jīng)在開放性、可修改性和成本效率方面處于領先地位。

扎克伯格引用了很多理由闡述為什么這個世界需要開源模型,稱對開發(fā)者而言,除了更透明的開發(fā)環(huán)境以更好訓練、微調(diào)和提煉他們自己的模型,另一個重要因素是“需要一種既高效又負擔得起的模式”。

他解釋道,對于面向用戶和離線的推理任務,開發(fā)人員可以在自己的基礎設施上運行Llama 3.1 405B,成本大約是GPT- 4o等閉源模型的50%。

圍繞開源、閉源兩大路線之爭,此前業(yè)界已有過多番討論,但當時的主要基調(diào)在于,兩者各有價值,開源能夠以高性價比的方式惠及廣大開發(fā)者,并且有利于大語言模型自身的技術迭代與發(fā)展,而閉源能夠集中資源更快、更深突破性能瓶頸,比開源更有望率先達成AGI(通用人工智能)。

換句話說,業(yè)界普遍認為,在模型的性能水平上,開源很難追上閉源。而Llama 3.1 405B的出現(xiàn)或許會讓行業(yè)重新思考這一結(jié)論,很可能將影響一大批已經(jīng)傾向于使用閉源模型服務的企業(yè)和開發(fā)者群體。

目前,Meta的生態(tài)圈已經(jīng)非常龐大。Llama 3.1模型上線后,超過25個合作伙伴將提供相關服務,包括亞馬遜AWS、英偉達、Databricks、Groq、戴爾、微軟Azure和谷歌云等。

只是扎克伯格對于Llama系列模型處于領先地位的預期是明年,不排除中間有再被閉源模型掀翻屋頂?shù)目赡?。在此期間,外界可能會紛紛關注到那些性能水平趕不上Llama 3.1 405B的閉源大模型,它們當前的處境的確有些尷尬。

他還特別談及中國與美國在大模型領域的競爭,認為美國在這方面永遠領先中國數(shù)年是不現(xiàn)實的。但即使是幾個月的微小領先,也會隨著時間的推移而“積少成多”,從而使美國獲得“明顯優(yōu)勢”。

“美國的優(yōu)勢是去中心化和開放式創(chuàng)新。有些人認為,我們必須封閉我們的模式,以防止中國獲得這些模式,但我認為這行不通,只會讓美國及其盟友處于不利地位。”在扎克伯格看來,一個只有封閉模式的世界,會導致少數(shù)大公司和地緣政治對手能夠獲得領先的模式,而初創(chuàng)公司、大學和小企業(yè)則錯失機會。此外,將美國創(chuàng)新限制在封閉開發(fā)中,增加了完全無法領先的可能性。

“相反,我認為我們最好的策略是建立一個強大的開放生態(tài)系統(tǒng),讓我們的領先公司與政府和盟友密切合作,以確保他們能夠最好地利用最新進展,并在長期內(nèi)實現(xiàn)可持續(xù)的先發(fā)優(yōu)勢。”扎克伯格表示。

未經(jīng)正式授權嚴禁轉(zhuǎn)載本文,侵權必究。