正在閱讀:

卷完參數(shù)后,大模型公司又盯上了“長文本”?

掃一掃下載界面新聞APP

卷完參數(shù)后,大模型公司又盯上了“長文本”?

毫無例外,這些國內(nèi)外大模型公司或機構(gòu)都是資本市場熱捧的“當(dāng)紅炸子雞”。

文丨光錐智能  郝鑫

編輯丨劉雨琦

4000到40萬token,大模型正在以“肉眼可見”的速度越變越“長”。

長文本能力似乎成為象征著大模型廠商出手的又一新“標(biāo)配”。

國外,OpenAI經(jīng)過三次升級,GPT-3.5上下文輸入長度從4千增長至1.6萬token,GPT-4從8千增長至3.2萬token(token:模型輸入和輸出的基本單位);OpenAI最強競爭對手Anthropic一次性將上下文長度打到了10萬token;LongLLaMA將上下文的長度擴展到25.6萬token,甚至更多。

國內(nèi),光錐智能獲悉,大模型初創(chuàng)公司月之暗面發(fā)布智能助手產(chǎn)品Kimi Chat可支持輸入20萬漢字,按OpenAI的計算標(biāo)準(zhǔn)約為40萬token;港中文賈佳亞團隊聯(lián)合MIT發(fā)布的新技術(shù)LongLoRA,可將7B模型的文本長度拓展到10萬token,70B模型的文本長度拓展到3.2萬token。

據(jù)光錐智能不完全統(tǒng)計,目前,國內(nèi)外已有OpenAI、Anthropic、Meta、月之暗面等一大批頂級的大模型技術(shù)公司、機構(gòu)和團隊將對上下文長度的拓展作為更新升級的重點。

毫無例外,這些國內(nèi)外大模型公司或機構(gòu)都是資本市場熱捧的“當(dāng)紅炸子雞”。

OpenAI自不必說,大模型Top級明星研究機構(gòu),斬獲投資近120億美元,拿走了美國生成式AI領(lǐng)域60%的融資;Anthropic近期風(fēng)頭正盛,接連被曝亞馬遜、谷歌投資消息,前后相差不過幾天,估值有望達(dá)到300億美元,較3月份翻五番;成立僅半年的月之暗面出道即巔峰,一成立就迅速完成首輪融資,獲得紅杉、真格、今日資本、monolith等一線VC的押注,市場估值已超過3億美元,而后,紅杉孵化式支持,循序完成兩輪共計近20億元融資。

大模型公司鉚足勁攻克長文本技術(shù),上下文本長度擴大100倍意味著什么?

表面上看是可輸入的文本長度越來越長,閱讀能力越來越強。

若將抽象的token值量化,GPT-3.5的4000 token最多只能輸入3000個英文單詞或者2000個漢字,連一篇公眾號文章都難以讀完;3.2萬token的GPT-4達(dá)到了閱讀一篇短篇小說的程度;10萬token的Claude可輸入約7.5萬個單詞,僅22秒就可以閱讀完一本《了不起的蓋茨比》;40萬token的Kimi Chat支持輸入20萬漢字,閱讀一本長篇巨著。

另一方面,長文本技術(shù)也在推動大模型更深層次的產(chǎn)業(yè)落地,金融、司法、科研等精艱深的領(lǐng)域里,長文檔摘要總結(jié)、閱讀理解、問答等能力是其基本,也是亟待智能化升級的練兵場。

參考上一輪大模型廠商“卷”參數(shù),大模型參數(shù)不是越大就越好,各家都在通過盡可能地擴大參數(shù)找到大模型性能最優(yōu)的“臨界點”。同理,作為共同決定模型效果的另一項指標(biāo)——文本長度,也不是越長,模型效果就越好。

有研究已經(jīng)證明,大模型可以支持更長的上下文輸入與模型效果更好之間并不能直接畫上等號。模型能夠處理的上下文長度不是真正的關(guān)鍵點,更重要的是模型對上下文內(nèi)容的使用。

不過,就目前而言,國內(nèi)外對于文本長度的探索還遠(yuǎn)沒有達(dá)到“臨界點”狀態(tài)。國內(nèi)外大模型公司還在馬不停蹄地突破,40萬token或許也還只是開始。

為什么要“卷”長文本?

月之暗面創(chuàng)始人楊植麟告訴光錐智能,在技術(shù)研發(fā)過程中,其團隊發(fā)現(xiàn)正是由于大模型輸入長度受限,才造成了許多大模型應(yīng)用落地的困境,這也是月之暗面、OpenAI等一眾大模型公司在當(dāng)下聚焦長文本技術(shù)的原因所在。

比如在虛擬角色場景中,由于長文本能力不足,虛擬角色會忘記重要信息;基于大模型開發(fā)劇本殺類游戲時,輸入prompt長度不夠,則只能削減規(guī)則和設(shè)定,從而無法達(dá)到預(yù)期游戲效果;在法律、銀行等高精度專業(yè)領(lǐng)域,深度內(nèi)容分析、生成常常受挫。

在通往未來Agent和AI原生應(yīng)用的道路上,長文本依然扮演著重要的角色,Agent任務(wù)運行需要依靠歷史信息進行新的規(guī)劃和決策,AI原生應(yīng)用需要依靠上下文本來保持連貫、個性化的用戶體驗。

楊植麟認(rèn)為,無論是文字、語音還是視頻,對海量數(shù)據(jù)的無損壓縮可以實現(xiàn)高程度的智能。“無損壓縮或大模型研究的進展曾極度依賴‘參數(shù)為王’模式,該模式下壓縮比直接與參數(shù)量相關(guān)。但我們認(rèn)為無損壓縮比或大模型的上限是由單步能力和執(zhí)行的步驟數(shù)共同決定的。其中,單步能力與參數(shù)量呈正相關(guān),而執(zhí)行步驟數(shù)即上下文長度?!?/p>

如果形象化地去理解這句話,“無損壓縮”就像是一位裁縫,需要把一塊完整的布裁剪成合身的衣服。一開始這位裁縫的思路是要去準(zhǔn)備各種尺寸的裁剪模板(參數(shù)),模板越多,裁剪出來的衣服也越合身。但現(xiàn)在的新思路是,即使模板不多,只要反復(fù)裁剪、量體裁衣也能使衣服極致合身。

同時,事實已經(jīng)證明,即使是千億參數(shù)的大模型也無法完全避免幻覺和胡說八道的問題。相比于短文本,長文本可以通過提供更多上下文信息和細(xì)節(jié)信息,來輔助模型判斷語義,進一步減少歧義,并且基于所提供事實基礎(chǔ)上的歸納、推理也更加準(zhǔn)確。

由此可見,長文本技術(shù)既可以解決大模型誕生初期被詬病的一些問題,增強一些功能,同時也是當(dāng)前進一步推進產(chǎn)業(yè)和應(yīng)用落地的一環(huán)關(guān)鍵技術(shù),這也從側(cè)面證明通用大模型的發(fā)展又邁入了一個新的階段,從LLM到Long LLM時代。

透過月之暗面的新發(fā)布的Kimi Chat,或許能一窺Long LLM階段大模型的升級功能。

首先是對超長文本關(guān)鍵信息提取、總結(jié)和分析的基礎(chǔ)功能。如輸入公眾號的鏈接可以快速分析文章大意;新出爐的財報可以快速提取關(guān)鍵信息,并能以表格、思維導(dǎo)圖等簡潔的形式呈現(xiàn);輸入整本書、專業(yè)法律條文后,用戶可以通過提問來獲取有效信息。

?在代碼方面,可以實現(xiàn)文字直接轉(zhuǎn)化代碼,只要將論文丟給對話機器人,就能根據(jù)論文復(fù)現(xiàn)代碼生成過程,并能在其基礎(chǔ)上進行修改,這比當(dāng)初ChatGPT發(fā)布會上,演示草稿生成網(wǎng)站代碼又進了一大步。

在長對話場景中,對話機器人還可以實現(xiàn)角色扮演,通過輸入公眾人物的語料,設(shè)置語氣、人物性格,可以實現(xiàn)與喬布斯、馬斯克一對一對話,國外大模型公司Character AI已經(jīng)開發(fā)了類似的AI伴侶應(yīng)用,且移動端的DAU遠(yuǎn)高于ChatGPT,達(dá)到了361萬。在月之暗面的演示中,只需要一個網(wǎng)址,就可以在Kimi Chat中和自己喜歡的原神角色聊天。

以上的例子,共同說明了脫離簡單的對話輪次,類ChatGPT等對話機器人正在走向?qū)I(yè)化、個性化、深度化的發(fā)展方向,這或許也是撬動產(chǎn)業(yè)和超級APP落地的又一抓手。

楊植麟向光錐智能透露,不同于OpenAI只提供ChatGPT一個產(chǎn)品和最先進的多模態(tài)基礎(chǔ)能力,月之暗面瞄準(zhǔn)的是下一個C端超級APP:以長文本技術(shù)為突破,在其基礎(chǔ)通用模型基礎(chǔ)上去裂變出N個應(yīng)用。

“國內(nèi)大模型市場格局會分為 toB 和 toC 兩個不同的陣營,在 toC 陣營里,會出現(xiàn)super-app,這些超級應(yīng)用是基于自研模型做出來的?!睏钪谗肱袛嗟馈?/p>

不過,現(xiàn)階段市面上的長文本對話場景還有很大的優(yōu)化空間。比如有些不支持聯(lián)網(wǎng),只能通過官方更新數(shù)據(jù)庫才獲得最新信息;在生成對話的過程中無法暫停和修改,只能等待對話結(jié)束;即使有了背景資料和上傳文件支持,還是偶爾會出現(xiàn)胡說八道、憑空捏造的情況。

長文本的“不可能三角”困境

在商業(yè)領(lǐng)域有一組典型的價格、質(zhì)量和規(guī)模的“不可能三角”,三者存在相互制約關(guān)系,互相之間不可兼得。

在長文本方面,也存在文本長短、注意力和算力類似的“不可能三角”。

(圖:文本長短、注意力、算力“不可能三角”)

這表現(xiàn)為,文本越長,越難聚集充分注意力,難以完整消化;注意力限制下,短文本無法完整解讀復(fù)雜信息;處理長文本需要大量算力,提高成本。

追本溯源,從根本上看這是因為現(xiàn)在大部分模型都是基于Transformer結(jié)構(gòu)。該結(jié)構(gòu)中包含一項最重要的組件即自注意力機制,在該機制下,對話機器人就可以跨越用戶輸入信息順序的限制,隨意地去分析各信息間的關(guān)系。

但與之帶來的代價是,自注意力機制的計算量會隨著上下文長度的增加呈平方級增長,比如上下文增加32倍時,計算量實際會增長1000倍。

一些發(fā)表的論文給予了佐證:過長的上下文會使得相關(guān)信息的占比顯著下降,加劇注意力分散似乎成為了不可避免的命運。

這就構(gòu)成了“不可能三角”中的第一組矛盾——文本長短與注意力,也從根本上解釋了大模型長文本技術(shù)難以突破的原因。

從“卷”大模型參數(shù)到現(xiàn)在,算力一直都是稀缺的資源。OpenAI創(chuàng)始人Altman曾表示,ChatGPT-4 32K的服務(wù)無法立馬完全向所有用戶開放,最大的限制就在于GPU短缺。

對此,楊植麟也稱:“GPU是一個重要的基礎(chǔ),但還不光是GPU的問題。這里面是不同因素的結(jié)合,一方面是GPU,一方面是能源轉(zhuǎn)換成智能的效率。效率進一步拆解可能包含算法的優(yōu)化、工程的優(yōu)化、模態(tài)的優(yōu)化以及上下文的優(yōu)化等等?!?/p>

更為重要的是,在大模型實際部署環(huán)節(jié),企業(yè)端根本無法提供很大的算力支持,這也就倒逼廠商無論是擴大模型參數(shù)還是文本長度,都要緊守算力一關(guān)。但現(xiàn)階段要想突破更長的文本技術(shù),就不得不消耗更多的算力,于是就形成了文本長短與算力之間的第二組矛盾。

騰訊NLP工程師楊雨(化名)表示:“大模型長文本建模目前還沒有一個統(tǒng)一的解決方案,造成困擾的原因正是源于Transformer自身的結(jié)構(gòu),而全新的架構(gòu)已經(jīng)在路上了?!?/p>

當(dāng)前無論從軟件還是硬件設(shè)計,大部分都是圍繞Transformer架構(gòu)來打造,短時間內(nèi)新架構(gòu)很難完全顛覆,但圍繞Transformer架構(gòu)產(chǎn)生了幾種優(yōu)化方案。

楊雨對光錐智能說,“目前主要有三種不同的解決方案,分別為借助模型外部工具輔助處理長文本,優(yōu)化自注意力機制計算和利用模型優(yōu)化的一般方法。”

第一種解決方案的核心思路就是給大模型開“外掛”。主要方法是將長文本切分為多個短文本處理,模型在處理長文本時,會在數(shù)據(jù)庫中對短文本進行檢索,以此來獲得多個短文本回答構(gòu)成的長文本。每次只加載所需要的短文本片段,從而避開了模型無法一次讀入整個長文本的問題。

第二種解決方案是現(xiàn)在使用最多的方法,主要核心在于重新構(gòu)建自注意力計算方式。比如LongLoRA技術(shù)的核心就在于將長文本劃分成不同的組,在每個組里進行計算,而不用計算每個詞之間的關(guān)系,以此來降低計算量,提高速度。

前兩種模式也被楊植麟稱之為“蜜蜂”模型,即通過對檢索增強的生成或上下文的降采樣,保留對部分輸入的注意力機制,來實現(xiàn)長文本處理的效果。

據(jù)楊植麟介紹,在優(yōu)化自注意力機制計算還存在一種方式,也被其稱之為 “金魚”模型。即通過滑動窗口等方式主動拋棄上文,以此來專注對用戶最新輸入信息的回答。這樣做的優(yōu)點顯而易見,但是卻無法跨文檔、跨對話比較和總結(jié)分析。

第三種解決方案是專注于對模型的優(yōu)化。如LongLLaMA以O(shè)penLLaMA-3B和OpenLLaMA-7B 模型為起點,在其基礎(chǔ)上進行微調(diào),產(chǎn)生了LONGLLAMAs新模型。該模型很容易外推到更長的序列,例如在8K token上訓(xùn)練的模型,可以很容易外推到256K窗口大小。

對模型的優(yōu)化還有一種較為普遍的方式,就是通過通過減少參數(shù)量(例如減少到百億參數(shù))來提升上下文長度,這被楊植麟稱之為 “蝌蚪”模型。這種方法會降低模型本身的能力,雖然能支持更長上下文,但是任務(wù)難度變大后就會出現(xiàn)問題。

長文本的“不可能三角”困境或許暫時還無解,但這也明確了大模型廠商在長文本的探索路徑:在文本長短、注意力和算力三者之中做取舍,找到最佳的平衡點,既能夠處理足夠的信息,又能兼顧注意力計算與算力成本限制。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

卷完參數(shù)后,大模型公司又盯上了“長文本”?

毫無例外,這些國內(nèi)外大模型公司或機構(gòu)都是資本市場熱捧的“當(dāng)紅炸子雞”。

文丨光錐智能  郝鑫

編輯丨劉雨琦

4000到40萬token,大模型正在以“肉眼可見”的速度越變越“長”。

長文本能力似乎成為象征著大模型廠商出手的又一新“標(biāo)配”。

國外,OpenAI經(jīng)過三次升級,GPT-3.5上下文輸入長度從4千增長至1.6萬token,GPT-4從8千增長至3.2萬token(token:模型輸入和輸出的基本單位);OpenAI最強競爭對手Anthropic一次性將上下文長度打到了10萬token;LongLLaMA將上下文的長度擴展到25.6萬token,甚至更多。

國內(nèi),光錐智能獲悉,大模型初創(chuàng)公司月之暗面發(fā)布智能助手產(chǎn)品Kimi Chat可支持輸入20萬漢字,按OpenAI的計算標(biāo)準(zhǔn)約為40萬token;港中文賈佳亞團隊聯(lián)合MIT發(fā)布的新技術(shù)LongLoRA,可將7B模型的文本長度拓展到10萬token,70B模型的文本長度拓展到3.2萬token。

據(jù)光錐智能不完全統(tǒng)計,目前,國內(nèi)外已有OpenAI、Anthropic、Meta、月之暗面等一大批頂級的大模型技術(shù)公司、機構(gòu)和團隊將對上下文長度的拓展作為更新升級的重點。

毫無例外,這些國內(nèi)外大模型公司或機構(gòu)都是資本市場熱捧的“當(dāng)紅炸子雞”。

OpenAI自不必說,大模型Top級明星研究機構(gòu),斬獲投資近120億美元,拿走了美國生成式AI領(lǐng)域60%的融資;Anthropic近期風(fēng)頭正盛,接連被曝亞馬遜、谷歌投資消息,前后相差不過幾天,估值有望達(dá)到300億美元,較3月份翻五番;成立僅半年的月之暗面出道即巔峰,一成立就迅速完成首輪融資,獲得紅杉、真格、今日資本、monolith等一線VC的押注,市場估值已超過3億美元,而后,紅杉孵化式支持,循序完成兩輪共計近20億元融資。

大模型公司鉚足勁攻克長文本技術(shù),上下文本長度擴大100倍意味著什么?

表面上看是可輸入的文本長度越來越長,閱讀能力越來越強。

若將抽象的token值量化,GPT-3.5的4000 token最多只能輸入3000個英文單詞或者2000個漢字,連一篇公眾號文章都難以讀完;3.2萬token的GPT-4達(dá)到了閱讀一篇短篇小說的程度;10萬token的Claude可輸入約7.5萬個單詞,僅22秒就可以閱讀完一本《了不起的蓋茨比》;40萬token的Kimi Chat支持輸入20萬漢字,閱讀一本長篇巨著。

另一方面,長文本技術(shù)也在推動大模型更深層次的產(chǎn)業(yè)落地,金融、司法、科研等精艱深的領(lǐng)域里,長文檔摘要總結(jié)、閱讀理解、問答等能力是其基本,也是亟待智能化升級的練兵場。

參考上一輪大模型廠商“卷”參數(shù),大模型參數(shù)不是越大就越好,各家都在通過盡可能地擴大參數(shù)找到大模型性能最優(yōu)的“臨界點”。同理,作為共同決定模型效果的另一項指標(biāo)——文本長度,也不是越長,模型效果就越好。

有研究已經(jīng)證明,大模型可以支持更長的上下文輸入與模型效果更好之間并不能直接畫上等號。模型能夠處理的上下文長度不是真正的關(guān)鍵點,更重要的是模型對上下文內(nèi)容的使用。

不過,就目前而言,國內(nèi)外對于文本長度的探索還遠(yuǎn)沒有達(dá)到“臨界點”狀態(tài)。國內(nèi)外大模型公司還在馬不停蹄地突破,40萬token或許也還只是開始。

為什么要“卷”長文本?

月之暗面創(chuàng)始人楊植麟告訴光錐智能,在技術(shù)研發(fā)過程中,其團隊發(fā)現(xiàn)正是由于大模型輸入長度受限,才造成了許多大模型應(yīng)用落地的困境,這也是月之暗面、OpenAI等一眾大模型公司在當(dāng)下聚焦長文本技術(shù)的原因所在。

比如在虛擬角色場景中,由于長文本能力不足,虛擬角色會忘記重要信息;基于大模型開發(fā)劇本殺類游戲時,輸入prompt長度不夠,則只能削減規(guī)則和設(shè)定,從而無法達(dá)到預(yù)期游戲效果;在法律、銀行等高精度專業(yè)領(lǐng)域,深度內(nèi)容分析、生成常常受挫。

在通往未來Agent和AI原生應(yīng)用的道路上,長文本依然扮演著重要的角色,Agent任務(wù)運行需要依靠歷史信息進行新的規(guī)劃和決策,AI原生應(yīng)用需要依靠上下文本來保持連貫、個性化的用戶體驗。

楊植麟認(rèn)為,無論是文字、語音還是視頻,對海量數(shù)據(jù)的無損壓縮可以實現(xiàn)高程度的智能?!盁o損壓縮或大模型研究的進展曾極度依賴‘參數(shù)為王’模式,該模式下壓縮比直接與參數(shù)量相關(guān)。但我們認(rèn)為無損壓縮比或大模型的上限是由單步能力和執(zhí)行的步驟數(shù)共同決定的。其中,單步能力與參數(shù)量呈正相關(guān),而執(zhí)行步驟數(shù)即上下文長度?!?/p>

如果形象化地去理解這句話,“無損壓縮”就像是一位裁縫,需要把一塊完整的布裁剪成合身的衣服。一開始這位裁縫的思路是要去準(zhǔn)備各種尺寸的裁剪模板(參數(shù)),模板越多,裁剪出來的衣服也越合身。但現(xiàn)在的新思路是,即使模板不多,只要反復(fù)裁剪、量體裁衣也能使衣服極致合身。

同時,事實已經(jīng)證明,即使是千億參數(shù)的大模型也無法完全避免幻覺和胡說八道的問題。相比于短文本,長文本可以通過提供更多上下文信息和細(xì)節(jié)信息,來輔助模型判斷語義,進一步減少歧義,并且基于所提供事實基礎(chǔ)上的歸納、推理也更加準(zhǔn)確。

由此可見,長文本技術(shù)既可以解決大模型誕生初期被詬病的一些問題,增強一些功能,同時也是當(dāng)前進一步推進產(chǎn)業(yè)和應(yīng)用落地的一環(huán)關(guān)鍵技術(shù),這也從側(cè)面證明通用大模型的發(fā)展又邁入了一個新的階段,從LLM到Long LLM時代。

透過月之暗面的新發(fā)布的Kimi Chat,或許能一窺Long LLM階段大模型的升級功能。

首先是對超長文本關(guān)鍵信息提取、總結(jié)和分析的基礎(chǔ)功能。如輸入公眾號的鏈接可以快速分析文章大意;新出爐的財報可以快速提取關(guān)鍵信息,并能以表格、思維導(dǎo)圖等簡潔的形式呈現(xiàn);輸入整本書、專業(yè)法律條文后,用戶可以通過提問來獲取有效信息。

?在代碼方面,可以實現(xiàn)文字直接轉(zhuǎn)化代碼,只要將論文丟給對話機器人,就能根據(jù)論文復(fù)現(xiàn)代碼生成過程,并能在其基礎(chǔ)上進行修改,這比當(dāng)初ChatGPT發(fā)布會上,演示草稿生成網(wǎng)站代碼又進了一大步。

在長對話場景中,對話機器人還可以實現(xiàn)角色扮演,通過輸入公眾人物的語料,設(shè)置語氣、人物性格,可以實現(xiàn)與喬布斯、馬斯克一對一對話,國外大模型公司Character AI已經(jīng)開發(fā)了類似的AI伴侶應(yīng)用,且移動端的DAU遠(yuǎn)高于ChatGPT,達(dá)到了361萬。在月之暗面的演示中,只需要一個網(wǎng)址,就可以在Kimi Chat中和自己喜歡的原神角色聊天。

以上的例子,共同說明了脫離簡單的對話輪次,類ChatGPT等對話機器人正在走向?qū)I(yè)化、個性化、深度化的發(fā)展方向,這或許也是撬動產(chǎn)業(yè)和超級APP落地的又一抓手。

楊植麟向光錐智能透露,不同于OpenAI只提供ChatGPT一個產(chǎn)品和最先進的多模態(tài)基礎(chǔ)能力,月之暗面瞄準(zhǔn)的是下一個C端超級APP:以長文本技術(shù)為突破,在其基礎(chǔ)通用模型基礎(chǔ)上去裂變出N個應(yīng)用。

“國內(nèi)大模型市場格局會分為 toB 和 toC 兩個不同的陣營,在 toC 陣營里,會出現(xiàn)super-app,這些超級應(yīng)用是基于自研模型做出來的?!睏钪谗肱袛嗟?。

不過,現(xiàn)階段市面上的長文本對話場景還有很大的優(yōu)化空間。比如有些不支持聯(lián)網(wǎng),只能通過官方更新數(shù)據(jù)庫才獲得最新信息;在生成對話的過程中無法暫停和修改,只能等待對話結(jié)束;即使有了背景資料和上傳文件支持,還是偶爾會出現(xiàn)胡說八道、憑空捏造的情況。

長文本的“不可能三角”困境

在商業(yè)領(lǐng)域有一組典型的價格、質(zhì)量和規(guī)模的“不可能三角”,三者存在相互制約關(guān)系,互相之間不可兼得。

在長文本方面,也存在文本長短、注意力和算力類似的“不可能三角”。

(圖:文本長短、注意力、算力“不可能三角”)

這表現(xiàn)為,文本越長,越難聚集充分注意力,難以完整消化;注意力限制下,短文本無法完整解讀復(fù)雜信息;處理長文本需要大量算力,提高成本。

追本溯源,從根本上看這是因為現(xiàn)在大部分模型都是基于Transformer結(jié)構(gòu)。該結(jié)構(gòu)中包含一項最重要的組件即自注意力機制,在該機制下,對話機器人就可以跨越用戶輸入信息順序的限制,隨意地去分析各信息間的關(guān)系。

但與之帶來的代價是,自注意力機制的計算量會隨著上下文長度的增加呈平方級增長,比如上下文增加32倍時,計算量實際會增長1000倍。

一些發(fā)表的論文給予了佐證:過長的上下文會使得相關(guān)信息的占比顯著下降,加劇注意力分散似乎成為了不可避免的命運。

這就構(gòu)成了“不可能三角”中的第一組矛盾——文本長短與注意力,也從根本上解釋了大模型長文本技術(shù)難以突破的原因。

從“卷”大模型參數(shù)到現(xiàn)在,算力一直都是稀缺的資源。OpenAI創(chuàng)始人Altman曾表示,ChatGPT-4 32K的服務(wù)無法立馬完全向所有用戶開放,最大的限制就在于GPU短缺。

對此,楊植麟也稱:“GPU是一個重要的基礎(chǔ),但還不光是GPU的問題。這里面是不同因素的結(jié)合,一方面是GPU,一方面是能源轉(zhuǎn)換成智能的效率。效率進一步拆解可能包含算法的優(yōu)化、工程的優(yōu)化、模態(tài)的優(yōu)化以及上下文的優(yōu)化等等。”

更為重要的是,在大模型實際部署環(huán)節(jié),企業(yè)端根本無法提供很大的算力支持,這也就倒逼廠商無論是擴大模型參數(shù)還是文本長度,都要緊守算力一關(guān)。但現(xiàn)階段要想突破更長的文本技術(shù),就不得不消耗更多的算力,于是就形成了文本長短與算力之間的第二組矛盾。

騰訊NLP工程師楊雨(化名)表示:“大模型長文本建模目前還沒有一個統(tǒng)一的解決方案,造成困擾的原因正是源于Transformer自身的結(jié)構(gòu),而全新的架構(gòu)已經(jīng)在路上了?!?/p>

當(dāng)前無論從軟件還是硬件設(shè)計,大部分都是圍繞Transformer架構(gòu)來打造,短時間內(nèi)新架構(gòu)很難完全顛覆,但圍繞Transformer架構(gòu)產(chǎn)生了幾種優(yōu)化方案。

楊雨對光錐智能說,“目前主要有三種不同的解決方案,分別為借助模型外部工具輔助處理長文本,優(yōu)化自注意力機制計算和利用模型優(yōu)化的一般方法。”

第一種解決方案的核心思路就是給大模型開“外掛”。主要方法是將長文本切分為多個短文本處理,模型在處理長文本時,會在數(shù)據(jù)庫中對短文本進行檢索,以此來獲得多個短文本回答構(gòu)成的長文本。每次只加載所需要的短文本片段,從而避開了模型無法一次讀入整個長文本的問題。

第二種解決方案是現(xiàn)在使用最多的方法,主要核心在于重新構(gòu)建自注意力計算方式。比如LongLoRA技術(shù)的核心就在于將長文本劃分成不同的組,在每個組里進行計算,而不用計算每個詞之間的關(guān)系,以此來降低計算量,提高速度。

前兩種模式也被楊植麟稱之為“蜜蜂”模型,即通過對檢索增強的生成或上下文的降采樣,保留對部分輸入的注意力機制,來實現(xiàn)長文本處理的效果。

據(jù)楊植麟介紹,在優(yōu)化自注意力機制計算還存在一種方式,也被其稱之為 “金魚”模型。即通過滑動窗口等方式主動拋棄上文,以此來專注對用戶最新輸入信息的回答。這樣做的優(yōu)點顯而易見,但是卻無法跨文檔、跨對話比較和總結(jié)分析。

第三種解決方案是專注于對模型的優(yōu)化。如LongLLaMA以O(shè)penLLaMA-3B和OpenLLaMA-7B 模型為起點,在其基礎(chǔ)上進行微調(diào),產(chǎn)生了LONGLLAMAs新模型。該模型很容易外推到更長的序列,例如在8K token上訓(xùn)練的模型,可以很容易外推到256K窗口大小。

對模型的優(yōu)化還有一種較為普遍的方式,就是通過通過減少參數(shù)量(例如減少到百億參數(shù))來提升上下文長度,這被楊植麟稱之為 “蝌蚪”模型。這種方法會降低模型本身的能力,雖然能支持更長上下文,但是任務(wù)難度變大后就會出現(xiàn)問題。

長文本的“不可能三角”困境或許暫時還無解,但這也明確了大模型廠商在長文本的探索路徑:在文本長短、注意力和算力三者之中做取舍,找到最佳的平衡點,既能夠處理足夠的信息,又能兼顧注意力計算與算力成本限制。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。