正在閱讀:

誰在成為大模型的“AI運(yùn)營”?

掃一掃下載界面新聞APP

誰在成為大模型的“AI運(yùn)營”?

數(shù)據(jù)的AI-native在哪里?

文|產(chǎn)業(yè)家 皮爺 

在過去的一段時間里,“AI-native”成為所有工具的一個顯著探索趨勢,不論是算力集群的智算中心,還是數(shù)據(jù)庫側(cè)的向量數(shù)據(jù)庫,再或者是不斷進(jìn)化的算法,都在以一種更適配大模型架構(gòu)的方式被推演出來。

那么,大模型時代,數(shù)據(jù)應(yīng)該如何訓(xùn)練?或者說,如何把數(shù)據(jù)在大模型側(cè)做更好的表達(dá)?

“大模型如何落地?”

在近一年的時間以來,關(guān)于這個問題的討論正在愈演愈烈。如果說市場對于大模型最開始的關(guān)注點(diǎn)更多的在參數(shù)、算力、開源,那么如今越來越多人的視線開始向更核心的環(huán)節(jié)轉(zhuǎn)移——數(shù)據(jù)。

相較于算力等更簡單粗暴的命題,數(shù)據(jù)要更為復(fù)雜。從某種層面來說,它對應(yīng)的是模型的知識質(zhì)量。

在10月底的一個關(guān)于大模型的閉門會上,這個問題更是被鮮明地提出。參會的人不乏底層通用大模型產(chǎn)品負(fù)責(zé)人,而更多地則是已經(jīng)開始嘗試將大模型進(jìn)行落地的企業(yè)從業(yè)者,其中模型接入方法有自研,也更有開源,但作為第一批將大模型內(nèi)嵌到企業(yè)場景的人,他們的共同反饋是:不能用,不好用。

“我們很難把模型訓(xùn)練成能嵌入場景或應(yīng)用的樣子,不知道是哪里出了問題,是通用大模型本身能力不行,還是我們自己的數(shù)據(jù)訓(xùn)練、標(biāo)注不到位?!币晃黄髽I(yè)創(chuàng)始人表示。

實(shí)際上,在大模型被越發(fā)高頻嘗試的當(dāng)下,這正在成為越來越多企業(yè)面臨的問題。即在市面上即見即得的模型之外,如何將其轉(zhuǎn)化成企業(yè)自身能自己使用的大模型?

“我們剛開始訓(xùn)練了三輪,但越到后面越不好訓(xùn)練,中間不僅花費(fèi)算力,更花費(fèi)的是人力?!鄙鲜鰟?chuàng)始人告訴產(chǎn)業(yè)家。

在過去的一段時間里,“AI-native”成為所有工具的一個顯著探索趨勢,不論是算力集群的智算中心,還是數(shù)據(jù)庫側(cè)的向量數(shù)據(jù)庫,再或者是不斷進(jìn)化的算法,都在以一種更適配大模型架構(gòu)的方式被推演出來。

但在最核心環(huán)節(jié)之一的數(shù)據(jù)側(cè),進(jìn)度卻始終緩慢。這種“緩慢”甚至成為著大模型在大規(guī)模場景落地的最關(guān)鍵掣肘之一。

那么,大模型時代,數(shù)據(jù)應(yīng)該如何訓(xùn)練?或者說,如何把數(shù)據(jù)在大模型側(cè)做更好的表達(dá)?在即將到來的2024年,這個被擺到臺面上的問題已經(jīng)不僅是這一步應(yīng)該怎么邁,更升級的挑戰(zhàn)是這一步應(yīng)該怎樣邁好。

誰能先答好這個命題,誰就能快人一步。

一、大模型的“關(guān)鍵一道門”,應(yīng)該如何推開?

“我們現(xiàn)在是把一些大模型的數(shù)據(jù)標(biāo)注交給外包團(tuán)隊(duì)?!边@是在9月份和一位金融方向的IT負(fù)責(zé)人交流中他和我們的講述,主要面向方向是基于線下網(wǎng)點(diǎn)的客服和營銷。

如何把數(shù)據(jù)“挪移”到大模型中來?在當(dāng)下的大模型潮流里,數(shù)據(jù)標(biāo)注和訓(xùn)練幾乎是所有大模型企業(yè)必須經(jīng)歷的一個環(huán)節(jié)。

數(shù)據(jù)標(biāo)注,對其固有的標(biāo)簽是對數(shù)據(jù)進(jìn)行知識型標(biāo)注,在過去多年的發(fā)展里其更多的以拖、拉、勾、畫等方式存在包括自動駕駛等需要大量數(shù)據(jù)標(biāo)注的行業(yè),從業(yè)人員畫像較為復(fù)雜,標(biāo)注任務(wù)相較簡單。

但如今的大模型標(biāo)注不同?!拔覀兲鎿Q了兩個標(biāo)注團(tuán)隊(duì),最終才經(jīng)過訓(xùn)練,有了不錯的門店服務(wù)和引導(dǎo)效果。”上述負(fù)責(zé)人告訴產(chǎn)業(yè)家。

更具體的情況是,其采用的是國內(nèi)某互聯(lián)網(wǎng)大廠的開源模型,基于開源的框架進(jìn)行自己模型的搭建,整體進(jìn)度較快,但在數(shù)據(jù)訓(xùn)練環(huán)節(jié),時間卻被大大放緩。

他表示,最開始選擇的外包團(tuán)隊(duì)也是市面上的某標(biāo)注企業(yè),但從最開始提出需求到最后的效果驗(yàn)收,不僅時間較長,而且最終的準(zhǔn)確率也不高;而第二次選擇的團(tuán)隊(duì)盡管同樣花費(fèi)時間長,但最終效果還算滿意。

這正在成為越來越多企業(yè)的縮影。即伴隨著國內(nèi)底層大模型的逐步低門檻化,越來越多的挑戰(zhàn)已然不聚焦在模型算法本身,更多的在于數(shù)據(jù),也就是如何把模型從“可用變得好用”。

實(shí)際上,做好大模型的數(shù)據(jù)標(biāo)注不是一件容易的事情。

首先從數(shù)據(jù)本身而言,和之前的標(biāo)注相比,大模型需要的數(shù)據(jù)量級更大,而且數(shù)據(jù)結(jié)構(gòu)更為復(fù)合,除了單個數(shù)據(jù)標(biāo)簽之外,不少大模型的訓(xùn)練需要用到合成數(shù)據(jù)(即用AI產(chǎn)生的數(shù)據(jù)),這也就意味著數(shù)據(jù)本身的標(biāo)注模型和標(biāo)注方法與之前不再相同。

此外,在單純的標(biāo)注環(huán)節(jié),相較于過往的托拉拽的客觀標(biāo)注,現(xiàn)在的更多標(biāo)注需要人工的主動判斷和主動干預(yù),如排序、改寫、生成等,而在更專業(yè)具體的問題上,甚至需要專業(yè)的人士來接入,配合整體標(biāo)注規(guī)則的建立和部分問題的拆解訓(xùn)練。

更有標(biāo)注人員團(tuán)隊(duì)上的不同,如果說之前固有的標(biāo)注需要的僅是簡單的質(zhì)檢和輕微干預(yù),那么如今在如今大模型的標(biāo)注人員團(tuán)隊(duì)建設(shè)上,需要對團(tuán)隊(duì)進(jìn)行定向的培訓(xùn),其中更包括不同專業(yè)知識以及安全合規(guī)等多方面能力的學(xué)習(xí)。

在過去的一段時間里,市面上的大模型企業(yè)有不少都采取自建標(biāo)注棧的模式,即專門招聘人員成立標(biāo)注團(tuán)隊(duì),同時研發(fā)自身的標(biāo)注工具,但一個更為真實(shí)的現(xiàn)狀是:由于缺乏固有的標(biāo)注體系和流程積累,在數(shù)據(jù)工具層面和人員層面始終存在短板,不論是標(biāo)注,還是中間的模型訓(xùn)練、評估環(huán)節(jié),效果始終無法達(dá)到最好。

具體來看,即相較于數(shù)據(jù)存儲側(cè)的向量數(shù)據(jù)庫等更加適配大模型的產(chǎn)品,在數(shù)據(jù)訓(xùn)練和應(yīng)用側(cè)市面上大模型企業(yè)大部分采取的是傳統(tǒng)的標(biāo)注工具和標(biāo)注方法,因而帶來的是巨大的人力和精力投入,同時也對應(yīng)的是不夠高效的訓(xùn)練方法。

這種短板也更在影響著大模型的實(shí)際落地。

即伴隨著產(chǎn)業(yè)和應(yīng)用成為大模型的主戰(zhàn)場,對特定產(chǎn)業(yè)或場景數(shù)據(jù)的標(biāo)注和訓(xùn)練也更在成為大模型落地的必行之道,但由于固有的標(biāo)注方法和標(biāo)注工具存在限制,一定程度上延緩了大模型能力的成型和在實(shí)際場景的應(yīng)用落地。

大模型的“關(guān)鍵一道門”,應(yīng)該怎么邁?

二、如何做好“AI運(yùn)營”?

“優(yōu)質(zhì)的大模型的數(shù)據(jù)標(biāo)注更像是一套成型的AI數(shù)據(jù)運(yùn)營?!币晃幌嚓P(guān)人士表示。

以百度智能云為例,其目前對外提供的是一系列圍繞大模型全生命開發(fā)周期的數(shù)據(jù)服務(wù),其中包括預(yù)訓(xùn)練、監(jiān)督微調(diào)、RLHF、評估等,其覆蓋了大模型中數(shù)據(jù)訓(xùn)練的方方面面,不論是前期的數(shù)據(jù)標(biāo)注還是微調(diào)等等。

這一系列的數(shù)據(jù)標(biāo)注工作恰似大模型的“AI數(shù)據(jù)運(yùn)營”。據(jù)了解,在百度智能云的交付過程中,其部分項(xiàng)目會尋找代碼、教育、法律、等領(lǐng)域?qū)I(yè)人員,一起進(jìn)行需求的規(guī)則制定和數(shù)據(jù)訓(xùn)練,進(jìn)而保證數(shù)據(jù)的真實(shí)性和準(zhǔn)確性。

此外,在標(biāo)注工具側(cè),和其它大模型廠商不同的是,百度智能云也更研發(fā)了自身專有的大模型標(biāo)注平臺工具,針對不同場景、不同需要以及不同的數(shù)據(jù)量可以按照不同的方式進(jìn)行訓(xùn)練,比如其可覆蓋大語言模型、多模態(tài)大模型及代碼等專項(xiàng)標(biāo)注場景多種數(shù)據(jù)標(biāo)注需求。

同時,結(jié)合輔助標(biāo)注算法可以全流程助力標(biāo)注師提升標(biāo)注質(zhì)量和效率。而在標(biāo)注能力之外,其也具備著更為靈活的項(xiàng)目管理機(jī)制,可以更好地適配嚴(yán)苛的交付周期及復(fù)雜多變的標(biāo)注規(guī)則,進(jìn)而滿足不同賽道企業(yè)的大模型訓(xùn)練需求。

據(jù)了解,盡管目前市面上的大模型廠商會在內(nèi)部進(jìn)行自我模型的AI訓(xùn)練,但效果往往沒辦法達(dá)到最好,最終還是會找到像百度智能云這樣的擁有專門標(biāo)注工具的企業(yè)進(jìn)行訓(xùn)練標(biāo)注。

被優(yōu)化的大模型訓(xùn)練模塊還不僅于工具,更在團(tuán)隊(duì)。比如在標(biāo)注人員團(tuán)隊(duì)培訓(xùn)上,百度智能云在??诮ㄔO(shè)了全國首個大模型數(shù)據(jù)標(biāo)注基地,常駐數(shù)百名數(shù)據(jù)標(biāo)注師,本科學(xué)歷達(dá)到100%,覆蓋漢語言文學(xué)、計(jì)算機(jī)、法學(xué)等學(xué)科專業(yè)。

在服務(wù)過程中,除了固有的一體化的模型訓(xùn)練能力,對不少大模型企業(yè)而言,其還有部分專項(xiàng)能力的需求,比如安全能力的強(qiáng)化。

“大模型的輸入是可控的,但是輸出是不可控的,甚至很多時候會因?yàn)榛糜X等原因,有不良或者不合規(guī)的信息出現(xiàn)?!币晃粐鴥?nèi)頭部AI大模型負(fù)責(zé)人告訴我們。這也造成了對大模型訓(xùn)練而言,安全必須是其中要核心把控的指標(biāo),而百度智能云基于自身的“AI數(shù)據(jù)運(yùn)營”能力,則是可以幫助企業(yè)的大模型迅速強(qiáng)化這項(xiàng)專有能力。

實(shí)際上,百度智能云的模式也恰在成為國內(nèi)大模型訓(xùn)練的最先進(jìn)路徑縮影。即不論是在預(yù)訓(xùn)練,還是中間的監(jiān)督微調(diào),抑或是后期的模型評估優(yōu)化等,更為高效的方式恰是這種“AI-native”的標(biāo)注模式。

而基于百度智能云這套“AI-native”的標(biāo)注模式,企業(yè)恰等同于裝備了一個足夠?qū)I(yè)的“AI數(shù)據(jù)運(yùn)營”工具箱,其可以幫助企業(yè)實(shí)現(xiàn)從大模型數(shù)據(jù)到效果的整體運(yùn)作。這其中不僅有被“刷新”的數(shù)據(jù)標(biāo)注團(tuán)隊(duì),也更囊括了一系列包括從預(yù)訓(xùn)練到模型評估,再到能力強(qiáng)化等全部流程在內(nèi)的大模型訓(xùn)練閉環(huán),進(jìn)而更高效、更低成本地構(gòu)建好自身可用、安全的大模型。

三、從模型到應(yīng)用:數(shù)據(jù)在產(chǎn)業(yè)要如何表達(dá)?

在能更快更好地訓(xùn)練出大模型之外,數(shù)據(jù)訓(xùn)練的下一步是什么?實(shí)際上,更為真實(shí)的答案是:應(yīng)用和場景。

誠然如此。如果說第一階段的挑戰(zhàn)更多的在模型參數(shù)量級,即在一定范圍內(nèi)模型本身伴隨著數(shù)據(jù)量越發(fā)凸顯的能力,那么在當(dāng)下的階段,更大的競爭點(diǎn)則是來自于實(shí)際場景的應(yīng)用和業(yè)務(wù)表達(dá)。這種表達(dá)或在金融,或在工業(yè)制造,或在教育、電商等等。

就當(dāng)下而言,產(chǎn)業(yè)或場景大模型的最大難點(diǎn)不是算力和算法,而更大的卡點(diǎn)恰是數(shù)據(jù)表達(dá)。

相較于通用大模型的訓(xùn)練,這種基于特定場景的訓(xùn)練對標(biāo)注能力的要求更高。即在大量的數(shù)據(jù)中,其不僅包含無數(shù)結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),更對參與的人員團(tuán)隊(duì)有足夠?qū)I(yè)的要求,此外,在特定的行業(yè)數(shù)據(jù)服務(wù)上,其對于具體的流程模型也更有特殊的要求。

此外,給數(shù)據(jù)服務(wù)帶來難度的不僅是場景,更有如今討論日漸增多的應(yīng)用。即隨著如今越來越多的AI應(yīng)用,如Agent、文生圖軟件等被推出,往往更需要在通用大模型能力的基礎(chǔ)上收束某項(xiàng)或者某些方面的特有能力,將其加持到軟件內(nèi)部,對應(yīng)到數(shù)據(jù)服務(wù)側(cè)則是在應(yīng)用需求之上的某些專項(xiàng)能力的強(qiáng)化和不斷評估訓(xùn)練。

也更可以說,大模型的數(shù)據(jù)訓(xùn)練和標(biāo)注,正在伴隨著產(chǎn)業(yè)模型和AI應(yīng)用時代的到來進(jìn)入深水區(qū)。

這也恰是百度智能云等深耕過數(shù)據(jù)服務(wù)行業(yè)的企業(yè)價值。伴隨著大模型載體的到來,它們正基于自己對數(shù)據(jù)的多年理解和沉淀,成為推動數(shù)據(jù)到業(yè)務(wù)表達(dá)的最核心力量。

從幕后走到臺前,從數(shù)據(jù)標(biāo)注到數(shù)據(jù)運(yùn)營,從初始的模型訓(xùn)練到細(xì)致的模型調(diào)優(yōu),肉眼可見的是,如百度智能云這樣具備數(shù)據(jù)資源整合和強(qiáng)大研發(fā)能力的科技巨頭企業(yè),正重塑著行業(yè)市場格局。而伴隨著大模型向深水區(qū)的延展,它們的價值也更在愈發(fā)凸顯。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

誰在成為大模型的“AI運(yùn)營”?

數(shù)據(jù)的AI-native在哪里?

文|產(chǎn)業(yè)家 皮爺 

在過去的一段時間里,“AI-native”成為所有工具的一個顯著探索趨勢,不論是算力集群的智算中心,還是數(shù)據(jù)庫側(cè)的向量數(shù)據(jù)庫,再或者是不斷進(jìn)化的算法,都在以一種更適配大模型架構(gòu)的方式被推演出來。

那么,大模型時代,數(shù)據(jù)應(yīng)該如何訓(xùn)練?或者說,如何把數(shù)據(jù)在大模型側(cè)做更好的表達(dá)?

“大模型如何落地?”

在近一年的時間以來,關(guān)于這個問題的討論正在愈演愈烈。如果說市場對于大模型最開始的關(guān)注點(diǎn)更多的在參數(shù)、算力、開源,那么如今越來越多人的視線開始向更核心的環(huán)節(jié)轉(zhuǎn)移——數(shù)據(jù)。

相較于算力等更簡單粗暴的命題,數(shù)據(jù)要更為復(fù)雜。從某種層面來說,它對應(yīng)的是模型的知識質(zhì)量。

在10月底的一個關(guān)于大模型的閉門會上,這個問題更是被鮮明地提出。參會的人不乏底層通用大模型產(chǎn)品負(fù)責(zé)人,而更多地則是已經(jīng)開始嘗試將大模型進(jìn)行落地的企業(yè)從業(yè)者,其中模型接入方法有自研,也更有開源,但作為第一批將大模型內(nèi)嵌到企業(yè)場景的人,他們的共同反饋是:不能用,不好用。

“我們很難把模型訓(xùn)練成能嵌入場景或應(yīng)用的樣子,不知道是哪里出了問題,是通用大模型本身能力不行,還是我們自己的數(shù)據(jù)訓(xùn)練、標(biāo)注不到位?!币晃黄髽I(yè)創(chuàng)始人表示。

實(shí)際上,在大模型被越發(fā)高頻嘗試的當(dāng)下,這正在成為越來越多企業(yè)面臨的問題。即在市面上即見即得的模型之外,如何將其轉(zhuǎn)化成企業(yè)自身能自己使用的大模型?

“我們剛開始訓(xùn)練了三輪,但越到后面越不好訓(xùn)練,中間不僅花費(fèi)算力,更花費(fèi)的是人力?!鄙鲜鰟?chuàng)始人告訴產(chǎn)業(yè)家。

在過去的一段時間里,“AI-native”成為所有工具的一個顯著探索趨勢,不論是算力集群的智算中心,還是數(shù)據(jù)庫側(cè)的向量數(shù)據(jù)庫,再或者是不斷進(jìn)化的算法,都在以一種更適配大模型架構(gòu)的方式被推演出來。

但在最核心環(huán)節(jié)之一的數(shù)據(jù)側(cè),進(jìn)度卻始終緩慢。這種“緩慢”甚至成為著大模型在大規(guī)模場景落地的最關(guān)鍵掣肘之一。

那么,大模型時代,數(shù)據(jù)應(yīng)該如何訓(xùn)練?或者說,如何把數(shù)據(jù)在大模型側(cè)做更好的表達(dá)?在即將到來的2024年,這個被擺到臺面上的問題已經(jīng)不僅是這一步應(yīng)該怎么邁,更升級的挑戰(zhàn)是這一步應(yīng)該怎樣邁好。

誰能先答好這個命題,誰就能快人一步。

一、大模型的“關(guān)鍵一道門”,應(yīng)該如何推開?

“我們現(xiàn)在是把一些大模型的數(shù)據(jù)標(biāo)注交給外包團(tuán)隊(duì)?!边@是在9月份和一位金融方向的IT負(fù)責(zé)人交流中他和我們的講述,主要面向方向是基于線下網(wǎng)點(diǎn)的客服和營銷。

如何把數(shù)據(jù)“挪移”到大模型中來?在當(dāng)下的大模型潮流里,數(shù)據(jù)標(biāo)注和訓(xùn)練幾乎是所有大模型企業(yè)必須經(jīng)歷的一個環(huán)節(jié)。

數(shù)據(jù)標(biāo)注,對其固有的標(biāo)簽是對數(shù)據(jù)進(jìn)行知識型標(biāo)注,在過去多年的發(fā)展里其更多的以拖、拉、勾、畫等方式存在包括自動駕駛等需要大量數(shù)據(jù)標(biāo)注的行業(yè),從業(yè)人員畫像較為復(fù)雜,標(biāo)注任務(wù)相較簡單。

但如今的大模型標(biāo)注不同。“我們替換了兩個標(biāo)注團(tuán)隊(duì),最終才經(jīng)過訓(xùn)練,有了不錯的門店服務(wù)和引導(dǎo)效果。”上述負(fù)責(zé)人告訴產(chǎn)業(yè)家。

更具體的情況是,其采用的是國內(nèi)某互聯(lián)網(wǎng)大廠的開源模型,基于開源的框架進(jìn)行自己模型的搭建,整體進(jìn)度較快,但在數(shù)據(jù)訓(xùn)練環(huán)節(jié),時間卻被大大放緩。

他表示,最開始選擇的外包團(tuán)隊(duì)也是市面上的某標(biāo)注企業(yè),但從最開始提出需求到最后的效果驗(yàn)收,不僅時間較長,而且最終的準(zhǔn)確率也不高;而第二次選擇的團(tuán)隊(duì)盡管同樣花費(fèi)時間長,但最終效果還算滿意。

這正在成為越來越多企業(yè)的縮影。即伴隨著國內(nèi)底層大模型的逐步低門檻化,越來越多的挑戰(zhàn)已然不聚焦在模型算法本身,更多的在于數(shù)據(jù),也就是如何把模型從“可用變得好用”。

實(shí)際上,做好大模型的數(shù)據(jù)標(biāo)注不是一件容易的事情。

首先從數(shù)據(jù)本身而言,和之前的標(biāo)注相比,大模型需要的數(shù)據(jù)量級更大,而且數(shù)據(jù)結(jié)構(gòu)更為復(fù)合,除了單個數(shù)據(jù)標(biāo)簽之外,不少大模型的訓(xùn)練需要用到合成數(shù)據(jù)(即用AI產(chǎn)生的數(shù)據(jù)),這也就意味著數(shù)據(jù)本身的標(biāo)注模型和標(biāo)注方法與之前不再相同。

此外,在單純的標(biāo)注環(huán)節(jié),相較于過往的托拉拽的客觀標(biāo)注,現(xiàn)在的更多標(biāo)注需要人工的主動判斷和主動干預(yù),如排序、改寫、生成等,而在更專業(yè)具體的問題上,甚至需要專業(yè)的人士來接入,配合整體標(biāo)注規(guī)則的建立和部分問題的拆解訓(xùn)練。

更有標(biāo)注人員團(tuán)隊(duì)上的不同,如果說之前固有的標(biāo)注需要的僅是簡單的質(zhì)檢和輕微干預(yù),那么如今在如今大模型的標(biāo)注人員團(tuán)隊(duì)建設(shè)上,需要對團(tuán)隊(duì)進(jìn)行定向的培訓(xùn),其中更包括不同專業(yè)知識以及安全合規(guī)等多方面能力的學(xué)習(xí)。

在過去的一段時間里,市面上的大模型企業(yè)有不少都采取自建標(biāo)注棧的模式,即專門招聘人員成立標(biāo)注團(tuán)隊(duì),同時研發(fā)自身的標(biāo)注工具,但一個更為真實(shí)的現(xiàn)狀是:由于缺乏固有的標(biāo)注體系和流程積累,在數(shù)據(jù)工具層面和人員層面始終存在短板,不論是標(biāo)注,還是中間的模型訓(xùn)練、評估環(huán)節(jié),效果始終無法達(dá)到最好。

具體來看,即相較于數(shù)據(jù)存儲側(cè)的向量數(shù)據(jù)庫等更加適配大模型的產(chǎn)品,在數(shù)據(jù)訓(xùn)練和應(yīng)用側(cè)市面上大模型企業(yè)大部分采取的是傳統(tǒng)的標(biāo)注工具和標(biāo)注方法,因而帶來的是巨大的人力和精力投入,同時也對應(yīng)的是不夠高效的訓(xùn)練方法。

這種短板也更在影響著大模型的實(shí)際落地。

即伴隨著產(chǎn)業(yè)和應(yīng)用成為大模型的主戰(zhàn)場,對特定產(chǎn)業(yè)或場景數(shù)據(jù)的標(biāo)注和訓(xùn)練也更在成為大模型落地的必行之道,但由于固有的標(biāo)注方法和標(biāo)注工具存在限制,一定程度上延緩了大模型能力的成型和在實(shí)際場景的應(yīng)用落地。

大模型的“關(guān)鍵一道門”,應(yīng)該怎么邁?

二、如何做好“AI運(yùn)營”?

“優(yōu)質(zhì)的大模型的數(shù)據(jù)標(biāo)注更像是一套成型的AI數(shù)據(jù)運(yùn)營?!币晃幌嚓P(guān)人士表示。

以百度智能云為例,其目前對外提供的是一系列圍繞大模型全生命開發(fā)周期的數(shù)據(jù)服務(wù),其中包括預(yù)訓(xùn)練、監(jiān)督微調(diào)、RLHF、評估等,其覆蓋了大模型中數(shù)據(jù)訓(xùn)練的方方面面,不論是前期的數(shù)據(jù)標(biāo)注還是微調(diào)等等。

這一系列的數(shù)據(jù)標(biāo)注工作恰似大模型的“AI數(shù)據(jù)運(yùn)營”。據(jù)了解,在百度智能云的交付過程中,其部分項(xiàng)目會尋找代碼、教育、法律、等領(lǐng)域?qū)I(yè)人員,一起進(jìn)行需求的規(guī)則制定和數(shù)據(jù)訓(xùn)練,進(jìn)而保證數(shù)據(jù)的真實(shí)性和準(zhǔn)確性。

此外,在標(biāo)注工具側(cè),和其它大模型廠商不同的是,百度智能云也更研發(fā)了自身專有的大模型標(biāo)注平臺工具,針對不同場景、不同需要以及不同的數(shù)據(jù)量可以按照不同的方式進(jìn)行訓(xùn)練,比如其可覆蓋大語言模型、多模態(tài)大模型及代碼等專項(xiàng)標(biāo)注場景多種數(shù)據(jù)標(biāo)注需求。

同時,結(jié)合輔助標(biāo)注算法可以全流程助力標(biāo)注師提升標(biāo)注質(zhì)量和效率。而在標(biāo)注能力之外,其也具備著更為靈活的項(xiàng)目管理機(jī)制,可以更好地適配嚴(yán)苛的交付周期及復(fù)雜多變的標(biāo)注規(guī)則,進(jìn)而滿足不同賽道企業(yè)的大模型訓(xùn)練需求。

據(jù)了解,盡管目前市面上的大模型廠商會在內(nèi)部進(jìn)行自我模型的AI訓(xùn)練,但效果往往沒辦法達(dá)到最好,最終還是會找到像百度智能云這樣的擁有專門標(biāo)注工具的企業(yè)進(jìn)行訓(xùn)練標(biāo)注。

被優(yōu)化的大模型訓(xùn)練模塊還不僅于工具,更在團(tuán)隊(duì)。比如在標(biāo)注人員團(tuán)隊(duì)培訓(xùn)上,百度智能云在??诮ㄔO(shè)了全國首個大模型數(shù)據(jù)標(biāo)注基地,常駐數(shù)百名數(shù)據(jù)標(biāo)注師,本科學(xué)歷達(dá)到100%,覆蓋漢語言文學(xué)、計(jì)算機(jī)、法學(xué)等學(xué)科專業(yè)。

在服務(wù)過程中,除了固有的一體化的模型訓(xùn)練能力,對不少大模型企業(yè)而言,其還有部分專項(xiàng)能力的需求,比如安全能力的強(qiáng)化。

“大模型的輸入是可控的,但是輸出是不可控的,甚至很多時候會因?yàn)榛糜X等原因,有不良或者不合規(guī)的信息出現(xiàn)?!币晃粐鴥?nèi)頭部AI大模型負(fù)責(zé)人告訴我們。這也造成了對大模型訓(xùn)練而言,安全必須是其中要核心把控的指標(biāo),而百度智能云基于自身的“AI數(shù)據(jù)運(yùn)營”能力,則是可以幫助企業(yè)的大模型迅速強(qiáng)化這項(xiàng)專有能力。

實(shí)際上,百度智能云的模式也恰在成為國內(nèi)大模型訓(xùn)練的最先進(jìn)路徑縮影。即不論是在預(yù)訓(xùn)練,還是中間的監(jiān)督微調(diào),抑或是后期的模型評估優(yōu)化等,更為高效的方式恰是這種“AI-native”的標(biāo)注模式。

而基于百度智能云這套“AI-native”的標(biāo)注模式,企業(yè)恰等同于裝備了一個足夠?qū)I(yè)的“AI數(shù)據(jù)運(yùn)營”工具箱,其可以幫助企業(yè)實(shí)現(xiàn)從大模型數(shù)據(jù)到效果的整體運(yùn)作。這其中不僅有被“刷新”的數(shù)據(jù)標(biāo)注團(tuán)隊(duì),也更囊括了一系列包括從預(yù)訓(xùn)練到模型評估,再到能力強(qiáng)化等全部流程在內(nèi)的大模型訓(xùn)練閉環(huán),進(jìn)而更高效、更低成本地構(gòu)建好自身可用、安全的大模型。

三、從模型到應(yīng)用:數(shù)據(jù)在產(chǎn)業(yè)要如何表達(dá)?

在能更快更好地訓(xùn)練出大模型之外,數(shù)據(jù)訓(xùn)練的下一步是什么?實(shí)際上,更為真實(shí)的答案是:應(yīng)用和場景。

誠然如此。如果說第一階段的挑戰(zhàn)更多的在模型參數(shù)量級,即在一定范圍內(nèi)模型本身伴隨著數(shù)據(jù)量越發(fā)凸顯的能力,那么在當(dāng)下的階段,更大的競爭點(diǎn)則是來自于實(shí)際場景的應(yīng)用和業(yè)務(wù)表達(dá)。這種表達(dá)或在金融,或在工業(yè)制造,或在教育、電商等等。

就當(dāng)下而言,產(chǎn)業(yè)或場景大模型的最大難點(diǎn)不是算力和算法,而更大的卡點(diǎn)恰是數(shù)據(jù)表達(dá)。

相較于通用大模型的訓(xùn)練,這種基于特定場景的訓(xùn)練對標(biāo)注能力的要求更高。即在大量的數(shù)據(jù)中,其不僅包含無數(shù)結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),更對參與的人員團(tuán)隊(duì)有足夠?qū)I(yè)的要求,此外,在特定的行業(yè)數(shù)據(jù)服務(wù)上,其對于具體的流程模型也更有特殊的要求。

此外,給數(shù)據(jù)服務(wù)帶來難度的不僅是場景,更有如今討論日漸增多的應(yīng)用。即隨著如今越來越多的AI應(yīng)用,如Agent、文生圖軟件等被推出,往往更需要在通用大模型能力的基礎(chǔ)上收束某項(xiàng)或者某些方面的特有能力,將其加持到軟件內(nèi)部,對應(yīng)到數(shù)據(jù)服務(wù)側(cè)則是在應(yīng)用需求之上的某些專項(xiàng)能力的強(qiáng)化和不斷評估訓(xùn)練。

也更可以說,大模型的數(shù)據(jù)訓(xùn)練和標(biāo)注,正在伴隨著產(chǎn)業(yè)模型和AI應(yīng)用時代的到來進(jìn)入深水區(qū)。

這也恰是百度智能云等深耕過數(shù)據(jù)服務(wù)行業(yè)的企業(yè)價值。伴隨著大模型載體的到來,它們正基于自己對數(shù)據(jù)的多年理解和沉淀,成為推動數(shù)據(jù)到業(yè)務(wù)表達(dá)的最核心力量。

從幕后走到臺前,從數(shù)據(jù)標(biāo)注到數(shù)據(jù)運(yùn)營,從初始的模型訓(xùn)練到細(xì)致的模型調(diào)優(yōu),肉眼可見的是,如百度智能云這樣具備數(shù)據(jù)資源整合和強(qiáng)大研發(fā)能力的科技巨頭企業(yè),正重塑著行業(yè)市場格局。而伴隨著大模型向深水區(qū)的延展,它們的價值也更在愈發(fā)凸顯。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。