正在閱讀:

大模型落地難題怎樣破解?百川智能用搜索給出答案

掃一掃下載界面新聞APP

大模型落地難題怎樣破解?百川智能用搜索給出答案

“光靠模型本身做得再大都是不夠的,大模型+搜索才能構(gòu)成完整的技術(shù)棧。 ”

圖源:百川智能

界面新聞記者 | 李京亞

大模型一周年之際,業(yè)界對各類工作的重要程度開始達(dá)成共識,比如多位開發(fā)者就公認(rèn),擴展大模型上下文長度是非常重要的工作,甚至?xí)蔀榇竽P吐涞氐钠款i,向量數(shù)據(jù)庫則是另一個。

從ChatGPT的4K到GPT-4的32K,從MPT-7B的65K到Claude的100K,進入下半年,大模型的上下文窗口正變得越來越大。為在長文檔問答、長文本摘要和RAG(檢索增強生成)等多種應(yīng)用場景中迅速落地,國內(nèi)方面以百川智能、月之暗面、智譜AI為代表的大模型頭部公司紛紛加入上下文窗口競逐賽。到了年尾時段,王小川似乎又找到了另一種令大模型走向?qū)嵱玫姆椒?,即與自己曾經(jīng)最擅長的領(lǐng)域——搜索結(jié)合起來。

“今天大模型領(lǐng)域有三大問題要去解決,第一,幻覺要通過更大的模型去減少;第二,模型是靜態(tài)的知識庫,需要升級,之前像OpenAI GPT4停在2019年的數(shù)據(jù),到現(xiàn)在最新更新到20234月份,停在那里不動;第三,今天尤其在垂直領(lǐng)域里面,做商業(yè)落地的時候,專業(yè)領(lǐng)域知識不足,每個企業(yè)都有自己的垂直數(shù)據(jù),還有公開的網(wǎng)絡(luò)數(shù)據(jù),如何利用起來?!?span>12月19日下午的一場交流會上,百川智能CEO王小川對界面新聞等媒體提出了對行業(yè)的預(yù)判,“光靠模型本身做得再大都是不夠的,大模型+搜索才能構(gòu)成完整的技術(shù)棧。

簡單說,王小川的意思是指,搜索增強才是大模型落地應(yīng)用的關(guān)鍵。

當(dāng)日下午,百川智能宣布開放基于搜索增強的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo兩款產(chǎn)品。在支持192K超長上下文窗口的基礎(chǔ)上,百川還發(fā)布了搜索增強知識庫的能力,可以讓企業(yè)從私有化部署上把云端知識上傳,做成一個外掛系統(tǒng),跟Baichuan2系統(tǒng)做對接,這樣,每個企業(yè)就可以定制自己的硬盤,做到即插即用。

百川智能的Baichuan2-192k大模型是10月30日發(fā)布的,其依靠高達(dá)192k的上下文窗口長度,居全球上下文窗口之首。此番發(fā)布的Baichuan2-Turbo-192K比之前的運行速度更快,效率精度更高。據(jù)悉,百川智能通過長窗口+搜索增強的方式,在192K長上下文窗口的基礎(chǔ)上,將大模型能夠獲取的文本規(guī)模提升至5000萬tokens(大模型處理文本時的最小單位),相當(dāng)于1億漢字。

搜索增強gif  圖源:百川智能現(xiàn)場演示
為實現(xiàn)更好的向量檢索效果,百川智能自研的向量模型使用了超過1.5T token 的高質(zhì)量中文數(shù)據(jù)進行預(yù)訓(xùn)練。多信息源歸納提取gif 圖源:百川智能現(xiàn)場演示

百川智能聯(lián)合創(chuàng)始人洪濤對記者解釋稱,百川的整個搜索增強知識庫是可看作是一個外掛的硬盤,而上下文窗口在百川體系里相當(dāng)于內(nèi)存,“Baichuan2-192k可以一次容納35萬漢字,這次測試的知識庫相當(dāng)于5000w token,接近1億漢字,整整高兩個數(shù)量級,可以理解成現(xiàn)在的電腦內(nèi)存是G級別,硬盤是T級別。 ”

目前,用戶可通過官網(wǎng)入口體驗搜索增強和長窗口加持后的通用智能。從現(xiàn)場演示可以看出,搜索增強的確能有效解決大模型落地應(yīng)用的諸多問題。

在具體實施上,模型是先根據(jù)用戶的提示詞,在海量的文檔中檢索出最相關(guān)的內(nèi)容,再將這些文檔與提示詞一起放到長窗口中,從而節(jié)省推理費用與時間成本。

在現(xiàn)場演示中,百川智能的知識庫可以推斷出用戶輸入背后深層的問題,能理解用戶的真實意圖,能引導(dǎo)模型回答出更準(zhǔn)確的答案。

為精準(zhǔn)理解用戶意圖,百川智能使用自研大語言模型對用戶意圖理解進行微調(diào),已經(jīng)有能力將用戶連續(xù)多輪、口語化的提示詞Prompt信息轉(zhuǎn)換為更符合傳統(tǒng)搜索引擎理解的關(guān)鍵詞或語義結(jié)構(gòu)。

王小川解釋稱,他們是通過稀疏檢索和向量檢索跟搜索的系統(tǒng)對接的方式,攻克了一部分技術(shù)難點,達(dá)到了語義理解方面的更好效果。首先,百川智能為了讓向量模型實現(xiàn)更好的檢索效果,融入了稀疏檢索這樣的模型,而這個“來自于此前搜索的多年積累”;其次,“用戶需求是口語化、復(fù)雜的上下文相關(guān)的提示詞prompt,而傳統(tǒng)的搜索是基于一個關(guān)鍵詞Prompt,這兩個對齊是今天搜索長窗口要面臨的問題?!?/p>

據(jù)百川智能技術(shù)聯(lián)合創(chuàng)始人陳煒鵬介紹,當(dāng)下,構(gòu)建大模型知識庫的主流方法是向量檢索,但其效果過于依賴訓(xùn)練數(shù)據(jù)的覆蓋,在訓(xùn)練數(shù)據(jù)未覆蓋的領(lǐng)域泛化能力有明顯折扣,本質(zhì)上,向量數(shù)據(jù)庫的檢索方式性能較低,只適用于規(guī)模較小的企業(yè)團隊,而稀疏檢索對嚴(yán)格的語義、漂移和效率都有更好的表現(xiàn),并且用到的正是搜狗過去做搜索引擎時基于符號的搜索方式。

目前,百川正在深入探索稀疏檢索與向量檢索并行的混合檢索方式,并做到了將目標(biāo)文檔的召回率提升到了95%的成果,大幅領(lǐng)先于市面上絕大多數(shù)開源向量模型的80%召回率。

圖源:百川智能現(xiàn)場演示

“召回率越高,準(zhǔn)確度越高,這樣搜索系統(tǒng)會使得大模型工作得更好?!蓖跣〈ū硎?。

此外,百川智能還參考Meta提出的鏈?zhǔn)津炞C(Chain-of-Verification,簡寫CoVe)方法來減少大語言模型幻覺,目前,百川可以做到將真實場景的用戶復(fù)雜問題拆分成多個獨立可并行檢索的子結(jié)構(gòu)問題,從而讓大模型針對每個子問題進行定向的知識庫搜索,提供更加準(zhǔn)確的答案。

“在今天尤其從國內(nèi)來看,搜索增強是大模型走向?qū)嵱玫牡谝徊?,甚至是最關(guān)鍵的一步?!蓖跣〈ㄌ寡?。


百川智能搜索增強數(shù)據(jù)庫在博金大模型挑戰(zhàn)賽中表現(xiàn)不錯,在金融數(shù)據(jù)集(文檔理解部分)、MultiFieldQA-zh和DuReader三個行業(yè)主流知識庫測試集上的得分均領(lǐng)先GPT-3.5、GPT-4等行業(yè)頭部模型。
 

這場發(fā)布會表面推出了三款產(chǎn)品,實際上也是百川智能首次對外介紹公司的To B業(yè)務(wù)進展。王小川表示,百川的搜索增強最大意愿并非解決幻覺問題,而是解決可定制化,后者是To B商業(yè)路線的最大需求,“光靠一個API調(diào)用是不夠的”,因為“企業(yè)有很多私有數(shù)據(jù),如何為模型所用是關(guān)鍵,要通過大模型+搜索增強來實現(xiàn)?!?/p>

重B端的同時,百川智能也并沒有忽視對C端的探索,王小川也在現(xiàn)場反復(fù)提到了對C端產(chǎn)品的看重,還稱正在研發(fā)幾款超級應(yīng)用。

“C端不會做小”。他表示,搜索增強對B、C兩端都很有用,而C端產(chǎn)品有時需要在公域上去做一做,“一方面跟騰訊有合作,一方面我們自己有傳統(tǒng)的搜索積累,自研的搜索,尤其是在搜索里面怎么跟大模型對齊,做了非常多工作?!?/p>

王小川透露,多家行業(yè)頭部企業(yè)已與百川智能達(dá)成合作,包括阿里與騰訊,合作的方式主要包括,在深度融合百川智能長上下文窗口和搜索增強知識庫的能力基礎(chǔ)上,對自身業(yè)務(wù)進行智能側(cè)升級。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

大模型落地難題怎樣破解?百川智能用搜索給出答案

“光靠模型本身做得再大都是不夠的,大模型+搜索才能構(gòu)成完整的技術(shù)棧。 ”

圖源:百川智能

界面新聞記者 | 李京亞

大模型一周年之際,業(yè)界對各類工作的重要程度開始達(dá)成共識,比如多位開發(fā)者就公認(rèn),擴展大模型上下文長度是非常重要的工作,甚至?xí)蔀榇竽P吐涞氐钠款i,向量數(shù)據(jù)庫則是另一個。

從ChatGPT的4K到GPT-4的32K,從MPT-7B的65K到Claude的100K,進入下半年,大模型的上下文窗口正變得越來越大。為在長文檔問答、長文本摘要和RAG(檢索增強生成)等多種應(yīng)用場景中迅速落地,國內(nèi)方面以百川智能、月之暗面、智譜AI為代表的大模型頭部公司紛紛加入上下文窗口競逐賽。到了年尾時段,王小川似乎又找到了另一種令大模型走向?qū)嵱玫姆椒?,即與自己曾經(jīng)最擅長的領(lǐng)域——搜索結(jié)合起來。

“今天大模型領(lǐng)域有三大問題要去解決,第一,幻覺要通過更大的模型去減少;第二,模型是靜態(tài)的知識庫,需要升級,之前像OpenAI GPT4停在2019年的數(shù)據(jù),到現(xiàn)在最新更新到20234月份,停在那里不動;第三,今天尤其在垂直領(lǐng)域里面,做商業(yè)落地的時候,專業(yè)領(lǐng)域知識不足,每個企業(yè)都有自己的垂直數(shù)據(jù),還有公開的網(wǎng)絡(luò)數(shù)據(jù),如何利用起來?!?span>12月19日下午的一場交流會上,百川智能CEO王小川對界面新聞等媒體提出了對行業(yè)的預(yù)判,“光靠模型本身做得再大都是不夠的,大模型+搜索才能構(gòu)成完整的技術(shù)棧。

簡單說,王小川的意思是指,搜索增強才是大模型落地應(yīng)用的關(guān)鍵。

當(dāng)日下午,百川智能宣布開放基于搜索增強的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo兩款產(chǎn)品。在支持192K超長上下文窗口的基礎(chǔ)上,百川還發(fā)布了搜索增強知識庫的能力,可以讓企業(yè)從私有化部署上把云端知識上傳,做成一個外掛系統(tǒng),跟Baichuan2系統(tǒng)做對接,這樣,每個企業(yè)就可以定制自己的硬盤,做到即插即用。

百川智能的Baichuan2-192k大模型是10月30日發(fā)布的,其依靠高達(dá)192k的上下文窗口長度,居全球上下文窗口之首。此番發(fā)布的Baichuan2-Turbo-192K比之前的運行速度更快,效率精度更高。據(jù)悉,百川智能通過長窗口+搜索增強的方式,在192K長上下文窗口的基礎(chǔ)上,將大模型能夠獲取的文本規(guī)模提升至5000萬tokens(大模型處理文本時的最小單位),相當(dāng)于1億漢字。

搜索增強gif  圖源:百川智能現(xiàn)場演示
為實現(xiàn)更好的向量檢索效果,百川智能自研的向量模型使用了超過1.5T token 的高質(zhì)量中文數(shù)據(jù)進行預(yù)訓(xùn)練。多信息源歸納提取gif 圖源:百川智能現(xiàn)場演示

百川智能聯(lián)合創(chuàng)始人洪濤對記者解釋稱,百川的整個搜索增強知識庫是可看作是一個外掛的硬盤,而上下文窗口在百川體系里相當(dāng)于內(nèi)存,“Baichuan2-192k可以一次容納35萬漢字,這次測試的知識庫相當(dāng)于5000w token,接近1億漢字,整整高兩個數(shù)量級,可以理解成現(xiàn)在的電腦內(nèi)存是G級別,硬盤是T級別。 ”

目前,用戶可通過官網(wǎng)入口體驗搜索增強和長窗口加持后的通用智能。從現(xiàn)場演示可以看出,搜索增強的確能有效解決大模型落地應(yīng)用的諸多問題。

在具體實施上,模型是先根據(jù)用戶的提示詞,在海量的文檔中檢索出最相關(guān)的內(nèi)容,再將這些文檔與提示詞一起放到長窗口中,從而節(jié)省推理費用與時間成本。

在現(xiàn)場演示中,百川智能的知識庫可以推斷出用戶輸入背后深層的問題,能理解用戶的真實意圖,能引導(dǎo)模型回答出更準(zhǔn)確的答案。

為精準(zhǔn)理解用戶意圖,百川智能使用自研大語言模型對用戶意圖理解進行微調(diào),已經(jīng)有能力將用戶連續(xù)多輪、口語化的提示詞Prompt信息轉(zhuǎn)換為更符合傳統(tǒng)搜索引擎理解的關(guān)鍵詞或語義結(jié)構(gòu)。

王小川解釋稱,他們是通過稀疏檢索和向量檢索跟搜索的系統(tǒng)對接的方式,攻克了一部分技術(shù)難點,達(dá)到了語義理解方面的更好效果。首先,百川智能為了讓向量模型實現(xiàn)更好的檢索效果,融入了稀疏檢索這樣的模型,而這個“來自于此前搜索的多年積累”;其次,“用戶需求是口語化、復(fù)雜的上下文相關(guān)的提示詞prompt,而傳統(tǒng)的搜索是基于一個關(guān)鍵詞Prompt,這兩個對齊是今天搜索長窗口要面臨的問題。”

據(jù)百川智能技術(shù)聯(lián)合創(chuàng)始人陳煒鵬介紹,當(dāng)下,構(gòu)建大模型知識庫的主流方法是向量檢索,但其效果過于依賴訓(xùn)練數(shù)據(jù)的覆蓋,在訓(xùn)練數(shù)據(jù)未覆蓋的領(lǐng)域泛化能力有明顯折扣,本質(zhì)上,向量數(shù)據(jù)庫的檢索方式性能較低,只適用于規(guī)模較小的企業(yè)團隊,而稀疏檢索對嚴(yán)格的語義、漂移和效率都有更好的表現(xiàn),并且用到的正是搜狗過去做搜索引擎時基于符號的搜索方式。

目前,百川正在深入探索稀疏檢索與向量檢索并行的混合檢索方式,并做到了將目標(biāo)文檔的召回率提升到了95%的成果,大幅領(lǐng)先于市面上絕大多數(shù)開源向量模型的80%召回率。

圖源:百川智能現(xiàn)場演示

“召回率越高,準(zhǔn)確度越高,這樣搜索系統(tǒng)會使得大模型工作得更好?!蓖跣〈ū硎?。

此外,百川智能還參考Meta提出的鏈?zhǔn)津炞C(Chain-of-Verification,簡寫CoVe)方法來減少大語言模型幻覺,目前,百川可以做到將真實場景的用戶復(fù)雜問題拆分成多個獨立可并行檢索的子結(jié)構(gòu)問題,從而讓大模型針對每個子問題進行定向的知識庫搜索,提供更加準(zhǔn)確的答案。

“在今天尤其從國內(nèi)來看,搜索增強是大模型走向?qū)嵱玫牡谝徊剑踔潦亲铌P(guān)鍵的一步。”王小川坦言。


百川智能搜索增強數(shù)據(jù)庫在博金大模型挑戰(zhàn)賽中表現(xiàn)不錯,在金融數(shù)據(jù)集(文檔理解部分)、MultiFieldQA-zh和DuReader三個行業(yè)主流知識庫測試集上的得分均領(lǐng)先GPT-3.5、GPT-4等行業(yè)頭部模型。
 

這場發(fā)布會表面推出了三款產(chǎn)品,實際上也是百川智能首次對外介紹公司的To B業(yè)務(wù)進展。王小川表示,百川的搜索增強最大意愿并非解決幻覺問題,而是解決可定制化,后者是To B商業(yè)路線的最大需求,“光靠一個API調(diào)用是不夠的”,因為“企業(yè)有很多私有數(shù)據(jù),如何為模型所用是關(guān)鍵,要通過大模型+搜索增強來實現(xiàn)?!?/p>

重B端的同時,百川智能也并沒有忽視對C端的探索,王小川也在現(xiàn)場反復(fù)提到了對C端產(chǎn)品的看重,還稱正在研發(fā)幾款超級應(yīng)用。

“C端不會做小”。他表示,搜索增強對B、C兩端都很有用,而C端產(chǎn)品有時需要在公域上去做一做,“一方面跟騰訊有合作,一方面我們自己有傳統(tǒng)的搜索積累,自研的搜索,尤其是在搜索里面怎么跟大模型對齊,做了非常多工作?!?/p>

王小川透露,多家行業(yè)頭部企業(yè)已與百川智能達(dá)成合作,包括阿里與騰訊,合作的方式主要包括,在深度融合百川智能長上下文窗口和搜索增強知識庫的能力基礎(chǔ)上,對自身業(yè)務(wù)進行智能側(cè)升級。

未經(jīng)正式授權(quán)嚴(yán)禁轉(zhuǎn)載本文,侵權(quán)必究。