正在閱讀:

向量數(shù)據(jù)庫,展望AGI時代

掃一掃下載界面新聞APP

向量數(shù)據(jù)庫,展望AGI時代

偽需求,還是未來的數(shù)據(jù)庫中間態(tài)?

圖片來源:界面新聞 匡達

文|產(chǎn)業(yè)家 思杭

編輯|皮爺

每逢淘金熱,最后的贏家都是賣鏟人,而非淘金者。

這是著名的鏟子理論。在今年大模型的風口下,向量數(shù)據(jù)庫就成了這把鏟子。

在此之前,向量數(shù)據(jù)庫經(jīng)歷了幾年的沉寂期,現(xiàn)在似乎終于成為資本的“寵兒”。這個曾經(jīng)冷卻的賽道如今在半年間就收獲了10億元融資,然而,資本“無節(jié)制”的追捧對于向量數(shù)據(jù)庫賽道究竟是獎勵,還是懲罰?是終于等到機會可以放手一搏?還是前路漫漫,遙遙無期?

判斷一條賽道是否真的有潛力,資本的注入雖是前提,但更重要的還有市場的態(tài)度。大模型應(yīng)用的逐步落地于向量數(shù)據(jù)庫而言,無疑是最好的催熟劑。

然而任何新技術(shù)的到來,都需要更長的時間才能得到市場的接受。

對此,產(chǎn)業(yè)家通過了解多家目前已發(fā)布向量數(shù)據(jù)庫的廠商,從他們口中可以窺見出目前的市場態(tài)度。

于星環(huán)科技而言,從5月份正式發(fā)布向量數(shù)據(jù)庫產(chǎn)品至今,已走過近半年的時間。在他們的觀察中發(fā)現(xiàn),客戶對大語言模型等深度學習應(yīng)用非常感興趣。然而,客戶目前仍處于學習和選型的階段。在將新技術(shù)引入實際業(yè)務(wù)之前,客戶也需要時間來適應(yīng)和了解這些新概念。

另外,在近期,騰訊云也更是宣布了向量數(shù)據(jù)庫的產(chǎn)品升級。在發(fā)布會當天,騰訊云數(shù)據(jù)庫副總經(jīng)理羅云對媒體表示,向量數(shù)據(jù)庫產(chǎn)品目前的對外客戶數(shù)已過千家。

據(jù)了解,目前騰訊云在向量數(shù)據(jù)庫的發(fā)力點是從已有客戶開始拓展,如今客戶也正處于擁抱和適應(yīng)新技術(shù)的階段。

一份關(guān)于向量數(shù)據(jù)庫更真實的市場調(diào)查是,隨著AI應(yīng)用場景加速落地,據(jù)西南證券分析,預計2025年向量數(shù)據(jù)庫滲透率約為30%,其中,中國向量數(shù)據(jù)庫市場規(guī)模約為82.56億元。而據(jù)中國信通院測算,到2025年,中國數(shù)據(jù)庫市場規(guī)模將達688億元。這意味著,兩年后向量數(shù)據(jù)庫在中國的滲透率將超過10%。

在國內(nèi),不少數(shù)據(jù)庫廠商都在嘗試推出向量數(shù)據(jù)庫產(chǎn)品,然而從市場驗證階段走向?qū)崿F(xiàn)盈利,中間還需要一段更漫長的時間。

在此過程中,不乏有質(zhì)疑聲出現(xiàn)。比如前段時間,流數(shù)據(jù)庫公司 RisingWave創(chuàng)始人&CEO吳英駿公開發(fā)文“為什么你不應(yīng)該押注向量數(shù)據(jù)庫?”。在文中,吳英駿表示,盡管他對向量數(shù)據(jù)庫的前景頗有信心,但目前并不鼓勵進入向量數(shù)據(jù)庫市場。

向量數(shù)據(jù)庫究竟是虛火過旺還是星辰大海?在向量數(shù)據(jù)庫這條賽道,能否看到更遠的未來?在這一命題下,筆者試圖從向量數(shù)據(jù)庫的市場應(yīng)用和演進歷程,來揭開這一神秘的面紗。

一、“單打獨斗” VS ”團隊協(xié)作“?

大模型解決的是計算問題,而向量數(shù)據(jù)庫則解決存儲問題。

這是從2023年初向量數(shù)據(jù)庫崛起開始,至今為止行業(yè)內(nèi)公認的看法。

“絕大多數(shù)人工智能研發(fā)的項目從未投入生產(chǎn),這其中的關(guān)鍵原因是缺乏正確的工具。而大語言模型與非結(jié)構(gòu)化數(shù)據(jù)的結(jié)合,可以為AI應(yīng)用相關(guān)的創(chuàng)業(yè)者打開新世界?!?/p>

在最吸金的海外向量數(shù)據(jù)庫創(chuàng)業(yè)公司中,Qdrant正是其中一家。其CEO兼聯(lián)合創(chuàng)始人Andre Zayarni對于當前向量數(shù)據(jù)庫與大語言模型的結(jié)合,發(fā)表了上述觀點。

一個更恰當?shù)谋扔魇?,向量?shù)據(jù)庫充當了連接非結(jié)構(gòu)化數(shù)據(jù)與AI應(yīng)用的橋梁作用。也可以說,向量數(shù)據(jù)庫是專為AI量身定制的。

實際上,在Gartner的調(diào)查報告中曾表示過當前非結(jié)構(gòu)化數(shù)據(jù)的增長速度?,F(xiàn)在90%的新數(shù)據(jù)都屬于非結(jié)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化數(shù)據(jù)的增速更是結(jié)構(gòu)化數(shù)據(jù)增速的三倍以上。

然而,非結(jié)構(gòu)化數(shù)據(jù)需求的激增,是否真的能帶來向量數(shù)據(jù)庫需求的增長?兩者也許未必能劃上等號。

在向量數(shù)據(jù)庫賽道中,一個更大的爭議點是,是否真的有必要單獨設(shè)計一款向量數(shù)據(jù)庫的產(chǎn)品,還是僅僅將向量化搜索能力嵌入到傳統(tǒng)數(shù)據(jù)庫當中即可。

回答這一問題前,理解究竟什么是向量數(shù)據(jù)庫,以及向量數(shù)據(jù)庫的具體應(yīng)用則十分必要。

首先,向量數(shù)據(jù)庫的“向量”也可以理解為一種“標簽”或某種”屬性“。在AI應(yīng)用中,這些標簽可以準確地幫助AI找到問題的答案,從而通過提取標簽來提取數(shù)據(jù)。

一個生動的比喻是,向量就像一張地圖,任何對象都可以根據(jù)時間序列信息在列表和表格中找到答案。

對此,星環(huán)科技基礎(chǔ)架構(gòu)部副總經(jīng)理劉熙給出了更具體的詮釋。與傳統(tǒng)的數(shù)據(jù)庫不同,向量數(shù)據(jù)庫處理的是非結(jié)構(gòu)化數(shù)據(jù),如圖片、視頻、長文本和音頻等。這些數(shù)據(jù)的意義不在于其物理表示,并不僅僅是一堆字節(jié),真正有意義的地方在于隱藏的語義。

而向量數(shù)據(jù)庫在其中發(fā)揮的作用是,通過AI技術(shù),例如典型的神經(jīng)網(wǎng)絡(luò),來識別、提取和編碼非結(jié)構(gòu)化數(shù)據(jù)背后的語義特征。最終,將這種數(shù)據(jù)的語義映射或嵌入到高維的向量空間中。

這樣做的好處是,將數(shù)據(jù)庫無法直接處理的語義問題,轉(zhuǎn)化為向量空間中的一個搜索問題。簡而言之,利用AI技術(shù),將數(shù)據(jù)庫無法直接處理的數(shù)據(jù)背后的語義,轉(zhuǎn)化為一個結(jié)構(gòu)化的過程。

放在更具體的場景里,比如大語言模型要如何與向量數(shù)據(jù)庫建立連接?

對此,百度智能云大數(shù)據(jù)技術(shù)負責人李蒞之前曾表示,從多個方面來看,向量數(shù)據(jù)庫都是大模型的必要設(shè)施。首先,大模型自身能夠存儲的數(shù)據(jù)是有限的,而大量的知識數(shù)據(jù)需要被存儲起來,以供大模型在問答時使用。

所以向量數(shù)據(jù)庫在其中的作用是,它可以讓大模型回答出更實時的內(nèi)容。倘若讓大模型根據(jù)最新的消息做回答,這時候就需要通過一些外置的數(shù)據(jù)庫,將這些外置數(shù)據(jù)庫中存儲的數(shù)據(jù)直接輸給它,這樣大模型就可以結(jié)合這些數(shù)據(jù)去做更準確的回答。

而在大模型與向量數(shù)據(jù)庫結(jié)合的應(yīng)用方面,星環(huán)科技提供了一個真實案例。在其開發(fā)的金融大模型中,向量數(shù)據(jù)庫就派上了用場。

劉熙告訴產(chǎn)業(yè)家,在金融大模型的開發(fā)場景中,從財經(jīng)新聞中通過實體識別算法可以提取企業(yè)法人等信息。這些信息并不僅僅是向量,它們更像是一些屬性標簽。類似地,在以前的電商場景中,對于商品圖片,除了特征向量外,還可能提取價格、顏色等結(jié)構(gòu)化標簽。

所以,關(guān)于單獨設(shè)計向量數(shù)據(jù)庫產(chǎn)品,還是將向量化搜索能力嵌入到傳統(tǒng)數(shù)據(jù)庫中?這是一個”單打獨斗“和”團隊協(xié)作“的話題。

在劉熙看來,基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫封裝向量計算功能,和專業(yè)的向量數(shù)據(jù)庫,是兩條的技術(shù)路線?!叭绻皇切?shù)據(jù)量、訪問并發(fā)延遲這類要求也不 的情況下,從原有數(shù)據(jù)庫 封裝向量計算的方法可能是可行的;但如果數(shù)據(jù)規(guī)模、訪問并發(fā)等指標達到一定級別,出于性能、擴展性、資源彈性方面的原因,這時則需要專業(yè)的向量數(shù)據(jù)庫?!?/p>

同樣地,羅云也認為這兩者并不互斥。但至于單獨設(shè)計向量數(shù)據(jù)庫產(chǎn)品,也是一種必然。

具體來看,向量在未來是一種通用人工智能背后的數(shù)據(jù)格式。也就是說,向量需要橋接關(guān)鍵數(shù)據(jù)庫、非關(guān)鍵數(shù)據(jù)庫等所有結(jié)構(gòu)的數(shù)據(jù)。但將不同結(jié)構(gòu)的數(shù)據(jù)放在一個數(shù)據(jù)管理平臺上,最后的結(jié)果是,不同數(shù)據(jù)格式的差異會導致沒有辦法更好地利用非結(jié)構(gòu)化數(shù)據(jù)。

因此,在這種模式下,將向量化搜索能力插件到傳統(tǒng)數(shù)據(jù)庫中是很難的。比如在一個分布式數(shù)據(jù)庫里去支持向量化插件,讓它來處理騰訊云存儲的數(shù)據(jù),那么它最后也會變成一個獨立的向量數(shù)據(jù)庫。

但如果數(shù)據(jù)庫的場景只是在MYSQL里檢索部分的向量,那么將向量化搜索能力嵌入傳統(tǒng)數(shù)據(jù)庫,這樣的解決方案也成立。

對此,李蒞的看法是,大模型的核心需求就是向量檢索的能力。按邏輯來講,傳統(tǒng)數(shù)據(jù)庫加上向量引擎,這樣的解決方案能夠行得通。

但問題也在于,業(yè)務(wù)規(guī)模發(fā)展壯大后,這時就單獨的向量數(shù)據(jù)庫產(chǎn)品,來支持上億用戶訪問量的大模型應(yīng)用。其中,這里面還要各種架構(gòu)考量,比如存算分離等技術(shù),來保證大模型的規(guī)模化擴展。

因此,綜合來看,得出的結(jié)論則是,短時期內(nèi),在大語言模型還未規(guī)?;褂脮r,“團隊協(xié)作”的方案還能夠解決一些問題。

但站在更長遠的角度,向量數(shù)據(jù)庫這條賽道一定會在數(shù)據(jù)庫領(lǐng)域中占有一席之地。

二、向量數(shù)據(jù)庫的前世今生

從2017年到2019年,于向量數(shù)據(jù)庫的發(fā)展而言,是一段更為重要的時間。

如果說,2023年大模型的爆火,讓向量數(shù)據(jù)庫進入到發(fā)展期,那么2017~2019年就是它的萌芽期。

根據(jù)產(chǎn)業(yè)家了解,騰訊云、星環(huán)科技、百度智能云、京東科技等也恰都是在這個時間段將向量數(shù)據(jù)庫的相關(guān)組件應(yīng)用到具體的業(yè)務(wù)之上。

這些都是目前市面上已發(fā)布向量數(shù)據(jù)庫產(chǎn)品的廠商。

實際上,2017~2019年這段時間所對應(yīng)的背景也正是,非結(jié)構(gòu)化數(shù)據(jù)需求的激增。

一個具有代表性的事件是,2017年,短視頻的爆火,催生了新媒體行業(yè),各種結(jié)構(gòu)數(shù)據(jù)也隨之出現(xiàn)。這一現(xiàn)象就導致了不同結(jié)構(gòu)數(shù)據(jù)的處理需求。

除此之外,京東、騰訊和百度的內(nèi)部產(chǎn)品也有更多類似的需求。而向量化引擎也正是從這一時間點開始萌芽。

2018年,星環(huán)科技內(nèi)部的AI團隊有了向量數(shù)據(jù)庫這一需求。

然而,當時向量數(shù)據(jù)庫的賽道還是一片沉寂,對于是否要專門研發(fā)處理向量數(shù)據(jù)的數(shù)據(jù)庫,星環(huán)科技內(nèi)部也在謹慎考慮。

當時的場景是,星環(huán)科技AI團隊提出向量數(shù)據(jù)管理對于其AI業(yè)務(wù)非常重要。雖然當時有Faiss向量庫來處理這類數(shù)據(jù),但由于當時Faiss的版本還處于比較早期的階段,AI團隊需要自己編寫代碼來管理這些向量數(shù)據(jù),基本上每個項目都需要重復進行這樣的工作,非常費時費力,而且可能無法保證高可用性和安全性。

因此,向量數(shù)據(jù)庫的需求也早在當時就誕生了。和現(xiàn)在不同的是,當時并看不到太大的市場,盡管在星環(huán)科技的眼中,這項技術(shù)有十足的潛力。

于是,他們內(nèi)部做出了一個決定?!凹词瓜蛄繑?shù)據(jù)庫可能不能立即商業(yè)化,但我們?nèi)匀徽J為有必要為將來做這樣的技術(shù)儲備?!眲⑽趸貞浀?。

那時星環(huán)還專注于開發(fā)多模型統(tǒng)一處理技術(shù),逐步將一些數(shù)據(jù)庫的通用功能,如分布式存儲、分布式計算、安全性和資源管理等功能,從緊耦合的架構(gòu)轉(zhuǎn)化為松耦合的架構(gòu),目標是通過統(tǒng)一的架構(gòu)來更好地支持各種數(shù)據(jù)庫,例如圖數(shù)據(jù)庫和時序數(shù)據(jù)庫。

同時,內(nèi)部團隊不需要太多考慮面向客戶的問題,需求相對明確,因此星環(huán)科技很快就完成了從0到1的第一個版本,并交付給AI團隊。之后,隨著AI團隊的深入使用,星環(huán)科技向量數(shù)據(jù)庫開始持續(xù)迭代,最終成為一個成熟產(chǎn)品走向市場。

類似的故事也發(fā)生在京東、騰訊云和百度智能云的內(nèi)部。

京東的故事則發(fā)生于2017年。當時,團隊內(nèi)部正在著手處理一些以圖搜圖的應(yīng)用場景。為了解決京東的搜圖場景,團隊構(gòu)建了一個十億規(guī)模的向量數(shù)據(jù)庫,主要的場景是針對京東每天上架大量商品時,需要即時展示商品圖片。而實時性成為了當時的重要問題。

而這正是京東向量數(shù)據(jù)庫vearch的誕生背景。

而相比之下,百度智能云的故事就顯得不太一樣。

2019年,百度智能云也將注意力轉(zhuǎn)移到了向量檢索技術(shù)的身上。他們計劃在Elastic Search公有云場景上去做一些向量的能力。

Elastic Search(ES)屬于NoSQL數(shù)據(jù)庫的一種。如果再細分,它是文檔型或搜索型數(shù)據(jù)庫。由于有各種搜索場景的需求,所以它會存向量的數(shù)據(jù)。而既然存了向量的數(shù)據(jù),ES又是一個搜索型的數(shù)據(jù)庫,自然也要搜索向量的數(shù)據(jù)。這也是百度智能云在此基礎(chǔ)上加向量檢索能力的背景。

具體來講,百度智能云在ES上做了兩點改造:一是支持向量數(shù)據(jù)列式存儲格式,二是基于社區(qū)開源的向量相似度引擎做了一些搜索加速的改進。

四年后的今天,向量數(shù)據(jù)庫終于迎來自己了的光輝時刻。而在各種歡呼聲和質(zhì)疑聲下,向量數(shù)據(jù)庫也在逐漸完成蛻變。

三、向量數(shù)據(jù)庫,展望AGI時代

從某種程度上而言,無論是向量數(shù)據(jù)庫,還是大模型,歸根結(jié)底,大家在追捧它時的心態(tài),焦慮大于需求。而這種焦慮則來源于“害怕被落下”。

大模型、多模態(tài)、OpenAI的新應(yīng)用等等新技術(shù)、新應(yīng)用的出現(xiàn),正在迅速刷新著人們對AGI時代的期待,仿佛它下一刻就會到來。

而向量數(shù)據(jù)庫的熱潮,在一定程度上“外化”了人們的焦慮。但這并不能否定向量數(shù)據(jù)庫的實際價值,甚至更長遠的價值。

雖然,目前向量數(shù)據(jù)庫仍處于發(fā)展初期,但可以確定的是,向量數(shù)據(jù)庫與大模型一定是捆綁關(guān)系。因此,未來其演進方向也一定隨著大模型能力的演進而發(fā)生變化。

在羅云看來,“未來,向量數(shù)據(jù)庫解決的是整個智能世界的智能存儲和管理問題?!?/p>

而在具體的演進方向上,向量數(shù)據(jù)庫一定會考慮多模態(tài)數(shù)據(jù)的表達以及數(shù)據(jù)的智能化管理。

首先,在大模型應(yīng)用百花齊放的背景下,向量數(shù)據(jù)庫對于多模態(tài)數(shù)據(jù)的處理意義,變得十分重要。

一個生活化的例子是,吃飯、看電影、聽音樂等等娛樂事項,這些記錄了你的一天。接下來,你想通過自然語言將其全部調(diào)取出來。

那么如果沒有一個單獨的向量數(shù)據(jù)庫參與,以及沒有合理的多模態(tài)數(shù)據(jù)處理方式,這種情況下是無法查詢出這些數(shù)據(jù)的。而所謂的多模態(tài)也正是除了文字以外的照片、視頻、音頻等數(shù)據(jù)。

但隨著多模態(tài)數(shù)據(jù)規(guī)模上的提升,另一個問題也隨之出現(xiàn)。不同數(shù)據(jù)庫中數(shù)據(jù)如何將其統(tǒng)一管理并讓數(shù)據(jù)流通起來,這其中涉及到的智能化管理也是向量數(shù)據(jù)庫未來的發(fā)力點。

因此,未來的向量數(shù)據(jù)庫需要承載的是智能化數(shù)據(jù)平臺。

另外,在星環(huán)科技向量數(shù)據(jù)庫產(chǎn)品Hippo過去的研發(fā)過程中,劉熙對于擴展性、成本、易用性和路徑優(yōu)化方面都提出了挑戰(zhàn)。

首先,在擴展性和成本方面,大模型的普及讓向量數(shù)據(jù)的規(guī)模不斷增大。對于向量數(shù)據(jù)的存儲和索引,也提高了對硬件資源的要求,成本也自然隨之提升。

而在易用性方面則涉及到了多種參數(shù)的挑戰(zhàn)。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不同,向量搜索涉及到更多維度的考量,包括性能和召回率等。而為了平衡性能和召回率,需要調(diào)整各種參數(shù),但這對用戶來說并不友好。因此,簡化參數(shù)選擇,提高用戶體驗是更加重要的挑戰(zhàn)。

最后則是混合搜索中的路徑優(yōu)化問題。與傳統(tǒng)的優(yōu)化器相比,向量搜索的優(yōu)化器更加復雜,因為它需要考慮多維度的因素。如何設(shè)計一個能夠描述向量搜索代價的模型,以實現(xiàn)性能和召回率的平衡,是一個需要解決的難題。

不可否認的是,向量數(shù)據(jù)庫的未來有星辰大海,也有曲折的前路。

背靠大模型,向量數(shù)據(jù)庫在2023年成為了資本的“寵兒”。然而,在未來的AGI時代,向量數(shù)據(jù)庫還有更多實事要干。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

向量數(shù)據(jù)庫,展望AGI時代

偽需求,還是未來的數(shù)據(jù)庫中間態(tài)?

圖片來源:界面新聞 匡達

文|產(chǎn)業(yè)家 思杭

編輯|皮爺

每逢淘金熱,最后的贏家都是賣鏟人,而非淘金者。

這是著名的鏟子理論。在今年大模型的風口下,向量數(shù)據(jù)庫就成了這把鏟子。

在此之前,向量數(shù)據(jù)庫經(jīng)歷了幾年的沉寂期,現(xiàn)在似乎終于成為資本的“寵兒”。這個曾經(jīng)冷卻的賽道如今在半年間就收獲了10億元融資,然而,資本“無節(jié)制”的追捧對于向量數(shù)據(jù)庫賽道究竟是獎勵,還是懲罰?是終于等到機會可以放手一搏?還是前路漫漫,遙遙無期?

判斷一條賽道是否真的有潛力,資本的注入雖是前提,但更重要的還有市場的態(tài)度。大模型應(yīng)用的逐步落地于向量數(shù)據(jù)庫而言,無疑是最好的催熟劑。

然而任何新技術(shù)的到來,都需要更長的時間才能得到市場的接受。

對此,產(chǎn)業(yè)家通過了解多家目前已發(fā)布向量數(shù)據(jù)庫的廠商,從他們口中可以窺見出目前的市場態(tài)度。

于星環(huán)科技而言,從5月份正式發(fā)布向量數(shù)據(jù)庫產(chǎn)品至今,已走過近半年的時間。在他們的觀察中發(fā)現(xiàn),客戶對大語言模型等深度學習應(yīng)用非常感興趣。然而,客戶目前仍處于學習和選型的階段。在將新技術(shù)引入實際業(yè)務(wù)之前,客戶也需要時間來適應(yīng)和了解這些新概念。

另外,在近期,騰訊云也更是宣布了向量數(shù)據(jù)庫的產(chǎn)品升級。在發(fā)布會當天,騰訊云數(shù)據(jù)庫副總經(jīng)理羅云對媒體表示,向量數(shù)據(jù)庫產(chǎn)品目前的對外客戶數(shù)已過千家。

據(jù)了解,目前騰訊云在向量數(shù)據(jù)庫的發(fā)力點是從已有客戶開始拓展,如今客戶也正處于擁抱和適應(yīng)新技術(shù)的階段。

一份關(guān)于向量數(shù)據(jù)庫更真實的市場調(diào)查是,隨著AI應(yīng)用場景加速落地,據(jù)西南證券分析,預計2025年向量數(shù)據(jù)庫滲透率約為30%,其中,中國向量數(shù)據(jù)庫市場規(guī)模約為82.56億元。而據(jù)中國信通院測算,到2025年,中國數(shù)據(jù)庫市場規(guī)模將達688億元。這意味著,兩年后向量數(shù)據(jù)庫在中國的滲透率將超過10%。

在國內(nèi),不少數(shù)據(jù)庫廠商都在嘗試推出向量數(shù)據(jù)庫產(chǎn)品,然而從市場驗證階段走向?qū)崿F(xiàn)盈利,中間還需要一段更漫長的時間。

在此過程中,不乏有質(zhì)疑聲出現(xiàn)。比如前段時間,流數(shù)據(jù)庫公司 RisingWave創(chuàng)始人&CEO吳英駿公開發(fā)文“為什么你不應(yīng)該押注向量數(shù)據(jù)庫?”。在文中,吳英駿表示,盡管他對向量數(shù)據(jù)庫的前景頗有信心,但目前并不鼓勵進入向量數(shù)據(jù)庫市場。

向量數(shù)據(jù)庫究竟是虛火過旺還是星辰大海?在向量數(shù)據(jù)庫這條賽道,能否看到更遠的未來?在這一命題下,筆者試圖從向量數(shù)據(jù)庫的市場應(yīng)用和演進歷程,來揭開這一神秘的面紗。

一、“單打獨斗” VS ”團隊協(xié)作“?

大模型解決的是計算問題,而向量數(shù)據(jù)庫則解決存儲問題。

這是從2023年初向量數(shù)據(jù)庫崛起開始,至今為止行業(yè)內(nèi)公認的看法。

“絕大多數(shù)人工智能研發(fā)的項目從未投入生產(chǎn),這其中的關(guān)鍵原因是缺乏正確的工具。而大語言模型與非結(jié)構(gòu)化數(shù)據(jù)的結(jié)合,可以為AI應(yīng)用相關(guān)的創(chuàng)業(yè)者打開新世界?!?/p>

在最吸金的海外向量數(shù)據(jù)庫創(chuàng)業(yè)公司中,Qdrant正是其中一家。其CEO兼聯(lián)合創(chuàng)始人Andre Zayarni對于當前向量數(shù)據(jù)庫與大語言模型的結(jié)合,發(fā)表了上述觀點。

一個更恰當?shù)谋扔魇?,向量?shù)據(jù)庫充當了連接非結(jié)構(gòu)化數(shù)據(jù)與AI應(yīng)用的橋梁作用。也可以說,向量數(shù)據(jù)庫是專為AI量身定制的。

實際上,在Gartner的調(diào)查報告中曾表示過當前非結(jié)構(gòu)化數(shù)據(jù)的增長速度?,F(xiàn)在90%的新數(shù)據(jù)都屬于非結(jié)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化數(shù)據(jù)的增速更是結(jié)構(gòu)化數(shù)據(jù)增速的三倍以上。

然而,非結(jié)構(gòu)化數(shù)據(jù)需求的激增,是否真的能帶來向量數(shù)據(jù)庫需求的增長?兩者也許未必能劃上等號。

在向量數(shù)據(jù)庫賽道中,一個更大的爭議點是,是否真的有必要單獨設(shè)計一款向量數(shù)據(jù)庫的產(chǎn)品,還是僅僅將向量化搜索能力嵌入到傳統(tǒng)數(shù)據(jù)庫當中即可。

回答這一問題前,理解究竟什么是向量數(shù)據(jù)庫,以及向量數(shù)據(jù)庫的具體應(yīng)用則十分必要。

首先,向量數(shù)據(jù)庫的“向量”也可以理解為一種“標簽”或某種”屬性“。在AI應(yīng)用中,這些標簽可以準確地幫助AI找到問題的答案,從而通過提取標簽來提取數(shù)據(jù)。

一個生動的比喻是,向量就像一張地圖,任何對象都可以根據(jù)時間序列信息在列表和表格中找到答案。

對此,星環(huán)科技基礎(chǔ)架構(gòu)部副總經(jīng)理劉熙給出了更具體的詮釋。與傳統(tǒng)的數(shù)據(jù)庫不同,向量數(shù)據(jù)庫處理的是非結(jié)構(gòu)化數(shù)據(jù),如圖片、視頻、長文本和音頻等。這些數(shù)據(jù)的意義不在于其物理表示,并不僅僅是一堆字節(jié),真正有意義的地方在于隱藏的語義。

而向量數(shù)據(jù)庫在其中發(fā)揮的作用是,通過AI技術(shù),例如典型的神經(jīng)網(wǎng)絡(luò),來識別、提取和編碼非結(jié)構(gòu)化數(shù)據(jù)背后的語義特征。最終,將這種數(shù)據(jù)的語義映射或嵌入到高維的向量空間中。

這樣做的好處是,將數(shù)據(jù)庫無法直接處理的語義問題,轉(zhuǎn)化為向量空間中的一個搜索問題。簡而言之,利用AI技術(shù),將數(shù)據(jù)庫無法直接處理的數(shù)據(jù)背后的語義,轉(zhuǎn)化為一個結(jié)構(gòu)化的過程。

放在更具體的場景里,比如大語言模型要如何與向量數(shù)據(jù)庫建立連接?

對此,百度智能云大數(shù)據(jù)技術(shù)負責人李蒞之前曾表示,從多個方面來看,向量數(shù)據(jù)庫都是大模型的必要設(shè)施。首先,大模型自身能夠存儲的數(shù)據(jù)是有限的,而大量的知識數(shù)據(jù)需要被存儲起來,以供大模型在問答時使用。

所以向量數(shù)據(jù)庫在其中的作用是,它可以讓大模型回答出更實時的內(nèi)容。倘若讓大模型根據(jù)最新的消息做回答,這時候就需要通過一些外置的數(shù)據(jù)庫,將這些外置數(shù)據(jù)庫中存儲的數(shù)據(jù)直接輸給它,這樣大模型就可以結(jié)合這些數(shù)據(jù)去做更準確的回答。

而在大模型與向量數(shù)據(jù)庫結(jié)合的應(yīng)用方面,星環(huán)科技提供了一個真實案例。在其開發(fā)的金融大模型中,向量數(shù)據(jù)庫就派上了用場。

劉熙告訴產(chǎn)業(yè)家,在金融大模型的開發(fā)場景中,從財經(jīng)新聞中通過實體識別算法可以提取企業(yè)法人等信息。這些信息并不僅僅是向量,它們更像是一些屬性標簽。類似地,在以前的電商場景中,對于商品圖片,除了特征向量外,還可能提取價格、顏色等結(jié)構(gòu)化標簽。

所以,關(guān)于單獨設(shè)計向量數(shù)據(jù)庫產(chǎn)品,還是將向量化搜索能力嵌入到傳統(tǒng)數(shù)據(jù)庫中?這是一個”單打獨斗“和”團隊協(xié)作“的話題。

在劉熙看來,基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫封裝向量計算功能,和專業(yè)的向量數(shù)據(jù)庫,是兩條的技術(shù)路線?!叭绻皇切?shù)據(jù)量、訪問并發(fā)延遲這類要求也不 的情況下,從原有數(shù)據(jù)庫 封裝向量計算的方法可能是可行的;但如果數(shù)據(jù)規(guī)模、訪問并發(fā)等指標達到一定級別,出于性能、擴展性、資源彈性方面的原因,這時則需要專業(yè)的向量數(shù)據(jù)庫?!?/p>

同樣地,羅云也認為這兩者并不互斥。但至于單獨設(shè)計向量數(shù)據(jù)庫產(chǎn)品,也是一種必然。

具體來看,向量在未來是一種通用人工智能背后的數(shù)據(jù)格式。也就是說,向量需要橋接關(guān)鍵數(shù)據(jù)庫、非關(guān)鍵數(shù)據(jù)庫等所有結(jié)構(gòu)的數(shù)據(jù)。但將不同結(jié)構(gòu)的數(shù)據(jù)放在一個數(shù)據(jù)管理平臺上,最后的結(jié)果是,不同數(shù)據(jù)格式的差異會導致沒有辦法更好地利用非結(jié)構(gòu)化數(shù)據(jù)。

因此,在這種模式下,將向量化搜索能力插件到傳統(tǒng)數(shù)據(jù)庫中是很難的。比如在一個分布式數(shù)據(jù)庫里去支持向量化插件,讓它來處理騰訊云存儲的數(shù)據(jù),那么它最后也會變成一個獨立的向量數(shù)據(jù)庫。

但如果數(shù)據(jù)庫的場景只是在MYSQL里檢索部分的向量,那么將向量化搜索能力嵌入傳統(tǒng)數(shù)據(jù)庫,這樣的解決方案也成立。

對此,李蒞的看法是,大模型的核心需求就是向量檢索的能力。按邏輯來講,傳統(tǒng)數(shù)據(jù)庫加上向量引擎,這樣的解決方案能夠行得通。

但問題也在于,業(yè)務(wù)規(guī)模發(fā)展壯大后,這時就單獨的向量數(shù)據(jù)庫產(chǎn)品,來支持上億用戶訪問量的大模型應(yīng)用。其中,這里面還要各種架構(gòu)考量,比如存算分離等技術(shù),來保證大模型的規(guī)模化擴展。

因此,綜合來看,得出的結(jié)論則是,短時期內(nèi),在大語言模型還未規(guī)模化使用時,“團隊協(xié)作”的方案還能夠解決一些問題。

但站在更長遠的角度,向量數(shù)據(jù)庫這條賽道一定會在數(shù)據(jù)庫領(lǐng)域中占有一席之地。

二、向量數(shù)據(jù)庫的前世今生

從2017年到2019年,于向量數(shù)據(jù)庫的發(fā)展而言,是一段更為重要的時間。

如果說,2023年大模型的爆火,讓向量數(shù)據(jù)庫進入到發(fā)展期,那么2017~2019年就是它的萌芽期。

根據(jù)產(chǎn)業(yè)家了解,騰訊云、星環(huán)科技、百度智能云、京東科技等也恰都是在這個時間段將向量數(shù)據(jù)庫的相關(guān)組件應(yīng)用到具體的業(yè)務(wù)之上。

這些都是目前市面上已發(fā)布向量數(shù)據(jù)庫產(chǎn)品的廠商。

實際上,2017~2019年這段時間所對應(yīng)的背景也正是,非結(jié)構(gòu)化數(shù)據(jù)需求的激增。

一個具有代表性的事件是,2017年,短視頻的爆火,催生了新媒體行業(yè),各種結(jié)構(gòu)數(shù)據(jù)也隨之出現(xiàn)。這一現(xiàn)象就導致了不同結(jié)構(gòu)數(shù)據(jù)的處理需求。

除此之外,京東、騰訊和百度的內(nèi)部產(chǎn)品也有更多類似的需求。而向量化引擎也正是從這一時間點開始萌芽。

2018年,星環(huán)科技內(nèi)部的AI團隊有了向量數(shù)據(jù)庫這一需求。

然而,當時向量數(shù)據(jù)庫的賽道還是一片沉寂,對于是否要專門研發(fā)處理向量數(shù)據(jù)的數(shù)據(jù)庫,星環(huán)科技內(nèi)部也在謹慎考慮。

當時的場景是,星環(huán)科技AI團隊提出向量數(shù)據(jù)管理對于其AI業(yè)務(wù)非常重要。雖然當時有Faiss向量庫來處理這類數(shù)據(jù),但由于當時Faiss的版本還處于比較早期的階段,AI團隊需要自己編寫代碼來管理這些向量數(shù)據(jù),基本上每個項目都需要重復進行這樣的工作,非常費時費力,而且可能無法保證高可用性和安全性。

因此,向量數(shù)據(jù)庫的需求也早在當時就誕生了。和現(xiàn)在不同的是,當時并看不到太大的市場,盡管在星環(huán)科技的眼中,這項技術(shù)有十足的潛力。

于是,他們內(nèi)部做出了一個決定。“即使向量數(shù)據(jù)庫可能不能立即商業(yè)化,但我們?nèi)匀徽J為有必要為將來做這樣的技術(shù)儲備。”劉熙回憶道。

那時星環(huán)還專注于開發(fā)多模型統(tǒng)一處理技術(shù),逐步將一些數(shù)據(jù)庫的通用功能,如分布式存儲、分布式計算、安全性和資源管理等功能,從緊耦合的架構(gòu)轉(zhuǎn)化為松耦合的架構(gòu),目標是通過統(tǒng)一的架構(gòu)來更好地支持各種數(shù)據(jù)庫,例如圖數(shù)據(jù)庫和時序數(shù)據(jù)庫。

同時,內(nèi)部團隊不需要太多考慮面向客戶的問題,需求相對明確,因此星環(huán)科技很快就完成了從0到1的第一個版本,并交付給AI團隊。之后,隨著AI團隊的深入使用,星環(huán)科技向量數(shù)據(jù)庫開始持續(xù)迭代,最終成為一個成熟產(chǎn)品走向市場。

類似的故事也發(fā)生在京東、騰訊云和百度智能云的內(nèi)部。

京東的故事則發(fā)生于2017年。當時,團隊內(nèi)部正在著手處理一些以圖搜圖的應(yīng)用場景。為了解決京東的搜圖場景,團隊構(gòu)建了一個十億規(guī)模的向量數(shù)據(jù)庫,主要的場景是針對京東每天上架大量商品時,需要即時展示商品圖片。而實時性成為了當時的重要問題。

而這正是京東向量數(shù)據(jù)庫vearch的誕生背景。

而相比之下,百度智能云的故事就顯得不太一樣。

2019年,百度智能云也將注意力轉(zhuǎn)移到了向量檢索技術(shù)的身上。他們計劃在Elastic Search公有云場景上去做一些向量的能力。

Elastic Search(ES)屬于NoSQL數(shù)據(jù)庫的一種。如果再細分,它是文檔型或搜索型數(shù)據(jù)庫。由于有各種搜索場景的需求,所以它會存向量的數(shù)據(jù)。而既然存了向量的數(shù)據(jù),ES又是一個搜索型的數(shù)據(jù)庫,自然也要搜索向量的數(shù)據(jù)。這也是百度智能云在此基礎(chǔ)上加向量檢索能力的背景。

具體來講,百度智能云在ES上做了兩點改造:一是支持向量數(shù)據(jù)列式存儲格式,二是基于社區(qū)開源的向量相似度引擎做了一些搜索加速的改進。

四年后的今天,向量數(shù)據(jù)庫終于迎來自己了的光輝時刻。而在各種歡呼聲和質(zhì)疑聲下,向量數(shù)據(jù)庫也在逐漸完成蛻變。

三、向量數(shù)據(jù)庫,展望AGI時代

從某種程度上而言,無論是向量數(shù)據(jù)庫,還是大模型,歸根結(jié)底,大家在追捧它時的心態(tài),焦慮大于需求。而這種焦慮則來源于“害怕被落下”。

大模型、多模態(tài)、OpenAI的新應(yīng)用等等新技術(shù)、新應(yīng)用的出現(xiàn),正在迅速刷新著人們對AGI時代的期待,仿佛它下一刻就會到來。

而向量數(shù)據(jù)庫的熱潮,在一定程度上“外化”了人們的焦慮。但這并不能否定向量數(shù)據(jù)庫的實際價值,甚至更長遠的價值。

雖然,目前向量數(shù)據(jù)庫仍處于發(fā)展初期,但可以確定的是,向量數(shù)據(jù)庫與大模型一定是捆綁關(guān)系。因此,未來其演進方向也一定隨著大模型能力的演進而發(fā)生變化。

在羅云看來,“未來,向量數(shù)據(jù)庫解決的是整個智能世界的智能存儲和管理問題?!?/p>

而在具體的演進方向上,向量數(shù)據(jù)庫一定會考慮多模態(tài)數(shù)據(jù)的表達以及數(shù)據(jù)的智能化管理。

首先,在大模型應(yīng)用百花齊放的背景下,向量數(shù)據(jù)庫對于多模態(tài)數(shù)據(jù)的處理意義,變得十分重要。

一個生活化的例子是,吃飯、看電影、聽音樂等等娛樂事項,這些記錄了你的一天。接下來,你想通過自然語言將其全部調(diào)取出來。

那么如果沒有一個單獨的向量數(shù)據(jù)庫參與,以及沒有合理的多模態(tài)數(shù)據(jù)處理方式,這種情況下是無法查詢出這些數(shù)據(jù)的。而所謂的多模態(tài)也正是除了文字以外的照片、視頻、音頻等數(shù)據(jù)。

但隨著多模態(tài)數(shù)據(jù)規(guī)模上的提升,另一個問題也隨之出現(xiàn)。不同數(shù)據(jù)庫中數(shù)據(jù)如何將其統(tǒng)一管理并讓數(shù)據(jù)流通起來,這其中涉及到的智能化管理也是向量數(shù)據(jù)庫未來的發(fā)力點。

因此,未來的向量數(shù)據(jù)庫需要承載的是智能化數(shù)據(jù)平臺。

另外,在星環(huán)科技向量數(shù)據(jù)庫產(chǎn)品Hippo過去的研發(fā)過程中,劉熙對于擴展性、成本、易用性和路徑優(yōu)化方面都提出了挑戰(zhàn)。

首先,在擴展性和成本方面,大模型的普及讓向量數(shù)據(jù)的規(guī)模不斷增大。對于向量數(shù)據(jù)的存儲和索引,也提高了對硬件資源的要求,成本也自然隨之提升。

而在易用性方面則涉及到了多種參數(shù)的挑戰(zhàn)。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不同,向量搜索涉及到更多維度的考量,包括性能和召回率等。而為了平衡性能和召回率,需要調(diào)整各種參數(shù),但這對用戶來說并不友好。因此,簡化參數(shù)選擇,提高用戶體驗是更加重要的挑戰(zhàn)。

最后則是混合搜索中的路徑優(yōu)化問題。與傳統(tǒng)的優(yōu)化器相比,向量搜索的優(yōu)化器更加復雜,因為它需要考慮多維度的因素。如何設(shè)計一個能夠描述向量搜索代價的模型,以實現(xiàn)性能和召回率的平衡,是一個需要解決的難題。

不可否認的是,向量數(shù)據(jù)庫的未來有星辰大海,也有曲折的前路。

背靠大模型,向量數(shù)據(jù)庫在2023年成為了資本的“寵兒”。然而,在未來的AGI時代,向量數(shù)據(jù)庫還有更多實事要干。

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。