Good Luck To You!

手机扫一扫

大模型時代下,向量資料庫的野望

鳳凰科技 2024-10-15 01:35:41 10

自ChatGPT爆火,國內頭部平臺型公司一擁而上,先後釋出AGI或垂類LLM,但鮮有大模型基礎設施在資料層面的進化,比如向量資料庫。

在此之前,向量資料庫經歷了幾年的沉寂期,現在似乎終於乘著ChatGPT的東風成為資本的“寵兒”。然而,一年狂飆之後,市場逐漸退潮,因此有人質疑,向量資料庫又涼了?

判斷一條賽道是否真的有潛力,資本的注入雖是前提,但更重要的還有市場的態度。大模型應用的逐步落地於向量資料庫而言,無疑是最好的催熟劑。

然而任何新技術的到來,都需要更長的時間才能得到市場的接受。

一份關於向量資料庫的市場研究是,隨著AI應用場景加速落地,據西南證券分析,預計2025年向量資料庫滲透率約為30%,其中,中國向量資料庫市場規模約為82.56億元。而據中國信通院測算,到2025年,中國資料庫市場規模將達688億元。這意味著,兩年後向量資料庫在中國的滲透率將超過10%。

在國內,不少資料庫廠商都在嘗試推出向量資料庫產品,然而從市場驗證階段走向實現盈利,中間還需要一段更漫長的時間。向量資料庫究竟是虛火過旺還是星辰大海?在向量資料庫這條賽道,能否看到更遠的未來?

向量資料庫 剛剛開始

向量資料庫,顧名思義,是一種專門處理向量資料的資料庫。在傳統的關係型資料庫中,資料通常以表格形式儲存,而向量資料庫則將非結構化資料(如文字、影象、音訊等)轉換為向量形式進行儲存。這種資料表示方法使得向量資料庫能夠高效地處理大規模、高維度的資料集,為AI提供了強大的計算基礎。

如果說資料庫是資料的“硬碟”,那麼,向量資料庫就是更適合AI體質的“硬碟”,其“AI原生”的體質,具體表現在以下幾個方面。

首先,是更高的效率。AI演算法,要從影象、音訊和文字等海量的非結構化資料中學習,提取出以向量為表示形式的“特徵”,以便模型能夠理解和處理。因此,向量資料庫比傳統基於索引的資料庫有明顯優勢。

其次,更低的成本。大模型要從一種新技術轉化為產業價值,必須達到合理的投入產出比,而向量資料庫可以有效減少儲存和計算成本。一個公開資料是,透過騰訊雲向量資料庫,QQ音樂人均聽歌時長提升3.2%、騰訊影片有效曝光人均時長提升1.74%、QQ瀏覽器成本降低37.9%,就在於檢索效率、執行穩定性、運營效率、推薦演算法等,有了較大的提升。

第三,更強的資料安全。企業想做大模型,還要確保資料的隱私安全,就必須與資料庫產品做好配合,這給向量資料庫的本地部署帶來了廣闊的需求。

第四,更大的擴充套件性。隨著大模型走向行業應用,垂直領域的AI用例不斷增多,洶湧的資料洪潮和存算任務,會帶來大量向量搜尋的需求。而向量資料庫嵌入向量的長度不受限制,具有良好的擴充套件性,可以根據AI用例和模型而變化,更好地處理大規模資料集。

從大模型技術標杆的OpenAI釋出的GPT-4o和即將釋出的GPT-5訊息來看,以及國內外商業化大模型的進展來看,大模型的技術路線還沒有發生顛覆性的變革,因此落地應用還是需要向量檢索和向量資料庫。

由此可見,向量資料庫與AI的關係緊密相連。在大模型興起之前,傳統資料庫已經在不斷嘗試與AI結合,主要涉及以下幾個方向:資料儲存與管理、資料清洗與預處理、資料檢索與查詢、資料整合與共享、資料安全與隱私保護。隨著大模型的興起,可以看到在這些方向上,資料庫與AI間的關聯比以往任何時候都要密切。

此外,AI 大模型的興起還為資料庫注入了預測估算的能力。AI模型可以透過學習歷史資料和模式,對未來的趨勢和結果進行預測和估算。傳統資料庫可以整合AI模型,實現對資料的預測分析。這使得資料庫可以不僅提供對歷史資料的查詢和分析,還能夠提供對未來資料的預測和估算結果,幫助使用者做出更準確的決策。

總的來說,幾乎所有型別的資料庫都在積極向AI靠攏,比如在資料庫中新增向量索引,資料庫和AI已經密不可分,兩者相輔相成,共同推動著技術的進步和應用的拓展。

兩大新勢力 雲是方向

傳統資料庫廠商不必多說,既有相應的能力建設,也有一定的客戶基礎,推出相關產品是必然。一些在AI領域積澱已久的科技大廠,如谷歌、微軟、Meta、百度等大廠,都有向量資料庫的技術積累,也都可以向外輸出相關能力和產品。

除了這些常規面孔,向量資料庫市場也吸引了新的參與者。作為這一輪大模型投資熱和創業熱的主要目標之一,向量資料庫領域誕生了不少創新創業公司。比如AI創業新秀Pinecone就是閉源的領跑者,憑藉良好的開箱即用的產品體驗,獲得了非常大的增長,B輪估值達到7.5億美元。其他競爭者大多建立在開源專案的基礎上。

不過,作為創業公司,長期盈利能力還有待驗證。一個主要原因,是客戶大多是嚐鮮、實驗性質。

企業需要先將非結構化的私密資料,放入一個小的模型中進行資料轉化,即資料向量化,產生一個向量的矩陣,再儲存到向量資料庫裡,來供大模型學習和檢索。這個過程涉及大量的工程化,會耗費企業許多開發人員、時間成本,一開始可能會因為AI大模型很火而對向量資料庫產生興趣,但能否真正在業務中落地還是個未知數。因此,長期付費意願還有較大的不確定性。

另一股積極參與的新勢力,就是公有云廠商。

從2017年到2019年,於向量資料庫的發展而言,是一段更為重要的時間。騰訊雲、百度智慧雲、京東科技等也恰都是在這個時間段將向量資料庫的相關元件應用到具體的業務之上。

實際上,這段時間所對應的背景也正是,非結構化資料需求的激增。

一個具有代表性的事件是,2017年,短影片的爆火,催生了新媒體行業,各種結構資料也隨之出現。這一現象就導致了不同結構資料的處理需求。

除此之外,京東、騰訊和百度的內部產品也有更多類似的需求。而向量化引擎也正是從這一時間點開始萌芽。

事實上,不是所有企業都有能力自建大模型所需要的基礎設施,透過MaaS(模型即服務)業務來訓練應用大模型,是更靈活的選擇。此外,很多政企客戶往往會選擇公有云或行業雲來滿足其業務需求,對雲資料庫的關注度和接受度上升,而這些使用者在探索大模型時,會傾向於以整體解決方案的形式來交付,這就給了雲廠商參與到此賽道機會,同時也要求雲廠商提供向量資料庫的全棧支援。

如今頭部雲廠商基本建立了全生命週期AI化的向量資料庫。有資料顯示,企業原先接入一個大模型需要花1個月左右時間,使用某公有云的向量資料庫後,3天時間即可完成,極大降低了企業的接入成本。

更何況,前不久火山引擎、阿里雲、百度智慧雲等都圍繞大模型API價格,打起了互相抄底的“價格戰”,意味著AI創新門檻的降低,而AI應用市場的使用者規模擴大,也會帶動向量資料庫的使用需求。

綜合來看,整個雲AI市場的格局還在快速變化之中,風物長宜放眼量,AI Native的向量資料庫,前景仍然值得期待。

向量資料庫 展望AGI時代

從某種程度上而言,無論是向量資料庫,還是大模型,歸根結底,大家在追捧它時的心態,焦慮大於需求。而這種焦慮則來源於“害怕被落下”。

大模型、多模態等新技術、新應用的出現,正在迅速重新整理著人們對AGI時代的期待,彷彿它下一刻就會到來。

而向量資料庫的熱潮,在一定程度上“外化”了人們的焦慮。但這並不能否定向量資料庫的實際價值,甚至更長遠的價值。

雖然,目前向量資料庫仍處於發展初期,但可以確定的是,向量資料庫與大模型一定是捆綁關係。因此,未來其演進方向也一定隨著大模型能力的演進而發生變化。

騰訊雲資料庫副總經理羅雲認為,向量資料庫幫助大模型解決在專有領域知識不足的問題。通用大模型是基於海量的網際網路業務和資料去訓練的,但對於一些細分的垂直行業缺少知識。而向量資料庫可以幫助企業打通企業私有知識庫和大模型的連線,幫助企業更好地利用大模型等AI新技術去實現企業的降本增效,推動企業從“數字化”到“數智化”的躍升,這就是向量資料庫在AI時代的重要的定位和價值。

騰訊雲資料庫副總經理 羅雲

而在具體的演進方向上,向量資料庫一定會考慮多模態資料的表達以及資料的智慧化管理。

首先,在大模型應用百花齊放的背景下,向量資料庫對於多模態資料的處理意義,變得十分重要。

羅雲進一步舉例,比如某教育客戶,把一些線下的教育課程,甚至老師上課的教育提綱,全部作為向量,儲存到騰訊雲的向量資料庫裡。當家長想要去諮詢某節課老師講了什麼,就可以把儲存在向量資料庫裡面內容檢索出來,再交給大模型按照人們能理解的語言來回答,這就將向量資料庫與大模型進行了很好的匹配。

如果沒有向量資料庫參與,以及沒有合理的多模態資料處理方式,這種情況下是無法查詢出這些資料的。

但隨著多模態資料規模上的提升,另一個問題也隨之出現。不同資料庫中資料如何將其統一管理並讓資料流通起來,這就涉及到的智慧化管理也是向量資料庫未來的發力點。

向量資料庫作為處理多樣性和複雜性資料挑戰的得力工具,為各行業提供了高效、靈活的資料管理解決方案。其高維索引、相似性查詢、向量聚合等特點,使其在推薦系統、搜尋引擎、社交媒體分析、生物資訊學和影象影片分析等多個領域得到了成功應用。

不可否認,向量資料庫的未來既蘊含著廣闊的發展空間,也面臨著諸多挑戰。得益於大模型火熱,向量資料庫已逐漸成為資本市場的青睞之選。在未來的AGI道路上,向量資料庫仍需要砥礪前行。