大約最近的鄰居搜索(ANN)是一種基本矢量搜索技術,可有效地識別高維矢量空間中的類似項目。傳統上,ANN一直是檢索引擎和推薦系統的骨幹,但是,它努力與現代變壓器體系結構保持同步,這些架構採用了較高的嵌入式嵌入和較大的數據集。與由於其無狀態性質而可以水平縮放的深度學習系統不同,ANN仍然集中,從而形成嚴重的單機器人吞噬瓶頸。具有1億級數據集的經驗測試表明,即使是最先進的CPU實現了層次可導航的小世界(HNSW)算法,隨著矢量尺寸的增加,算法也無法保持足夠的性能。
先前關於大型ANN的研究探索了兩種優化路徑:索引結構改進和硬件加速度。通過多編碼書量化倒數的多索引(IMI)增強了空間分區,而PQFastScan通過SIMD和Cache-Aware優化提高了性能。 Diskann和Spann推出了基於磁盤的數十億個尺度數據集的索引,通過不同的方法來解決內存層次結構挑戰。 Song和Cagra通過GPU並行化實現了令人印象深刻的加速,但仍受到GPU記憶能力的限制。 Bang通過混合CPU-GPU處理處理了十億個規模的數據集,但缺乏關鍵的CPU基線比較。這些方法經常犧牲兼容性,準確性或需要專門的硬件。
香港中國大學的研究人員,知覺和互動智能中心以及華為技術的理論實驗室提出了旨在克服現有ANN實施局限的混合CPU-GPU系統。 PILOTANN應對挑戰:僅CPU的實施與計算需求鬥爭,而僅GPU的解決方案受到有限的內存容量的限制。它通過利用CPU的豐富RAM和GPU的並行處理功能來解決此問題。此外,它採用了三階段的圖形遍歷過程,使用尺寸還原的向量,CPU細化以及完整的向量的精確搜索。
PILOTANN從根本上通過“分期數據準備處理”範式重新想像矢量搜索過程。它可以最大程度地減少跨處理階段的數據移動,而不是遵守傳統的“計算數據移動數據”模型。它還由三個階段組成:GPU駕駛,具有子圖和尺寸降低的向量,使用完整矢量的子圖的殘留細化以及使用完整的圖形和完整向量的最終遍歷。該設計僅具有單個商品GPU的成本效益,同時在矢量維度和圖形複雜性上有效地擴展了成本效益。將數據傳輸開銷最小化,只需將初始查詢矢量移動到GPU,並且在GPU駕駛後返回CPU的小型候選套件。
實驗結果表明,在各種大型數據集中,Pilotann的性能優勢。與HNSW-CPU基線相比,Pilotann在96維深數據集上達到了3.9倍的吞吐量加速,在高維數據集中,pilition速度的增長率更高,令人印象深刻的增長率為5.1-5.4倍。儘管沒有針對此基準的具體優化,但Pilotann即使在臭名昭著的T2I數據集中也提供了顯著的加速。此外,儘管使用了更昂貴的硬件,但它顯示出了出色的成本效益。與僅CPU的解決方案相比,基於GPU的平台的價格為1.69 USD/小時,而Pilotann的深層成本效益為2.3倍,而T2I,Wiki和Laion數據集的成本效益為3.0-3.2倍,而Laion數據集則在測量每美元的遍布時。
總之,研究人員介紹了Pilotann,這是基於圖的ANN的進步,該ANN有效地利用CPU和GPU資源來用於新興的工作量。通過將TOP-K搜索智能分解為多階段CPU-GPU管道和有效進入選擇的實現,它顯示了僅現有CPU的方法的出色表現。它通過使用單個商品GPU實現競爭成果來使高性能最近的鄰居搜索民主,從而使研究人員和組織有限的計算資源可訪問先進的搜索能力。與需要昂貴的高端GPU的替代解決方案不同,Pilotann在保持搜索準確性的同時,可以在常見的硬件配置上進行有效的ANN部署。
查看 紙和github頁面。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 85k+ ml子雷迪特。

Sajjad Ansari是來自IIT Kharagpur的最後一年的本科生。作為技術愛好者,他深入研究了AI的實際應用,重點是理解AI技術及其現實世界的影響。他旨在以清晰易於的方式表達複雜的AI概念。