立體聲深度估計通過允許機器從兩個圖像中推斷深度,在計算機視覺中起著至關重要的作用。這種功能對於自動駕駛,機器人技術和增強現實應用至關重要。儘管深度學習方面的進步,許多現有的立體聲匹配模型都需要特定於域的微調來實現高精度。挑戰在於開發一個模型,該模型可以在不同的環境中概括而無需其他培訓。
立體聲深度估計的關鍵問題之一是訓練和現實世界數據之間的域差距。當前的許多方法取決於未能捕獲自然環境複雜性的小特定數據集。這種限制會導致模型在受控基準測試中表現良好,但在各種情況下都失敗了。此外,針對新領域的這些模型進行微調在計算上是昂貴的,對於實時應用來說是不切實際的。克服這些挑戰需要一種更強大的方法,以消除對特定領域訓練的需求。
傳統的立體聲深度估計方法依賴於構建成本量,該成本量編碼圖像對之間的差異。這些方法利用3D卷積神經網絡(CNN)進行成本過濾,但與其訓練數據以外的概括鬥爭。迭代精緻技術試圖通過逐步改善差異預測來提高準確性。但是,這些方法受到對複發模塊的依賴的限制,從而增加了計算成本。一些最近的方法探索了基於變壓器的架構,但在有效地處理差異搜索空間的同時,面臨著挑戰。
NVIDIA的研究人員推出了基礎模型,該模型旨在解決這些局限性並實現強大的零彈性概括。為了構建該模型,研究團隊創建了一個大規模的合成訓練數據集,該數據集包含一百萬個立體圖像對,具有高度現實主義和各種情況。開發了自動策略管道,以濾除模棱兩可的樣本,以確保高質量的培訓數據。此外,該模型結合了一個側面調整功能主鏈,該主鏈利用了現有視覺基礎模型的單眼先驗。這種適應性彌合了合成數據和現實世界數據之間的差距,改善了概括,而無需每域微調。
基金會背後的方法集成了幾個創新組件。細心的混合成本量(AHCF)模塊是通過組合3D軸向平面卷積和差異變壓器來增強差異估計的關鍵要素。 3D軸向平面卷積通過分開空間和差異信息來完善成本量過濾的成本量過濾,從而改善了特徵聚合。同時,差異變壓器引入了遠程上下文推理,從而使模型能夠有效地處理複雜的深度結構。此外,基金會採用了混合方法,將CNN與視覺變壓器(VIT)集成在一起,以使單眼深度驗證器適應立體聲框架。結合這些技術可確保更精確的初始差異估計,通過迭代處理將進一步完善。
基礎的性能評估證明了其優於現有方法的優勢。為了評估其零拍的概括功能,該模型在包括Middlebury,Kitti和Eth3d在內的多個數據集上進行了測試。與以前的模型相比,僅在場景流程上訓練時,基礎tereo顯著降低了錯誤率。例如,Middlebury數據集記錄的BP-2誤差為4.4%,表現優於先前的最新方法。在ETH3D上,它達到了1.1%的BP-1誤差,進一步確立了其穩健性。在Kitti-15中,該模型達到了2.3%的D1錯誤率,標誌著與以前的基準相比有了顯著改善。野外圖像的定性比較揭示了其處理具有挑戰性的情況的能力,包括反射,無紋理表面和復雜的照明條件。這些結果突出了基礎架構在不進行微調的情況下實現可靠的深度估計方面的有效性。
該研究通過解決概括挑戰和計算效率來提高立體估計的重大進步。通過利用大規模的合成數據集並將單眼先驗與創新的成本過濾技術整合在一起,基金會消除了對特定領域的訓練的需求,同時在不同環境中保持高精度。研究結果表明,提出的方法如何為零射擊立體匹配模型設置新的基準測試,並為在現實世界設置中更廣泛的應用程序鋪平了道路。
查看 紙和github頁面。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 80k+ ml子列數。

Nikhil是Marktechpost的實習顧問。他正在哈拉格布爾印度技術學院攻讀材料的綜合材料綜合學位。 Nikhil是AI/ML愛好者,他一直在研究生物材料和生物醫學科學等領域的應用。他在材料科學方面具有強大的背景,他正在探索新的進步並創造了貢獻的機會。