最先進的模型在AIME,GPQA,MATH-500和OLYMPIADBENCH上顯示了人類競爭的準確性,從而解決了奧林匹克級問題。最近的多模式基礎模型具有用於學科知識和數學推理的高級基準。但是,這些評估錯過了機器智能的關鍵方面:物理推理,這需要整合學科知識,符號操作和現實世界的約束。解決物理問題解決與純數學推理的根本不同,因為它要求模型解碼問題中的隱式條件。例如,將“光滑的表面”解釋為零摩擦係數,並在推理鏈之間保持身體一致性,因為無論推理軌跡如何,身體定律仍然保持恆定。
MLLM通過在各種任務中整合視覺和文本數據來顯示出出色的視覺理解,從而激發其推理能力的探索。但是,這些模型是否具有真正的高級推理功能,尤其是在接近現實世界情景的物理領域中,仍然存在不確定性。已經出現了幾種LLM基準來評估推理能力,植物園與物理推理最相關。 MLLM科學基準(例如Phys Roesish和Emma)包含多模式物理學問題,但是它們僅包括小物理集,這些子集不足以評估MLLMS的推理和解決先進物理問題的能力。
香港大學,密歇根大學,多倫多大學,滑鐵盧大學和俄亥俄州立大學的研究人員提出了Phyx,這是一種評估基金會模型的物理推理能力的小型基準。它包含3,000個視覺上的物理問題,精確地跨越了六個不同的物理領域:力學,電磁,熱力學,波浪/聲學,光學,光學和現代物理學。它通過通過多模式問題解決基於物理的推理,通過三個核心創新:(a)3,000個新收集的問題具有現實的物理場景,需要集成的視覺分析和因果關係,(b)專家驗證的數據設計涵蓋了六個基本物理領域,以及(c)嚴格的統一統一的三步評估協議。
研究人員設計了一個四階段的數據收集過程,以確保高質量的數據。該過程始於對核心物理學科的深入調查,以確定各種領域和子場的覆蓋範圍,然後招募STEM研究生作為專家註釋者。他們符合版權限制,並通過選擇無答案的問題來避免數據污染。此外,質量控制涉及三階段的清潔過程,包括通過詞彙疊加分析進行重複檢測,並通過物理學博士的手動審查進行了審查。學生,然後根據文本長度過濾最短的10%問題,從初始集合中產生了3,000個高質量的問題。
Phyx對當前模型提出了重大挑戰,即使表現最差的人類專家也達到了75.6%的精度,表現優於所有評估的模型,並顯示了人類專業知識和當前模型功能之間的差距。基準測試表明,多項選擇格式通過允許較弱的模型依靠表面級別的提示來狹窄的性能差距,但是開放式的問題需要真正的推理和精確的答案。將GPT-4O在PHYX上的表現與先前報導的MathVista和Math-V(均為63.8%)的結果進行比較,物理推理任務的準確性較低,強調,與純粹的數學背景相比,物理推理需要更深入地整合抽象概念和現實世界知識,從而提出更大的挑戰。
總之,研究人員介紹了Phyx,這是第一個評估多模式,視覺紮根場景中物理推理的大規模基準。嚴格的評估表明,最新的模型在物理推理中顯示出局限性,主要依賴於記憶的知識,數學公式和表面的視覺模式,而不是對物理原理的真正理解。基準專門關注英語提示和註釋,限制對多語言推理能力的評估。同樣,儘管圖像描繪了物理現實的場景,但它們通常是示意圖或教科書式的,而不是現實世界中的照片,這可能無法完全捕獲自然環境中感知的複雜性。
查看紙張,代碼和項目頁面。 這項研究的所有信用都歸該項目的研究人員。另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 95k+ ml子雷迪特 並訂閱 我們的新聞通訊。

Sajjad Ansari是來自IIT Kharagpur的最後一年的本科生。作為技術愛好者,他深入研究了AI的實際應用,重點是理解AI技術及其現實世界的影響。他旨在以清晰易於的方式表達複雜的AI概念。
