大型語言模型(LLM),例如OpenAI的O3,Google的Gemini 2.0和DeepSeek的R1,在解決複雜問題,產生類似人類的文本甚至精確編寫代碼方面表現出了顯著的進展。這些高級LLM通常被稱為 “推理模型” 為了分析和解決複雜問題的非凡能力。但是實際上要做這些模型 原因,還是他們只是擅長 規劃?這種區別是微妙而深刻的,它對我們如何理解LLM的能力和局限性具有重大影響。
要了解這種區別,讓我們比較兩種情況:
- 推理:調查犯罪的偵探必須拼湊出矛盾的證據,推斷哪些是虛假的,並根據有限的證據得出結論。這個過程涉及推論,矛盾解決和抽象思維。
- 規劃:一個國際象棋棋手計算最佳動作序列,以檢查對手的對手。
儘管這兩個過程都涉及多個步驟,但偵探們進行了深入的推理,以推斷,評估矛盾並將一般原則應用於特定案例。另一方面,國際象棋棋手主要參與計劃,選擇最佳的動作序列以贏得比賽。正如我們將看到的那樣,LLM的功能更像是國際象棋球員,而不是偵探。
了解差異:推理與計劃
要意識到為什麼LLM擅長計劃而不是推理,請首先了解這兩個術語之間的區別很重要。推理是使用邏輯和推理從給定前提中得出新結論的過程。它涉及識別和糾正不一致,產生新穎的見解,而不僅僅是提供信息,在模棱兩可的情況下做出決定,並從事因果理解和反事實思維,例如“如果?”方案。
另一方面,計劃專注於構建一系列行動以實現特定目標。它依靠將復雜的任務分解為較小的步驟,遵循已知的解決問題的策略,將先前學到的模式調整為類似問題,並執行結構化序列而不是獲得新的見解。儘管推理和計劃都涉及逐步處理,但推理需要更深入的抽象和推理,而計劃遵循既定的程序而沒有產生新的知識。
LLM如何處理“推理”
現代LLM,例如OpenAI的O3和DeepSeek-R1,配備了一種技術,即被稱為“經營鏈”(COT)推理,以提高他們的解決問題的能力。這種方法鼓勵模型將問題分解為中間步驟,模仿人類從邏輯上通過問題思考的方式。要查看其工作原理,請考慮一個簡單的數學問題:
如果一家商店以每張2美元的價格出售蘋果,但如果您購買5個以上的蘋果,則每蘋果1美元的折扣,7蘋果的成本會多少?
使用COT提示的典型LLM可能會這樣解決:
- 確定正常價格:7 * $ 2 = $ 14。
- 確定折扣適用(從7> 5開始)。
- 計算折扣:7 * $ 1 = $ 7。
- 從總計中減去折扣:$ 14 – $ 7 = $ 7。
通過明確制定一系列步驟,該模型可以最大程度地減少試圖一口氣預測答案而產生的錯誤的機會。雖然這種逐步的分解使LLM看起來像是推理,但它本質上是解決問題問題的一種形式,就像遵循逐步的食譜一樣。另一方面,真正的推理過程可能會識別一個一般規則: 如果折扣適用於5個蘋果,則每個蘋果的價格為1美元。人可以立即推斷出這樣的規則,但是LLM不能僅僅遵循結構化的計算序列。
為什麼經營鍊是在計劃而不是推理
雖然經過思考鏈(COT)改善了LLMS在邏輯方面的任務(如數學單詞問題和編碼挑戰)上的性能,但它不涉及真正的邏輯推理。這是因為,COT遵循程序知識,依靠結構化步驟,而不是產生新穎的見解。它缺乏對因果關係和抽象關係的真正理解,這意味著該模型不會參與反事實思維或考慮需要直覺的假設情況。此外,COT無法從根本上改變其方法,而不是經過培訓的模式,從而限制了其創造性或適應不熟悉的情況的能力。
LLM成為真正的推理機需要什麼?
那麼,LLM需要什麼才能像人類一樣真正地推理?這些關鍵領域需要改進和潛在的方法來實現它:
- 象徵理解:人類通過操縱抽象符號和人際關係來理由。但是,LLM缺乏真正的符號推理機制。整合將神經網絡與形式邏輯系統相結合的符號AI或混合模型可以增強其真正推理的能力。
- 因果推斷:真正的推理需要理解因果關係,而不僅僅是統計相關性。一個原因必須從數據中推斷出潛在的原理,而不僅僅是預測接下來的令牌。對因果AI的研究,該研究明確地模擬了因果關係,可以幫助LLMS從計劃過渡到推理。
- 自我反思和元認知:人類通過詢問來評估自己的思維過程 “這個結論有意義嗎?” 另一方面,LLMS沒有自我反省的機制。可以批判性評估自己的產出的建築模型將是朝著真正推理的一步。
- 常識和直覺: 即使LLM可以獲得大量知識,他們也經常在基本的常識推理中掙扎。之所以發生這種情況,是因為他們沒有現實世界的經驗來塑造自己的直覺,而且他們無法輕易地認識到人類會立即獲得的荒謬。他們還缺乏將現實世界動態帶入決策的方法。改進這種情況的一種方法可能是通過使用常識性引擎構建模型,這可能涉及整合現實世界的感官輸入或使用知識圖來幫助模型更好地了解人類的方式。
- 反事實思維: 人類推理通常涉及問:“如果情況有什麼不同?” LLM在這類“如果”方案中掙扎,因為它們受其培訓的數據的限制。要使模型在這種情況下更像人類,他們將需要模擬假設的情況並了解變量的變化如何影響結果。他們還需要一種方法來測試不同的可能性並提出新的見解,而不僅僅是根據他們已經看到的內容來預測。沒有這些能力,LLMS將無法真正想像其他期貨 – 他們只能與他們學到的東西一起工作。
結論
儘管LLM可能是有道理的,但實際上它們依靠計劃技術來解決複雜問題。無論是解決數學問題還是從事邏輯推論,它們主要以結構化的方式組織已知模式,而不是深入了解其背後的原理。這種區別在AI研究中至關重要,因為如果我們將復雜的計劃誤認為是真正的推理,我們可能會高估AI的真正能力。
除了令牌預測和概率計劃之外,AI真正推理的道路將需要基本進步。它將需要符號邏輯,因果理解和元認知的突破。在此之前,LLM將仍然是解決結構化問題的強大工具,但他們不會以人類的方式真正思考。