DeepSeek-R1數學推理解剖:是真正思考還是拓撲模仿?

隨著大型語言模型中「Aha時刻」的出現,尤其是DeepSeek-R1等模型的表現,學界開始質疑這些系統是在進行真正的邏輯推理,還是僅僅在模仿推理的表象。本研究透過對AIME 2025全部30道問題的詳盡實證分析,將10,247個推理步驟細分為分析、推斷、分支、回溯和反思五類功能類別。研究發現,人類解題保持分析與演繹的緊湊交替,而DeepSeek-R1則頻繁重訪中間結果,進行淺層且往往不必要的驗證,陷入缺乏實質邏輯進展的局部檢查循環,這種現象被定義為「拓撲模仿」。儘管存在結構性差異,研究也識別出真正推理的信號:成功的推理軌跡表現出穩定的分支與回溯使用,而失敗的軌跡則表現為探索行為的不足或過度。此外,反思只有在嵌入演繹推斷中時才有效,陷入分析循環的反思往往關注局部數值細節而忽略全域邏輯錯誤。這表明當前長思維鏈模型可能更多因推理的「外觀」而非實質性的演繹進展受到獎勵。