DeepSeek-R1數學推理解剖：是真正思考還是拓撲模仿？

隨著大型語言模型中「Aha時刻」的出現，尤其是DeepSeek-R1等模型的表現，學界開始質疑這些系統是在進行真正的邏輯推理，還是僅僅在模仿推理的表象。本研究透過對AIME 2025全部30道問題的詳盡實證分析，將10,247個推理步驟細分為分析、推斷、分支、回溯和反思五類功能類別。研究發現，人類解題保持分析與演繹的緊湊交替，而DeepSeek-R1則頻繁重訪中間結果，進行淺層且往往不必要的驗證，陷入缺乏實質邏輯進展的局部檢查循環，這種現象被定義為「拓撲模仿」。儘管存在結構性差異，研究也識別出真正推理的信號：成功的推理軌跡表現出穩定的分支與回溯使用，而失敗的軌跡則表現為探索行為的不足或過度。此外，反思只有在嵌入演繹推斷中時才有效，陷入分析循環的反思往往關注局部數值細節而忽略全域邏輯錯誤。這表明當前長思維鏈模型可能更多因推理的「外觀」而非實質性的演繹進展受到獎勵。