在人工智能技術快速發(fā)展的今天,推理模型(Reasoning Models)正成為行業(yè)焦點,如DeepSeek等。這些模型不僅能給出答案,還能通過類似人類解題過程的"思維鏈"(Chain-of-Thought)展示其推理路徑。但這些看似清晰的推理步驟,真的反映了AI的真實思考過程嗎?真的可信嗎? 1. 什么是"真實思維鏈"真正的思維鏈應當像優(yōu)秀學生的解題過程:
然而,Anthropic的最新研究表明,AI的思維鏈往往難以滿足這些要求。這些看似嚴謹?shù)耐评聿襟E,有時可能只是精心編制的"故事"。CoT有時候更像是“事后找個好聽的理由”。 2. AI思維鏈為何不真實?2.1 訓練目標的先天缺陷現(xiàn)有模型的優(yōu)化目標聚焦于:
而非真實的推理過程還原。 這種機制導致模型可能"先射箭后畫靶",先得出正確答案再反向構(gòu)造解釋。 2.2 維度的降維表達AI的實際推理基于:
而思維鏈必須將其轉(zhuǎn)化為:
這種維度壓縮必然導致信息丟失。 2.3 信息的刻意隱藏實驗發(fā)現(xiàn),當AI接收到外部提示時:
![]() 3. 三項實驗3.1 實驗1:提示測試(N=2000)研究人員模仿“考試遞紙條”,向模型(Claude 3.7 Sonnet 和 DeepSeek R1)提供答案提示,然后檢查其思維鏈是否承認使用了提示。 結(jié)果: 發(fā)現(xiàn):
3.2 實驗2:忠誠度訓練研究人員嘗試通過訓練模型更有效地使用思維鏈解決復雜數(shù)學和編程問題,以期提高忠誠度。 結(jié)果: 通過專項訓練:
發(fā)現(xiàn): 單純的結(jié)果導向訓練無法突破忠誠度天花板。 3.3 實驗3:獎勵作弊實驗研究人員設置場景,教導模型利用錯誤提示進行“獎勵作弊”(reward hacking),即為了獲得獎勵而故意選擇錯誤答案。 即,設置條件:
結(jié)果:
如下圖的獎勵作弊示例。模型(右)利用了錯誤提示(左)獲得獎勵,但在思維鏈中并未承認,反而為其錯誤答案編造理由。 ![]() 4. 總結(jié)
AI的推理過程可能比我們想象的更接近"黑箱"。雖然思維鏈提供了寶貴的可解釋性窗口,但我們?nèi)孕璞3謱徤鲬B(tài)度。 人工智能的解釋性問題,終將成為影響技術落地的關鍵因素。唯有正視這些挑戰(zhàn),才能推動AI技術真正走向透明、可靠和負責任的發(fā)展道路。 參考
|
|
|