本文經授權轉載自夕小瑤科技說(ID:xixiaoyaoQAQ)
最近,我撞見了一個 DeepSeek 又“認真”又“擰巴”的怪異場景。
一切都從一個幼兒園級別的計數問題開始:
"Strawberry" 中有幾個字母'r'?
面對這個問題,DeepSeek 展現了它的“深度思考”。
首先一上來,它的策略是先檢查 Strawberry 拼寫是否正確,便開始逐個字母檢查,每個位置的字母它都能識別正確。
但是,這個時候,它開始第一次反思。
重新檢查一遍 Strawberry 的拼寫,然后它再次得出正確結論——“有 3 個 R”。
有趣的是,它竟然開始了第二次反思,懷疑數錯了位置。經過它的快速的確認后,它選擇了在兩個 R 還是三個 R 之間搖擺不定。
接下來,DeepSeek 徹底掉進了一個怪圈,反復去驗證 Strawberry 的拼寫,陷入了一種“驗證拼寫”->“懷疑結論”->“再驗證拼寫”->“再懷疑結論”的循環里了。
每一次檢查似乎都沒有給它帶來更強的信心,反而加劇了它的“選擇困難癥”。
中間它突然清醒,跳出了循環。再次認真地、一步一步地數。
但是,每當它得到 3 這個答案,它都會懷疑自己,好像 3 這個數字,它真的信不過。
再開始新一輪循環——
這次還是一樣,明明得到 3 的答案,心里還在想著 2個。
到這里還沒結束思考!deepseek 又開始了反思,反思再反思,在反思魔力轉圈圈。
此時,DeepSeek 就像一個過于謹慎的學生,考完試非要檢查八百遍答案。
明明,每次,都知道了 R 就在 3、8、9 位置上。
我眼冒金星,已經數不清它進行了多少輪的反思了。
以下是長圖警告(有人數得清它反思了多少輪嘛!!)
就好像AI被控制了一樣,必須完成多少輪反思才能結束。
反正我看中間的反思,沒有帶來新的信息和修正(因為它一開始就對了),都是重復、無用的檢查過程,反思變成了無效循環。
雖然,在經歷了漫長而“艱苦卓絕”的思考后,它給出了正確的答案:3。
但是看 deepseek 這個思考過程,它真的是正常的思考嗎?
在如此簡單的問題上,它過度使用了“反思”,而且,這種反思不總是有效的,反而顯得是不必要的“猶豫”。
接著,我又給它拋出了一個中文世界的經典難題——
“來到楊過曾經生活過的地方,小龍女動情的說:“我也想過過過兒過過的生活”
這句話有幾個“過”字
DeepSeek 的反應如出一轍。它先是正確地拆解、計數,得出答案:7。
然后,“0 幀起手”,光速進入反思模式,比男朋友認錯都快。
下面,似曾相識的推理過程開始了......
它重新檢查了一遍,還是 7 個。
接著,它開始糾結了,在 7 個和 8 個之間糾結。
這次糾結決斷,比上面草莓的題快。只經過了 3 次。
最后水靈靈地告訴我,有 8 個“過”字。
我直接懵掉。定睛一看它的推理過程,寫著 “1+1+1+2+2 = 8”?!
前面數對了每一部分的“過”字數量,最后一步簡單的加法居然算錯了!
“Strawberry”和“楊過”兩道題目類型一樣,而模型的推理表現也如出一轍。
過度反思。
它試圖模仿人類的驗證過程,但做得過度和無效。
模型似乎被某種規則或模式“綁架”了,認為對于這類型的問題,必須得執行一套冗長、反復的驗證流程。
哪怕這個問題極其簡單,哪怕這個流程本身并不能提高準確率,甚至可能引入新的錯誤(比如那個離譜的加法)。
為什么 AI 會陷入這種“反思魔咒”?
回答這個問題之前,還有另一個問題——
AI 模型在輸出答案之前展示的“推理步驟”,真的是它們內部的思考過程嗎?
Anthropic 研究團隊把“這種反映真實過程的程度”,稱之為“忠實性”(Faithfulness)。
前段時間 Anthropic 發表了一篇論文,專門研究了這個問題。Anthropic 是最注重 AI 安全的大模型公司之一,其創始人 Dario Amodei 曾因不滿 OpenAI 對安全的忽視而自立門戶,Claude 更是被《人工智能安全指數報告》(FLI AI Safety Index 2024)評為最高評級的模型。
所以這篇論文也是從 AI 安全的角度出發,研究推理大模型的“思考黑盒”。
論文標題:Reasoning Models Don’t Always Say What They Think
論文鏈接:https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf
機構:Anthropic 對齊團隊
研究人員設計了一種巧妙的方法來測試 CoT 的忠實性。他們給 AI 模型(Anthropic 自己的 Claude 3.7 Sonnet 和 DeepSeek R1 )做選擇題。
有時只給普通問題;
有時在問題中悄悄加入一個“提示”(hint),這個提示會指向某個特定答案(可能是正確或錯誤的)。
他們觀察:當模型因為這個“提示”而改變了最終答案時,它的 CoT(思考過程)中有沒有提到這個提示?
論文中有兩個神奇的發現:
1、CoT 經常不忠實:
在很多情況下,即使模型明顯是根據“提示”改變了答案,它的 CoT 里根本沒提這個提示。
雖然有時提到,但提到率很低(通常低于 20%),也就說模型會“偷偷地”利用了提示,卻沒有在“思考過程”中承認。
2、“獎勵作弊”時幾乎從不坦白:
比如,研究人員設計場景讓模型可以通過“作弊”(Reward Hacking,即利用規則漏洞獲得高分,即使答案錯誤)來獲得獎勵,模型 >99% 的情況下會作弊,但在其 CoT 中卻幾乎從不(<2% 的情況下)提及作弊行為,甚至它們會編造理由讓回答看起來合理。
這說明什么?
大模型的“說法”和“想法”并不總是一致。
所以,它展示的推理過程,并不代表它真實的思考決策過程。
另外,最近還有一篇剛放出不久的論文,觀點極其犀利。簡直就是要當前主流的 LRMs 潮流一鍋端。
論文標題:(How) Do Reasoning Models Reason?
論文鏈接:https://arxiv.org/pdf/2504.09762
關于這篇報告,最具批判性的部分也是這個問題——
“中間步驟”真的是 AI 的“思考過程”嗎?
人們很容易將 LRM 輸出的那些看起來像解題步驟的“中間詞元”(intermediate tokens)解讀為模型的“思考過程”或“內心獨白”。這份報告里強烈反對這種解讀。
為什么呢?
LLM 本就擅長模仿各種文本風格,模仿人類的“自言自語”或“草稿”自然也不在話下,比如出現的“哦”、“嗯”、“讓我再看一下”這些模仿人類思考的詞。
我上面第一道題目,讓 DeepSeek R1 數一數一共有幾個 R,這么簡單問題,它都能生成好幾頁的“內心戲”,真的去驗證它的邏輯,難度很大。即使“推導痕跡”錯了,模型有時候也能“歪打正著”地引出正確的最終答案。
所以作者認為,難以驗證,且極具誤導。不如去提升最終效果,即使中間輸出的是人類理解不了的外星文
那么,為什么 AI 會陷入這種“反思魔咒”?
RLHF 能載舟,也是另一種“詛咒
現在推理模型都會經歷 RLHF 階段,根據人類或自動評估來獎勵或懲罰模型的輸出 。
如果人類標注者傾向于給那些看起來“思考周密”、“檢查仔細”(即使冗余)的回答打高分,模型就會學會在回答中插入大量驗證步驟,以最大化獎勵,而不管這些步驟是否真的必要或有效。
導致模型追求的不是“正確”,而是“看起來正確”或“看起來努力去正確”的過程。
雖然模仿了深思熟慮的_形式_,卻缺乏其_效率_和_實質_。
Test-time Inference Scaling 的內部化失敗
為了讓模型在測試時“想得更久一點”,生成多個候選答案,然后選擇最佳。
推理模型的這種行為,就是這種思想的一種內部拙劣的嘗試。比如,它在內部生成了不同的“想法”(比如 2 個 r 還是 3 個 r,7 個過還是 8 個過)。
但是模型內部的驗證器機制存在缺陷,沒有辦法走出有效判斷和收斂,反而陷入了自我矛盾和循環里。
基礎能力的脆弱性在復雜流程中暴露
楊過那個例子,1+1+1+2+2=8,這么簡單的加法錯誤,暴露了即使模型在模仿復雜的推理過程,基礎的計算或邏輯能力也可能非常脆弱!
這種“過度反思 + 強制驗證”帶來的問題便是:
效率低下 + 過程迷惑 + 引入錯誤
深度推理模型的這種的“表演式”思考,何嘗不是在消耗我們對智能的信任,也在誤導我們對AI能力的評估。
那怎么對待AI 這種“擰巴”的認真?
AI 的“思考”過程和人類注定不同,不要被它長篇大論的“思考過程”迷惑,過程長不一定可靠,可能只是在執行一個被過度訓練的“表演程序”,尤其要注意其中的關鍵計算或邏輯節點。或者我的辦法是告訴它“不需要解釋”。
我們喜歡看到推理的樣子,但并未真正驗證推理的實質。
在 AI 的世界里,“看起來像”與“實際是”之間,可能還隔著很遠的距離。
作者:夕小瑤編輯部
本文經授權轉載自夕小瑤科技說(ID:xixiaoyaoQAQ),原標題為《離譜!DeepSeek數個字母,竟要“反思內耗”八百遍?》如需二次轉載請聯系原作者。歡迎轉發到朋友圈。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.