網易首頁 > 網易號 > 正文申請入駐

涌現觀點｜GPT們為何“想太少”？DeepSeek們又為何“想太多”？一份來自AI大腦深處的診斷報告

2025-06-18 22:31:09　來源: 人工智能學家

北京舉報

分享至

一個“想太多”，一個“想太少”。我們過去只能將AI模型的不同行為歸結為“脾氣”，但現在，一把來自頂尖研究的“手術刀”，讓我們首次能像診斷“認知病”一樣，解剖它們思考方式的根本缺陷。

兩大AI巨頭的“認知病”：我們用一張“思維地圖”，首次診斷出它們的思考缺陷

你一定遇到過這兩種讓你既熟悉又無奈的AI。

第一個瞬間，你可能只是想讓AI幫你算一個簡單的數學題，比如：“一個泳池長50米，寬25米，深2米，注滿水需要多少立方米的水？”

你期待一個數字，但你得到的是一篇小論文。那個被稱為“話癆學究”的AI，比如DeepSeek-R1系列[1]或Claude 3，不僅給出了“2500立方米”的答案，還詳細地為你復習了一遍長方體體積公式V=l*w*h，嚴謹地探討了單位換算的重要性，甚至熱情地要幫你計算水的密度和質量。

你一邊盯著屏幕，一邊忍不住內心獨白：“兄弟，我上過小學……我只想知道答案而已…你是不是想太多了？”

第二個瞬間，你可能正向另一個以速度著稱的AI（比如OpenAI的o1系列）拋出一個稍微復雜的邏輯題：“我有紅、黃、藍三個盒子，只有一個盒子里有獎品。提示1：獎品不在紅盒子里。提示2：獎品在黃盒子或藍盒子里。提示3是假話：獎品在黃盒子里。請問獎品在哪里？”

它幾乎在瞬間給出了答案：“在藍盒子里。”你驚嘆于它的速度，但當你追問它的推理步驟時，卻發現它可能完全混淆了“提示3是假話”這個最關鍵的邏輯，只是簡單地做了個排除法。

這時，你的內心獨白又來了：“這么快？但你真的想明白了嗎？萬一我信了你，結果錯了怎么辦？”

這種無奈與懷疑，幾乎是每個深度AI用戶的日常。一個“想太多”，一個“想太少”。我們過去只能將這些行為歸結為不同公司的“模型脾氣”或是難以捉摸的“個性”。我們一直憑感覺猜測，卻無法深入探究其背后的原因。

但現在，情況變了。

這些看似相反的“毛病”——“過度思考 (Overthinking)”和“欠思考 (Underthinking)”——并非隨機的，而是一種更深層次的、由模型內部結構決定的系統性“認知偏差”。我們敢于做出診斷的底氣，來自一把剛剛被遞到手中的“手術刀”。

一把“手術刀”：如何科學解剖AI的思考過程？

如果說AI的思考過程是一場迷霧中的神秘旅行，那么東京大學與Google DeepMind在2025年6月發表的一篇名為《推理的拓撲學》[2]的重磅論文，就是我們第一次拿到的GPS軌跡圖。

這項研究開創性地提出了一個名為“推理圖” (Reasoning Graph)的概念，讓我們第一次能“看見”AI的思考路徑。

這把“手術刀”用起來其實不難理解：

思維節點 (Node):AI在解決問題時，其龐大的神經網絡會形成不同的“想法”或“計算狀態”。研究人員用算法將這些狀態聚類，每一個聚類中心，就代表一個具體的“思維節點”，比如“正在做加法”、“正在識別關鍵詞”或“正在進行邏輯判斷”。
思維路徑 (Edge):AI的思考從一個“想法”跳到下一個“想法”，就在這些節點之間連成了一條線。把所有這些線連起來，就構成了一張獨一無二的“思維地圖”。

Illustration of reasoning graphs

這張圖的形狀，或者說“拓撲結構”，泄露了AI思考方式的秘密。通過觀察這張圖，研究人員發現，聰明的推理模型與普通模型相比，在思考方式上存在著肉眼可見的差異。

Visualization of reasoning paths on GSM8K dataset

上圖：基礎模型的推理路徑（上排）與增強推理模型（下排）的對比。來源：Topology of Reasoning[3]

就像給大腦做一次CT掃描，我們現在有了三個關鍵的診斷指標，來量化AI的思維品質：

上圖：推理圖的三大關鍵診斷指標

有了這套診斷工具，我們終于可以從一個只能抱怨AI“脾氣怪”的用戶，變成一個能分析其“病理”的診斷師。現在，讓我們正式出具診斷報告。

診斷報告：兩大“病癥”首次被清晰歸因診斷報告一：“過度思考”——源自一種對確定性的偏執

病癥名稱:認知潔癖型過思癥 (Cognitive-Perfectionism Overthinking)——這是一種為了追求絕對正確，而不惜一切計算代價的思維模式。
典型模型:DeepSeek-R1系列，部分場景下的Claude 3 Opus等

當你抱怨一個模型太“啰嗦”時，你實際上是在觀察一種對確定性的極致追求。它的“病理”根源，正是其推理圖譜中過多、過密的“循環”和異常大的“圖直徑”。

《推理的拓撲學》論文用冰冷的數據證實了這一點：尤其是在處理像AIME 2024這類頂級數學競賽難題時，像DeepSeek-R1這樣經過推理能力強化的模型，其推理圖中包含的循環數量平均是基礎模型的5倍，其思維探索的廣度（圖直徑）也顯著更大。

這就像一個極度謹慎、有“潔癖”的學霸。為了確保答案100%正確，他會反復檢查自己的每一步推導，探索每一個可能的陷阱，即便面對的是一道“1+1”級別的簡單問題。這種思考方式保證了極高的可靠性，但代價是犧牲了巨大的效率。真實世界用戶的反饋也印證了這一點，在Reddit社區的討論[4]中，用戶普遍認為R1模型“在思考階段花費更多時間”，導致響應延遲，甚至有評測[5]直接指出了其“冗長輸出”的問題。

但“循環”并非總是好事。當它變成無意義的空轉時，就從“謹慎”滑向了“病態”。論文就發現，14B參數版本的模型在推理中出現了“語言混淆”的現象——在不同語言之間來回切換。這表明，過多的、無效的循環，已經成為了一種需要被“治療”的真正缺陷。

診斷報告二：“欠思考”——效率陷阱下的思維捷徑

病癥名稱:啟發式捷徑依賴癥 (Heuristic-Shortcut Underthinking)——這是一種為了追求極致的響應速度，而傾向于采用思維捷徑的模式。
典型模型:o1-mini及部分追求極致響應速度的模型

與“過度思考”相對的，是“欠思考”。當你覺得一個AI“反應快但不過腦子”時，你可能正在與一個“啟發式捷徑依賴癥”患者打交道。

需要明確的是，原論文并未直接對o1模型進行“推理圖”分析。但基于海量的公開報告和我們的用戶體驗，我們可以構建一個合理的“反向診斷”：o1系列模型的推理圖，很可能呈現出一種“線性、短直徑、少循環”的特征。

這背后的診斷邏輯是清晰的。一篇名為《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》[6]的學術研究，直接將矛頭指向了這種現象，指出o1這類模型傾向于在不同的推理思路間頻繁切換，而沒有充分探索真正有希望的路徑。

這種“思維捷徑”在第三方獨立評測中暴露無遺。在一個名為SimpleBench的常識推理測試中——這個測試專門用于評估模型是否具備人類的基本常識——人類的平均成功率是83.7%，而o1-preview的得分僅有慘淡的41.7%。正如一篇GeekWire的分析文章[7]所言，這一巨大差距表明其在類人常識推理方面存在根本性缺陷。在廣為流傳的“彈珠包謎題”[8]中，o1也因無法正確處理語言邏輯而給出錯誤答案。

這就像一個極其依賴直覺（啟發式）的“快槍手”。他追求用最快的速度給出那個“看上去很美”的答案。這背后，正是其“效率優先”的設計哲學。正如OpenAI官方所強調的[9]，o1的設計理念是“花更多時間思考”，但這種“慢思考”似乎更多地體現在了計算時間的延長上，而非思維深度的拓展上。在面對需要審視和修正的復雜邏輯時，它為了效率而犧牲了可靠性，最終陷入了“欠思考”的陷阱。

歸根結底，我們診斷的并非AI的bug，而是它被賦予的“世界觀”——是選擇不計成本的絕對嚴謹，還是效率至上的快速迭代。

從“診斷”到“治療”：這不只是問題，更是通往下一代AI的路線圖

揭示病因的目的，是為了治愈。幸運的是，“推理圖”這把手術刀不僅能做診斷，還能指導“靶向治療”。AI訓練，正在從過去的“大水漫灌”，走向未來的“精準調理”。

《推理的拓撲學》論文就進行了一次漂亮的“臨床試驗”。研究人員用一個名為“s1”的高質量微調數據集，對一個基礎模型進行“靶向治療”。結果顯示，經過訓練，模型的推理圖直徑被顯著“拉長”了，這直接證明了高質量的數據可以有效“治療”欠思考，提升模型的思維探索能力。

方法

效果

含義

SFT with s1 Dataset增大圖直徑定向提升思維探索廣度Reinforcement Learning (RLHF)優化獎勵過程鼓勵更優的思維結構High-Quality Datasets (LIMO)激活已有能力用少量“認知模板”喚醒推理潛能
上表：幾種提升AI推理能力的“治療方案”

這只是一個開始。放眼整個行業，更前沿的“治療方案”正在涌現。研究者們正在探索通過強化學習（如DPO[10]或過程監督[11]）來獎勵那些具有更優“思維結構”的模型。同時，以LIMO數據集[12]為代表的新一代訓練數據，秉持著“少即是多”的理念，用幾百個精心設計的“認知模板”就能激活模型深層的推理能力。這些都預示著，未來我們可以像配藥一樣，精準地塑造AI的思考方式。

那么，在“完美AI”誕生之前，我們這些用戶該怎么辦？

答案是：成為一個善用“偏科”AI的高手。

理解了這些模型的“認知偏差”，我們就能揚長避短，把它們用到最合適的地方。一份來自專業寫作者的用戶研究[13]就顯示，他們會根據不同的創作階段選擇不同的AI工具。而針對程序員的調研[14]也表明，開發者們正在開發復雜的工作流，將不同模型的優勢整合起來。

我們可以借鑒這種智慧，形成自己的“AI使用手冊”：

當你需要【嚴謹與可靠】時，比如寫代碼、做科學計算、審閱法律合同，請毫不猶豫地選擇那些“過度思考”的AI。把它當成你最不知疲倦、甚至有點強迫癥的專業助理。
當你需要【效率與靈感】時，比如進行頭腦風暴、構思營銷文案、尋找創意突破，不妨試試那些“欠思考”的AI。它那看似不靠譜的思維跳躍，有時反而能給你帶來意想不到的驚喜（Serendipity）。

結語：我們正在成為AI的“認知神經科學家”

這項來自東京大學和DeepMind的研究，其真正的價值，遠不止于診斷了幾個模型的“毛病”。它給了我們一個全新的“鏡頭”和一套科學的“語言”，讓我們得以談論、度量和干預AI的“思維品質”。

“推理圖”讓我們從AI的“馴獸師”，第一次有機會成為它的“腦科醫生”。

我們正處在一個歷史性的轉折點。正如AI教父Geoffrey Hinton和Yoshua Bengio所強調的[15]，AI領域正在從純粹追求性能的“黑箱”工程，轉向深入理解其內部機制的科學探索。有研究者將這個新領域稱為“機制化可解釋性”或“AI神經科學”[16]。

這個轉變的意義是深遠的。我們正在從一個只能在外部觀察AI行為的“心理學家”，逐步轉變為一個能夠探究其內部心智結構的“神經科學家”。

今天我們診斷AI的“認知病”，正是為了明天能創造出更健康、更強大、也更值得我們信賴的超級智能。而我們每一個人，都是這場偉大變革的見證者和參與者。

那么，在你日常的使用中，你更偏愛“過度思考”的嚴謹，還是“欠思考”的效率？你還觀察到AI有哪些有趣的“認知偏差”？

歡迎在評論區分享你的洞察。

參考資料

DeepSeek-R1系列: https://huggingface.co/deepseek-ai/deepseek-coder-6.7b-instruct

《推理的拓撲學》: https://arxiv.org/abs/2506.05744v2

Topology of Reasoning: https://arxiv.org/abs/2506.05744v2

Reddit社區的討論: https://www.reddit.com/r/LocalLLaMA/comments/1i8rujw/notes_on_deepseek_r1_just_how_good_it_is_compared/

[5]

評測: https://blog.promptlayer.com/openai-vs-deepseek-an-analysis-of-r1-and-o1-models/

[6]

《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》: https://arxiv.org/pdf/2501.18585.pdf

[7]

GeekWire的分析文章: https://www.geekwire.com/2024/buyer-beware-openais-o1-large-language-model-is-an-entirely-different-beast/

[8]

“彈珠包謎題”: https://www.ccn.com/news/technology/openai-o1-complex-reasoning/

[9]

OpenAI官方所強調的: https://openai.com/index/introducing-openai-o1-preview/

[10]

DPO: https://www.superannotate.com/blog/direct-preference-optimization-dpo

[11]

過程監督: https://arxiv.org/abs/2410.09671

[12]

LIMO數據集: http://arxiv.org/pdf/2502.03387.pdf

[13]

專業寫作者的用戶研究: https://arxiv.org/html/2310.12953v3

[14]

針對程序員的調研: https://arxiv.org/pdf/2312.15223.pdf

[15]

Geoffrey Hinton和Yoshua Bengio所強調的: https://www.youtube.com/watch?v=G5c4CqmlEWs

[16]

“機制化可解釋性”或“AI神經科學”: https://arxiv.org/html/2501.16496v1

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.