一個“想太多”,一個“想太少”。我們過去只能將AI模型的不同行為歸結為“脾氣”,但現在,一把來自頂尖研究的“手術刀”,讓我們首次能像診斷“認知病”一樣,解剖它們思考方式的根本缺陷。兩大AI巨頭的“認知病”:我們用一張“思維地圖”,首次診斷出它們的思考缺陷
你一定遇到過這兩種讓你既熟悉又無奈的AI。
第一個瞬間,你可能只是想讓AI幫你算一個簡單的數學題,比如:“一個泳池長50米,寬25米,深2米,注滿水需要多少立方米的水?”
你期待一個數字,但你得到的是一篇小論文。那個被稱為“話癆學究”的AI,比如DeepSeek-R1系列[1]或Claude 3,不僅給出了“2500立方米”的答案,還詳細地為你復習了一遍長方體體積公式V=l*w*h
,嚴謹地探討了單位換算的重要性,甚至熱情地要幫你計算水的密度和質量。
你一邊盯著屏幕,一邊忍不住內心獨白:“兄弟,我上過小學……我只想知道答案而已…你是不是想太多了?”
第二個瞬間,你可能正向另一個以速度著稱的AI(比如OpenAI的o1系列)拋出一個稍微復雜的邏輯題:“我有紅、黃、藍三個盒子,只有一個盒子里有獎品。提示1:獎品不在紅盒子里。提示2:獎品在黃盒子或藍盒子里。提示3是假話:獎品在黃盒子里。請問獎品在哪里?”
它幾乎在瞬間給出了答案:“在藍盒子里。”你驚嘆于它的速度,但當你追問它的推理步驟時,卻發現它可能完全混淆了“提示3是假話”這個最關鍵的邏輯,只是簡單地做了個排除法。
這時,你的內心獨白又來了:“這么快?但你真的想明白了嗎?萬一我信了你,結果錯了怎么辦?”
這種無奈與懷疑,幾乎是每個深度AI用戶的日常。一個“想太多”,一個“想太少”。我們過去只能將這些行為歸結為不同公司的“模型脾氣”或是難以捉摸的“個性”。我們一直憑感覺猜測,卻無法深入探究其背后的原因。
但現在,情況變了。
這些看似相反的“毛病”——“過度思考 (Overthinking)”和“欠思考 (Underthinking)”——并非隨機的,而是一種更深層次的、由模型內部結構決定的系統性“認知偏差”。我們敢于做出診斷的底氣,來自一把剛剛被遞到手中的“手術刀”。
一把“手術刀”:如何科學解剖AI的思考過程?
如果說AI的思考過程是一場迷霧中的神秘旅行,那么東京大學與Google DeepMind在2025年6月發表的一篇名為《推理的拓撲學》[2]的重磅論文,就是我們第一次拿到的GPS軌跡圖。
這項研究開創性地提出了一個名為“推理圖” (Reasoning Graph)的概念,讓我們第一次能“看見”AI的思考路徑。
這把“手術刀”用起來其實不難理解:
思維節點 (Node):AI在解決問題時,其龐大的神經網絡會形成不同的“想法”或“計算狀態”。研究人員用算法將這些狀態聚類,每一個聚類中心,就代表一個具體的“思維節點”,比如“正在做加法”、“正在識別關鍵詞”或“正在進行邏輯判斷”。
思維路徑 (Edge):AI的思考從一個“想法”跳到下一個“想法”,就在這些節點之間連成了一條線。把所有這些線連起來,就構成了一張獨一無二的“思維地圖”。

這張圖的形狀,或者說“拓撲結構”,泄露了AI思考方式的秘密。通過觀察這張圖,研究人員發現,聰明的推理模型與普通模型相比,在思考方式上存在著肉眼可見的差異。
Visualization of reasoning paths on GSM8K dataset
上圖:基礎模型的推理路徑(上排)與增強推理模型(下排)的對比。來源:Topology of Reasoning[3]
就像給大腦做一次CT掃描,我們現在有了三個關鍵的診斷指標,來量化AI的思維品質:
上圖:推理圖的三大關鍵診斷指標
有了這套診斷工具,我們終于可以從一個只能抱怨AI“脾氣怪”的用戶,變成一個能分析其“病理”的診斷師。現在,讓我們正式出具診斷報告。
診斷報告:兩大“病癥”首次被清晰歸因診斷報告一:“過度思考”——源自一種對確定性的偏執
病癥名稱:認知潔癖型過思癥 (Cognitive-Perfectionism Overthinking)——這是一種為了追求絕對正確,而不惜一切計算代價的思維模式。
典型模型:DeepSeek-R1系列,部分場景下的Claude 3 Opus等
當你抱怨一個模型太“啰嗦”時,你實際上是在觀察一種對確定性的極致追求。它的“病理”根源,正是其推理圖譜中過多、過密的“循環”和異常大的“圖直徑”。
《推理的拓撲學》論文用冰冷的數據證實了這一點:尤其是在處理像AIME 2024這類頂級數學競賽難題時,像DeepSeek-R1這樣經過推理能力強化的模型,其推理圖中包含的循環數量平均是基礎模型的5倍,其思維探索的廣度(圖直徑)也顯著更大。
這就像一個極度謹慎、有“潔癖”的學霸。為了確保答案100%正確,他會反復檢查自己的每一步推導,探索每一個可能的陷阱,即便面對的是一道“1+1”級別的簡單問題。這種思考方式保證了極高的可靠性,但代價是犧牲了巨大的效率。真實世界用戶的反饋也印證了這一點,在Reddit社區的討論[4]中,用戶普遍認為R1模型“在思考階段花費更多時間”,導致響應延遲,甚至有評測[5]直接指出了其“冗長輸出”的問題。
但“循環”并非總是好事。當它變成無意義的空轉時,就從“謹慎”滑向了“病態”。論文就發現,14B參數版本的模型在推理中出現了“語言混淆”的現象——在不同語言之間來回切換。這表明,過多的、無效的循環,已經成為了一種需要被“治療”的真正缺陷。
診斷報告二:“欠思考”——效率陷阱下的思維捷徑
病癥名稱:啟發式捷徑依賴癥 (Heuristic-Shortcut Underthinking)——這是一種為了追求極致的響應速度,而傾向于采用思維捷徑的模式。
典型模型:o1-mini及部分追求極致響應速度的模型
與“過度思考”相對的,是“欠思考”。當你覺得一個AI“反應快但不過腦子”時,你可能正在與一個“啟發式捷徑依賴癥”患者打交道。
需要明確的是,原論文并未直接對o1模型進行“推理圖”分析。但基于海量的公開報告和我們的用戶體驗,我們可以構建一個合理的“反向診斷”:o1系列模型的推理圖,很可能呈現出一種“線性、短直徑、少循環”的特征。
這背后的診斷邏輯是清晰的。一篇名為《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》[6]的學術研究,直接將矛頭指向了這種現象,指出o1這類模型傾向于在不同的推理思路間頻繁切換,而沒有充分探索真正有希望的路徑。
這種“思維捷徑”在第三方獨立評測中暴露無遺。在一個名為SimpleBench的常識推理測試中——這個測試專門用于評估模型是否具備人類的基本常識——人類的平均成功率是83.7%,而o1-preview的得分僅有慘淡的41.7%。正如一篇GeekWire的分析文章[7]所言,這一巨大差距表明其在類人常識推理方面存在根本性缺陷。在廣為流傳的“彈珠包謎題”[8]中,o1也因無法正確處理語言邏輯而給出錯誤答案。
這就像一個極其依賴直覺(啟發式)的“快槍手”。他追求用最快的速度給出那個“看上去很美”的答案。這背后,正是其“效率優先”的設計哲學。正如OpenAI官方所強調的[9],o1的設計理念是“花更多時間思考”,但這種“慢思考”似乎更多地體現在了計算時間的延長上,而非思維深度的拓展上。在面對需要審視和修正的復雜邏輯時,它為了效率而犧牲了可靠性,最終陷入了“欠思考”的陷阱。
歸根結底,我們診斷的并非AI的bug,而是它被賦予的“世界觀”——是選擇不計成本的絕對嚴謹,還是效率至上的快速迭代。
從“診斷”到“治療”:這不只是問題,更是通往下一代AI的路線圖
揭示病因的目的,是為了治愈。幸運的是,“推理圖”這把手術刀不僅能做診斷,還能指導“靶向治療”。AI訓練,正在從過去的“大水漫灌”,走向未來的“精準調理”。
《推理的拓撲學》論文就進行了一次漂亮的“臨床試驗”。研究人員用一個名為“s1”的高質量微調數據集,對一個基礎模型進行“靶向治療”。結果顯示,經過訓練,模型的推理圖直徑被顯著“拉長”了,這直接證明了高質量的數據可以有效“治療”欠思考,提升模型的思維探索能力。
方法
效果
含義
SFT with s1 Dataset增大圖直徑定向提升思維探索廣度Reinforcement Learning (RLHF)優化獎勵過程鼓勵更優的思維結構High-Quality Datasets (LIMO)激活已有能力用少量“認知模板”喚醒推理潛能
上表:幾種提升AI推理能力的“治療方案”
這只是一個開始。放眼整個行業,更前沿的“治療方案”正在涌現。研究者們正在探索通過強化學習(如DPO[10]或過程監督[11])來獎勵那些具有更優“思維結構”的模型。同時,以LIMO數據集[12]為代表的新一代訓練數據,秉持著“少即是多”的理念,用幾百個精心設計的“認知模板”就能激活模型深層的推理能力。這些都預示著,未來我們可以像配藥一樣,精準地塑造AI的思考方式。
那么,在“完美AI”誕生之前,我們這些用戶該怎么辦?
答案是:成為一個善用“偏科”AI的高手。
理解了這些模型的“認知偏差”,我們就能揚長避短,把它們用到最合適的地方。一份來自專業寫作者的用戶研究[13]就顯示,他們會根據不同的創作階段選擇不同的AI工具。而針對程序員的調研[14]也表明,開發者們正在開發復雜的工作流,將不同模型的優勢整合起來。
我們可以借鑒這種智慧,形成自己的“AI使用手冊”:
當你需要【嚴謹與可靠】時,比如寫代碼、做科學計算、審閱法律合同,請毫不猶豫地選擇那些“過度思考”的AI。把它當成你最不知疲倦、甚至有點強迫癥的專業助理。
當你需要【效率與靈感】時,比如進行頭腦風暴、構思營銷文案、尋找創意突破,不妨試試那些“欠思考”的AI。它那看似不靠譜的思維跳躍,有時反而能給你帶來意想不到的驚喜(Serendipity)。
這項來自東京大學和DeepMind的研究,其真正的價值,遠不止于診斷了幾個模型的“毛病”。它給了我們一個全新的“鏡頭”和一套科學的“語言”,讓我們得以談論、度量和干預AI的“思維品質”。
“推理圖”讓我們從AI的“馴獸師”,第一次有機會成為它的“腦科醫生”。
我們正處在一個歷史性的轉折點。正如AI教父Geoffrey Hinton和Yoshua Bengio所強調的[15],AI領域正在從純粹追求性能的“黑箱”工程,轉向深入理解其內部機制的科學探索。有研究者將這個新領域稱為“機制化可解釋性”或“AI神經科學”[16]。
這個轉變的意義是深遠的。我們正在從一個只能在外部觀察AI行為的“心理學家”,逐步轉變為一個能夠探究其內部心智結構的“神經科學家”。
今天我們診斷AI的“認知病”,正是為了明天能創造出更健康、更強大、也更值得我們信賴的超級智能。而我們每一個人,都是這場偉大變革的見證者和參與者。
那么,在你日常的使用中,你更偏愛“過度思考”的嚴謹,還是“欠思考”的效率?你還觀察到AI有哪些有趣的“認知偏差”?
歡迎在評論區分享你的洞察。
參考資料
DeepSeek-R1系列: https://huggingface.co/deepseek-ai/deepseek-coder-6.7b-instruct
《推理的拓撲學》: https://arxiv.org/abs/2506.05744v2
Topology of Reasoning: https://arxiv.org/abs/2506.05744v2
Reddit社區的討論: https://www.reddit.com/r/LocalLLaMA/comments/1i8rujw/notes_on_deepseek_r1_just_how_good_it_is_compared/
[5]
評測: https://blog.promptlayer.com/openai-vs-deepseek-an-analysis-of-r1-and-o1-models/
[6]
《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》: https://arxiv.org/pdf/2501.18585.pdf
[7]
GeekWire的分析文章: https://www.geekwire.com/2024/buyer-beware-openais-o1-large-language-model-is-an-entirely-different-beast/
[8]
“彈珠包謎題”: https://www.ccn.com/news/technology/openai-o1-complex-reasoning/
[9]
OpenAI官方所強調的: https://openai.com/index/introducing-openai-o1-preview/
[10]
DPO: https://www.superannotate.com/blog/direct-preference-optimization-dpo
[11]
過程監督: https://arxiv.org/abs/2410.09671
[12]
LIMO數據集: http://arxiv.org/pdf/2502.03387.pdf
[13]
專業寫作者的用戶研究: https://arxiv.org/html/2310.12953v3
[14]
針對程序員的調研: https://arxiv.org/pdf/2312.15223.pdf
[15]
Geoffrey Hinton和Yoshua Bengio所強調的: https://www.youtube.com/watch?v=G5c4CqmlEWs
[16]
“機制化可解釋性”或“AI神經科學”: https://arxiv.org/html/2501.16496v1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.