99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

涌現觀點|GPT們為何“想太少”?DeepSeek們又為何“想太多”?一份來自AI大腦深處的診斷報告

0
分享至

一個“想太多”,一個“想太少”。我們過去只能將AI模型的不同行為歸結為“脾氣”,但現在,一把來自頂尖研究的“手術刀”,讓我們首次能像診斷“認知病”一樣,解剖它們思考方式的根本缺陷。
兩大AI巨頭的“認知病”:我們用一張“思維地圖”,首次診斷出它們的思考缺陷

你一定遇到過這兩種讓你既熟悉又無奈的AI。

第一個瞬間,你可能只是想讓AI幫你算一個簡單的數學題,比如:“一個泳池長50米,寬25米,深2米,注滿水需要多少立方米的水?”

你期待一個數字,但你得到的是一篇小論文。那個被稱為“話癆學究”的AI,比如DeepSeek-R1系列[1]或Claude 3,不僅給出了“2500立方米”的答案,還詳細地為你復習了一遍長方體體積公式V=l*w*h,嚴謹地探討了單位換算的重要性,甚至熱情地要幫你計算水的密度和質量。

你一邊盯著屏幕,一邊忍不住內心獨白:“兄弟,我上過小學……我只想知道答案而已…你是不是想太多了?”

第二個瞬間,你可能正向另一個以速度著稱的AI(比如OpenAI的o1系列)拋出一個稍微復雜的邏輯題:“我有紅、黃、藍三個盒子,只有一個盒子里有獎品。提示1:獎品不在紅盒子里。提示2:獎品在黃盒子或藍盒子里。提示3是假話:獎品在黃盒子里。請問獎品在哪里?”

它幾乎在瞬間給出了答案:“在藍盒子里。”你驚嘆于它的速度,但當你追問它的推理步驟時,卻發現它可能完全混淆了“提示3是假話”這個最關鍵的邏輯,只是簡單地做了個排除法。

這時,你的內心獨白又來了:“這么快?但你真的想明白了嗎?萬一我信了你,結果錯了怎么辦?”

這種無奈與懷疑,幾乎是每個深度AI用戶的日常。一個“想太多”,一個“想太少”。我們過去只能將這些行為歸結為不同公司的“模型脾氣”或是難以捉摸的“個性”。我們一直憑感覺猜測,卻無法深入探究其背后的原因。

但現在,情況變了。

這些看似相反的“毛病”——“過度思考 (Overthinking)”“欠思考 (Underthinking)”——并非隨機的,而是一種更深層次的、由模型內部結構決定的系統性“認知偏差”。我們敢于做出診斷的底氣,來自一把剛剛被遞到手中的“手術刀”。

一把“手術刀”:如何科學解剖AI的思考過程?

如果說AI的思考過程是一場迷霧中的神秘旅行,那么東京大學與Google DeepMind在2025年6月發表的一篇名為《推理的拓撲學》[2]的重磅論文,就是我們第一次拿到的GPS軌跡圖。

這項研究開創性地提出了一個名為“推理圖” (Reasoning Graph)的概念,讓我們第一次能“看見”AI的思考路徑。

這把“手術刀”用起來其實不難理解:

  • 思維節點 (Node):AI在解決問題時,其龐大的神經網絡會形成不同的“想法”或“計算狀態”。研究人員用算法將這些狀態聚類,每一個聚類中心,就代表一個具體的“思維節點”,比如“正在做加法”、“正在識別關鍵詞”或“正在進行邏輯判斷”。

  • 思維路徑 (Edge):AI的思考從一個“想法”跳到下一個“想法”,就在這些節點之間連成了一條線。把所有這些線連起來,就構成了一張獨一無二的“思維地圖”。

Illustration of reasoning graphs

這張圖的形狀,或者說“拓撲結構”,泄露了AI思考方式的秘密。通過觀察這張圖,研究人員發現,聰明的推理模型與普通模型相比,在思考方式上存在著肉眼可見的差異。


Visualization of reasoning paths on GSM8K dataset

上圖:基礎模型的推理路徑(上排)與增強推理模型(下排)的對比。來源:Topology of Reasoning[3]

就像給大腦做一次CT掃描,我們現在有了三個關鍵的診斷指標,來量化AI的思維品質:


上圖:推理圖的三大關鍵診斷指標

有了這套診斷工具,我們終于可以從一個只能抱怨AI“脾氣怪”的用戶,變成一個能分析其“病理”的診斷師。現在,讓我們正式出具診斷報告。

診斷報告:兩大“病癥”首次被清晰歸因診斷報告一:“過度思考”——源自一種對確定性的偏執

  • 病癥名稱:認知潔癖型過思癥 (Cognitive-Perfectionism Overthinking)——這是一種為了追求絕對正確,而不惜一切計算代價的思維模式。

  • 典型模型:DeepSeek-R1系列,部分場景下的Claude 3 Opus等

當你抱怨一個模型太“啰嗦”時,你實際上是在觀察一種對確定性的極致追求。它的“病理”根源,正是其推理圖譜中過多、過密的“循環”異常大的“圖直徑”

《推理的拓撲學》論文用冰冷的數據證實了這一點:尤其是在處理像AIME 2024這類頂級數學競賽難題時,像DeepSeek-R1這樣經過推理能力強化的模型,其推理圖中包含的循環數量平均是基礎模型的5倍,其思維探索的廣度(圖直徑)也顯著更大。

這就像一個極度謹慎、有“潔癖”的學霸。為了確保答案100%正確,他會反復檢查自己的每一步推導,探索每一個可能的陷阱,即便面對的是一道“1+1”級別的簡單問題。這種思考方式保證了極高的可靠性,但代價是犧牲了巨大的效率。真實世界用戶的反饋也印證了這一點,在Reddit社區的討論[4]中,用戶普遍認為R1模型“在思考階段花費更多時間”,導致響應延遲,甚至有評測[5]直接指出了其“冗長輸出”的問題。

但“循環”并非總是好事。當它變成無意義的空轉時,就從“謹慎”滑向了“病態”。論文就發現,14B參數版本的模型在推理中出現了“語言混淆”的現象——在不同語言之間來回切換。這表明,過多的、無效的循環,已經成為了一種需要被“治療”的真正缺陷。

診斷報告二:“欠思考”——效率陷阱下的思維捷徑

  • 病癥名稱:啟發式捷徑依賴癥 (Heuristic-Shortcut Underthinking)——這是一種為了追求極致的響應速度,而傾向于采用思維捷徑的模式。

  • 典型模型:o1-mini及部分追求極致響應速度的模型

與“過度思考”相對的,是“欠思考”。當你覺得一個AI“反應快但不過腦子”時,你可能正在與一個“啟發式捷徑依賴癥”患者打交道。

需要明確的是,原論文并未直接對o1模型進行“推理圖”分析。但基于海量的公開報告和我們的用戶體驗,我們可以構建一個合理的“反向診斷”:o1系列模型的推理圖,很可能呈現出一種“線性、短直徑、少循環”的特征。

這背后的診斷邏輯是清晰的。一篇名為《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》[6]的學術研究,直接將矛頭指向了這種現象,指出o1這類模型傾向于在不同的推理思路間頻繁切換,而沒有充分探索真正有希望的路徑。

這種“思維捷徑”在第三方獨立評測中暴露無遺。在一個名為SimpleBench的常識推理測試中——這個測試專門用于評估模型是否具備人類的基本常識——人類的平均成功率是83.7%,而o1-preview的得分僅有慘淡的41.7%。正如一篇GeekWire的分析文章[7]所言,這一巨大差距表明其在類人常識推理方面存在根本性缺陷。在廣為流傳的“彈珠包謎題”[8]中,o1也因無法正確處理語言邏輯而給出錯誤答案。

這就像一個極其依賴直覺(啟發式)的“快槍手”。他追求用最快的速度給出那個“看上去很美”的答案。這背后,正是其“效率優先”的設計哲學。正如OpenAI官方所強調的[9],o1的設計理念是“花更多時間思考”,但這種“慢思考”似乎更多地體現在了計算時間的延長上,而非思維深度的拓展上。在面對需要審視和修正的復雜邏輯時,它為了效率而犧牲了可靠性,最終陷入了“欠思考”的陷阱。

歸根結底,我們診斷的并非AI的bug,而是它被賦予的“世界觀”——是選擇不計成本的絕對嚴謹,還是效率至上的快速迭代。

從“診斷”到“治療”:這不只是問題,更是通往下一代AI的路線圖

揭示病因的目的,是為了治愈。幸運的是,“推理圖”這把手術刀不僅能做診斷,還能指導“靶向治療”。AI訓練,正在從過去的“大水漫灌”,走向未來的“精準調理”。

《推理的拓撲學》論文就進行了一次漂亮的“臨床試驗”。研究人員用一個名為“s1”的高質量微調數據集,對一個基礎模型進行“靶向治療”。結果顯示,經過訓練,模型的推理圖直徑被顯著“拉長”了,這直接證明了高質量的數據可以有效“治療”欠思考,提升模型的思維探索能力。

方法

效果

含義

SFT with s1 Dataset增大圖直徑定向提升思維探索廣度Reinforcement Learning (RLHF)優化獎勵過程鼓勵更優的思維結構High-Quality Datasets (LIMO)激活已有能力用少量“認知模板”喚醒推理潛能
上表:幾種提升AI推理能力的“治療方案”

這只是一個開始。放眼整個行業,更前沿的“治療方案”正在涌現。研究者們正在探索通過強化學習(如DPO[10]或過程監督[11])來獎勵那些具有更優“思維結構”的模型。同時,以LIMO數據集[12]為代表的新一代訓練數據,秉持著“少即是多”的理念,用幾百個精心設計的“認知模板”就能激活模型深層的推理能力。這些都預示著,未來我們可以像配藥一樣,精準地塑造AI的思考方式。

那么,在“完美AI”誕生之前,我們這些用戶該怎么辦?

答案是:成為一個善用“偏科”AI的高手。

理解了這些模型的“認知偏差”,我們就能揚長避短,把它們用到最合適的地方。一份來自專業寫作者的用戶研究[13]就顯示,他們會根據不同的創作階段選擇不同的AI工具。而針對程序員的調研[14]也表明,開發者們正在開發復雜的工作流,將不同模型的優勢整合起來。

我們可以借鑒這種智慧,形成自己的“AI使用手冊”:

  • 當你需要【嚴謹與可靠】時,比如寫代碼、做科學計算、審閱法律合同,請毫不猶豫地選擇那些“過度思考”的AI。把它當成你最不知疲倦、甚至有點強迫癥的專業助理。

  • 當你需要【效率與靈感】時,比如進行頭腦風暴、構思營銷文案、尋找創意突破,不妨試試那些“欠思考”的AI。它那看似不靠譜的思維跳躍,有時反而能給你帶來意想不到的驚喜(Serendipity)。

結語:我們正在成為AI的“認知神經科學家”

這項來自東京大學和DeepMind的研究,其真正的價值,遠不止于診斷了幾個模型的“毛病”。它給了我們一個全新的“鏡頭”和一套科學的“語言”,讓我們得以談論、度量和干預AI的“思維品質”。

“推理圖”讓我們從AI的“馴獸師”,第一次有機會成為它的“腦科醫生”。

我們正處在一個歷史性的轉折點。正如AI教父Geoffrey Hinton和Yoshua Bengio所強調的[15],AI領域正在從純粹追求性能的“黑箱”工程,轉向深入理解其內部機制的科學探索。有研究者將這個新領域稱為“機制化可解釋性”或“AI神經科學”[16]。

這個轉變的意義是深遠的。我們正在從一個只能在外部觀察AI行為的“心理學家”,逐步轉變為一個能夠探究其內部心智結構的“神經科學家”。

今天我們診斷AI的“認知病”,正是為了明天能創造出更健康、更強大、也更值得我們信賴的超級智能。而我們每一個人,都是這場偉大變革的見證者和參與者。

那么,在你日常的使用中,你更偏愛“過度思考”的嚴謹,還是“欠思考”的效率?你還觀察到AI有哪些有趣的“認知偏差”?

歡迎在評論區分享你的洞察。

參考資料

DeepSeek-R1系列: https://huggingface.co/deepseek-ai/deepseek-coder-6.7b-instruct

《推理的拓撲學》: https://arxiv.org/abs/2506.05744v2

Topology of Reasoning: https://arxiv.org/abs/2506.05744v2

Reddit社區的討論: https://www.reddit.com/r/LocalLLaMA/comments/1i8rujw/notes_on_deepseek_r1_just_how_good_it_is_compared/

[5]

評測: https://blog.promptlayer.com/openai-vs-deepseek-an-analysis-of-r1-and-o1-models/

[6]

《Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs》: https://arxiv.org/pdf/2501.18585.pdf

[7]

GeekWire的分析文章: https://www.geekwire.com/2024/buyer-beware-openais-o1-large-language-model-is-an-entirely-different-beast/

[8]

“彈珠包謎題”: https://www.ccn.com/news/technology/openai-o1-complex-reasoning/

[9]

OpenAI官方所強調的: https://openai.com/index/introducing-openai-o1-preview/

[10]

DPO: https://www.superannotate.com/blog/direct-preference-optimization-dpo

[11]

過程監督: https://arxiv.org/abs/2410.09671

[12]

LIMO數據集: http://arxiv.org/pdf/2502.03387.pdf

[13]

專業寫作者的用戶研究: https://arxiv.org/html/2310.12953v3

[14]

針對程序員的調研: https://arxiv.org/pdf/2312.15223.pdf

[15]

Geoffrey Hinton和Yoshua Bengio所強調的: https://www.youtube.com/watch?v=G5c4CqmlEWs

[16]

“機制化可解釋性”或“AI神經科學”: https://arxiv.org/html/2501.16496v1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國科學院空天院因存在圍標串標行為被暫定全軍采購資格

中國科學院空天院因存在圍標串標行為被暫定全軍采購資格

齊魯壹點
2025-07-24 12:48:39
《戲臺》:國產喜劇,進化到這個地步了?

《戲臺》:國產喜劇,進化到這個地步了?

舒心醬
2025-07-25 00:33:32
美記:太陽內部相信馬威在從黃蜂被交易后,已做好準備迎來爆發賽季

美記:太陽內部相信馬威在從黃蜂被交易后,已做好準備迎來爆發賽季

雷速體育
2025-07-24 09:15:21
泰國與柬埔寨為什么打起來了?誰厲害?

泰國與柬埔寨為什么打起來了?誰厲害?

點評校尉
2025-07-24 23:26:12
越是上流人越“下流”?人民日報撕下司馬南體面,3大污點洗不清

越是上流人越“下流”?人民日報撕下司馬南體面,3大污點洗不清

火之文
2025-07-24 17:26:43
英國首相:承認巴勒斯坦國是加沙停火步驟之一

英國首相:承認巴勒斯坦國是加沙停火步驟之一

財聯社
2025-07-26 01:29:06
皇馬震怒!1.7億巨星要求漲薪1000萬比肩姆巴佩,續約談判已停滯

皇馬震怒!1.7億巨星要求漲薪1000萬比肩姆巴佩,續約談判已停滯

我愛英超
2025-07-25 22:55:58
泰國態度突變拒絕調解,中美都勸不住,他信:必須教訓一下洪森

泰國態度突變拒絕調解,中美都勸不住,他信:必須教訓一下洪森

阿校談史
2025-07-26 00:58:58
宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

宗慶后再被曝猛料,魔爪伸向多名女員工,還有浙大高材生為他生子

八斗小先生
2025-07-17 15:12:37
烏克蘭爆發政變,波羅申科卷土重來,澤連斯基沒頂住,大勢已去?

烏克蘭爆發政變,波羅申科卷土重來,澤連斯基沒頂住,大勢已去?

何蕥室內設計
2025-07-25 19:36:52
小伙被復旦錄取,讀了一年交學費時懵了,復旦:沒錄取你啊!

小伙被復旦錄取,讀了一年交學費時懵了,復旦:沒錄取你啊!

書中自有顏如玉
2025-07-24 05:29:48
智駕高速測試“全軍覆沒”,”遙遙領先”現原形

智駕高速測試“全軍覆沒”,”遙遙領先”現原形

中車網評
2025-07-24 16:43:57
央視曝光!你以為沒壞實際早已“細菌爆表”的5種食物,趕緊扔了

央視曝光!你以為沒壞實際早已“細菌爆表”的5種食物,趕緊扔了

阿傖說事
2025-07-22 08:00:09
廣西北海摩托艇事故致2人死亡,當地回應:多部門正聯合調查處理

廣西北海摩托艇事故致2人死亡,當地回應:多部門正聯合調查處理

上游新聞
2025-07-25 14:11:40
曾經“日入百萬”的網紅郭有才,光芒散盡后,如今的他過得如何?

曾經“日入百萬”的網紅郭有才,光芒散盡后,如今的他過得如何?

阿綏談史
2025-07-21 18:16:39
印度神廟曝出藏尸大案,數百名婦女兒童遇害,大多遭到暴力襲擊和性侵

印度神廟曝出藏尸大案,數百名婦女兒童遇害,大多遭到暴力襲擊和性侵

極目新聞
2025-07-25 17:09:55
法院:通過“花唄”形成的借貸行為無效,金額大的可能構成犯罪!

法院:通過“花唄”形成的借貸行為無效,金額大的可能構成犯罪!

福建玲子
2025-07-25 18:14:36
全新一代速騰實車:外觀小邁騰,內飾大變樣

全新一代速騰實車:外觀小邁騰,內飾大變樣

車動態
2025-06-10 18:30:05
網友:山姆超市出現部分產品更換包裝后品質或等級下降!山姆供應鏈人士揭秘產品減料:價格壓得過低,被迫降品質

網友:山姆超市出現部分產品更換包裝后品質或等級下降!山姆供應鏈人士揭秘產品減料:價格壓得過低,被迫降品質

和訊網
2025-07-25 09:58:59
程瀟終于坦白!曾確診精神疾病,與梁朝偉日本產子傳聞已真相大白

程瀟終于坦白!曾確診精神疾病,與梁朝偉日本產子傳聞已真相大白

書雁飛史oh
2025-07-23 22:17:09
2025-07-26 02:40:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4046文章數 37239關注度
往期回顧 全部

科技要聞

36款熱門車高危智駕場景測試,“團滅”!

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

頭條要聞

8旬翁下葬前墓地被人埋死狗沿路埋鐵釘暗器 官方介入

體育要聞

3年過去了,她還是歐洲杯上最酷的姐

娛樂要聞

汪蘇瀧不忍了 !張碧晨痛失《年輪》演唱權

財經要聞

劉煜輝:當下重要不是找確定性而是轉折點

汽車要聞

李斌一口氣講了近3個小時樂道L90 原因是為啥?

態度原創

手機
藝術
家居
數碼
軍事航空

手機要聞

真把天璣 9400+ 裝在「充電寶」上了?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

環繞設計 空間動線合理

數碼要聞

谷歌Pixel Watch 4智能手表曝光:充電口更改,配色更多

軍事要聞

吳謙少將任中國駐埃及使館國防武官

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宜丰县| 和静县| 游戏| 若尔盖县| 昌宁县| 平顶山市| 太仓市| 渭南市| 乌兰察布市| 林芝县| 西丰县| 乾安县| 泾源县| 沙田区| 孝义市| 锡林郭勒盟| 大名县| 温泉县| 元朗区| 射洪县| 张家界市| 蒙山县| 四会市| 肇庆市| 达拉特旗| 新乡市| 大洼县| 科技| 绥宁县| 东明县| 榆树市| 元朗区| 鹤壁市| 囊谦县| 乐业县| 醴陵市| 淮南市| 延庆县| 贵阳市| 深州市| 北流市|