99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大模型的「aha moment」不是裝腔作勢,內部信息量暴增數倍!

0
分享至



劉勇,中國人民大學,長聘副教授,博士生導師,國家級高層次青年人才。長期從事機器學習基礎理論研究,共發表論文 100 余篇,其中以第一作者/通訊作者發表頂級期刊和會議論文近 50 篇,涵蓋機器學習領域頂級期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和頂級會議 ICML、NeurIPS 等。

你肯定見過大模型在解題時「裝模作樣」地輸出:「Hmm…」、「Wait, let me think」、「Therefore…」這些看似「人類化」的思考詞。

但一個靈魂拷問始終存在:這些詞真的代表模型在「思考」,還是僅僅為了「表演」更像人類而添加的語言裝飾?是模型的「頓悟時刻」,還是純粹的「煙霧彈」?

現在,實錘來了!來自中國人民大學高瓴人工智能學院、上海人工智能實驗室、倫敦大學學院(UCL)和大連理工大學的聯合研究團隊,在最新論文中首次利用信息論這把「手術刀」,精準解剖了大模型內部的推理動態,給出了令人信服的答案:

當這些「思考詞」出現的瞬間,模型大腦(隱空間)中關于正確答案的信息量,會突然飆升數倍!

這絕非偶然裝飾,而是真正的「信息高峰」與「決策拐點」!更酷的是,基于這一發現,研究者提出了無需額外訓練就能顯著提升模型推理性能的簡單方法,代碼已開源!



  • 論文題目:Demystifying Reasoning Dynamics with Mutual Information: Thinking Tokens are Information Peaks in LLM Reasoning
  • 論文鏈接
  • https://arxiv.org/abs/2506.02867
  • 代碼鏈接
  • https://github.com/ChnQ/MI-Peaks

核心發現一:揭秘大模型推理軌跡中的「信息高峰」現象

研究者們追蹤了像 DeepSeek-R1 系列蒸餾模型、QwQ這類擅長推理的大模型在解題時的「腦電波」(隱空間表征)。他們測量每一步的「腦電波」與最終正確答案的互信息(Mutual Information, MI),并觀察這些互信息如何演繹變化。

驚人現象出現了:模型推理并非勻速「爬坡」,而是存在劇烈的「信息脈沖」!在特定步驟,互信息值會突然、顯著地飆升,形成顯著的「互信息峰值」(MI Peaks)現象。這些峰值點稀疏但關鍵,如同黑暗推理路徑上突然點亮的強光路標!



這意味著什么?直覺上,這些互信息峰值點處的表征,模型大腦中那一刻的狀態,蘊含了更多指向正確答案的最關鍵信息!

進一步地,研究者通過理論分析證明(定理 1 & 2),推理過程中積累的互信息越高,模型最終回答錯誤概率的上界和下界就越緊,換言之,回答正確的概率就越高!





既然互信息峰值的現象較為普遍地出現在推理模型(LRMs)中,那么非推理模型(non-reasoning LLMs)上也會表現出類似的現象嗎?



為了探索這一問題,研究者選取了 DeepSeek-R1-Distill 系列模型和其對應的非推理模型進行實驗。如上圖橙色線所示,在非推理模型的推理過程中,互信息往往表現出更小的波動,體現出明顯更弱的互信息峰值現象,且互信息的數值整體上更小。

這表明在經過推理能力強化訓練后,推理模型一方面似乎整體在表征中編碼了更多關于正確答案的信息,另一方面催生了互信息峰值現象的出現!

核心發現二:「思考詞匯」=「信息高峰」的語言化身

那么,這些互信息峰值點處的表征,到底蘊含著怎樣的語義信息?

神奇的是,當研究者把這些「信息高峰」時刻的「腦電波」翻譯回人能看懂的語言(解碼到詞匯空間)時,發現它們最常對應的,恰恰是那些標志性的「思考詞」:

  • 反思/停頓型:「Hmm」、「Wait」…
  • 邏輯/過渡型:「Therefore」、「So」…
  • 行動型:「Let」、「First」…



例如,研究者隨機摘取了一些模型輸出: 「Wait, let me think differently. Let’s denote...,」 「Hmm, so I must have made a mistake somewhere. Let me double-check my calculations. First, ...」

研究團隊將這些在互信息峰值點頻繁出現、承載關鍵信息并在語言上推動模型思考的詞匯命名為「思考詞匯」(thinking tokens)。它們不是可有可無的裝飾,而是信息高峰在語言層面的「顯靈」,可能在模型推理路徑上扮演著關鍵路標或決策點的角色!

為了證明這些 tokens 的關鍵性,研究者進行了干預實驗,即在模型推理時抑制這些思考詞匯的生成。

實錘驗證:實驗結果顯示,抑制思考詞匯的生成會顯著影響模型在數學推理數據集(如 GSM8K、MATH、AIME24)上的性能;相比之下,隨機屏蔽相同數量的其他普通詞匯,對性能影響甚微。這表明這些存在于互信息峰值點處的思考詞匯,確實對模型有效推理具有至關重要的作用!



啟發應用:無需訓練,巧用「信息高峰」提升推理性能

理解了「信息高峰」和「思考詞匯」的奧秘,研究者提出了兩種無需額外訓練即可提升現有 LRMs 推理性能的實用方法。

應用一:表征循環(Representation Recycling - RR)



  • 啟發:既然 MI 峰值點的表征蘊含豐富信息,何不讓模型「多咀嚼消化」一下?

  • 方法:在模型推理過程中,當檢測到生成了思考詞匯時,不急于讓其立刻輸出,而是將其對應的表征重新輸入到模型中進行額外一輪計算,讓模型充分挖掘利用表征中的豐富信息。

  • 效果:在多個數學推理基準(GSM8K、MATH500、AIME24)上,RR 方法一致地提升了 LRMs 的推理性能。例如,在極具挑戰性的 AIME24 上,DeepSeek-R1-Distill-LLaMA-8B 的準確率相對提升了 20%!這表明讓模型更充分地利用這些高信息量的「頓悟」表征,能有效解鎖其推理潛力。

應用二:基于思考詞匯的測試時擴展(Thinking Token based Test-time Scaling - TTTS)



  • 啟發:在推理時如果允許模型生成更多 token(增加計算預算),如何引導模型進行更有效的「深度思考」,而不是漫無目的地延伸?

  • 方法:受啟發于前人工作,作者在模型完成初始推理輸出后,如果還有 token 預算,則強制模型以「思考詞匯」開頭(如「Therefore」、「So」、「Wait」、「Hmm」等)繼續生成后續內容,引導模型在額外計算資源下進行更深入的推理。

  • 效果:當 token 預算增加時,TTTS 能持續穩定地提升模型的推理性能。如圖所示,在 GSM8K 和 MATH500 數據集上,在相同的 Token 預算下,TTTS 持續優于原始模型。在 AIME24 數據集上,盡管原始模型的性能在早期提升得較快,但當 token 預算達到 4096 后,模型性能就到達了瓶頸期;而 TTTS 引導下的模型,其性能隨著 Token 預算的增加而持續提升,并在預算達到 6144 后超越了原始模型。

小結

這項研究首次揭示了 LRMs 推理過程中的動態機制:通過互信息動態追蹤,首次清晰觀測到 LRMs 推理過程中的互信息峰值(MI Peaks)現象,為理解模型「黑箱」推理提供了創新視角和實證基礎。

進一步地,研究者發現這些互信息峰值處的 token 對應的是表達思考、反思等的「思考詞匯」(Thinking Tokens),并通過干預實驗驗證了這些 token 對模型推理性能具有至關重要的影響。

最后,受啟發于對上述現象的理解和分析,研究者提出了兩種簡單有效且無需訓練的方法來提升 LRMs 的推理性能,即表征循環(Representation Recycling - RR)和基于思考詞匯的測試時擴展(Thinking Token based Test-time Scaling - TTTS)。

研究者希望這篇工作可以為深入理解 LRMs 的推理機制提供新的視角,并進一步提出可行的方案來進一步推升模型的推理能力。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
寧波市鎮海區人大常委會原黨組書記、主任顧國芳接受審查調查

寧波市鎮海區人大常委會原黨組書記、主任顧國芳接受審查調查

魯中晨報
2025-07-03 19:19:16
R.I.P. 德轉顯示:離世的若塔身價從4000萬歐直接歸零

R.I.P. 德轉顯示:離世的若塔身價從4000萬歐直接歸零

直播吧
2025-07-03 17:47:06
埃及媒體:由于若塔去世,薩拉赫將縮短假期于周五返回英格蘭

埃及媒體:由于若塔去世,薩拉赫將縮短假期于周五返回英格蘭

懂球帝
2025-07-03 22:28:01
美國正式暫停對烏部分軍援,俄方表示歡迎,澤連斯基:還在確認細節

美國正式暫停對烏部分軍援,俄方表示歡迎,澤連斯基:還在確認細節

揚子晚報
2025-07-03 10:47:12
3-0!U19世錦賽戰報:兩連勝,中國女排橫掃弱旅,將戰日本!

3-0!U19世錦賽戰報:兩連勝,中國女排橫掃弱旅,將戰日本!

北京華夏金財教育科技有限公司
2025-07-04 02:57:36
注意!浙江公布一批非法社會組織名單

注意!浙江公布一批非法社會組織名單

浙江發布
2025-07-03 18:05:47
印度深夜突然開閘泄洪,3小時水漲7米,中國早為巴鐵備好這張王牌

印度深夜突然開閘泄洪,3小時水漲7米,中國早為巴鐵備好這張王牌

流年拾光
2025-07-02 19:22:20
看到了以色列的對華發言,才愕然發現,原來中國已經這么牛了

看到了以色列的對華發言,才愕然發現,原來中國已經這么牛了

禾寒敘
2025-07-03 16:25:52
動人!斯洛特長文悼念若塔:你永不獨行、永不會被遺忘

動人!斯洛特長文悼念若塔:你永不獨行、永不會被遺忘

直播吧
2025-07-04 01:27:06
抗日英雄譜丨繳獲槍支可裝備一個排!他在槍林彈雨中拼殺120余次

抗日英雄譜丨繳獲槍支可裝備一個排!他在槍林彈雨中拼殺120余次

國際在線
2025-07-02 16:04:40
索要天價片酬,不顧央視警告頂風作案的楊爍,如今糊成路人太解氣

索要天價片酬,不顧央視警告頂風作案的楊爍,如今糊成路人太解氣

草莓解說體育
2025-07-03 15:36:33
清純天后“萬人唾”,為愛吸毒拍片無下限,徹底淪為“國際乞巧”

清純天后“萬人唾”,為愛吸毒拍片無下限,徹底淪為“國際乞巧”

談史論天地
2025-07-02 14:52:41
雙廠同建破紀錄!五艘航母捍衛海權,中國海軍改寫太平洋棋局

雙廠同建破紀錄!五艘航母捍衛海權,中國海軍改寫太平洋棋局

鐵錘簡科
2025-07-03 18:41:24
雷軍:等不急小米YU7可選小鵬理想,特斯拉也行;同行想搶訂單無需詆毀

雷軍:等不急小米YU7可選小鵬理想,特斯拉也行;同行想搶訂單無需詆毀

觀察者網
2025-07-03 12:28:03
退休教師順雞蛋當場身亡,兒子索賠超市38萬,法院判決讓人佩服

退休教師順雞蛋當場身亡,兒子索賠超市38萬,法院判決讓人佩服

南南史
2025-01-15 10:54:19
國家終于出手了!這4個綜藝節目被強制停播,沒一個值得同情的

國家終于出手了!這4個綜藝節目被強制停播,沒一個值得同情的

扒星人
2025-06-25 10:21:29
延安艦抵港未開放,背后有深意

延安艦抵港未開放,背后有深意

荊楚寰宇文樞
2025-07-03 22:12:33
南航機長跳樓自殺迎新進展:空姐妻子刪除文章,疑似已經和解!

南航機長跳樓自殺迎新進展:空姐妻子刪除文章,疑似已經和解!

古希臘掌管松餅的神
2025-07-03 16:45:01
為何很多女性如此渴望性生活?無非是這4個原因,男性也無需害怕

為何很多女性如此渴望性生活?無非是這4個原因,男性也無需害怕

特約前排觀眾
2025-07-02 07:18:22
狼隊主席:后悔將若塔賣給利物浦,當時在他和阿達瑪之間做選擇

狼隊主席:后悔將若塔賣給利物浦,當時在他和阿達瑪之間做選擇

懂球帝
2025-07-03 15:08:13
2025-07-04 03:52:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10780文章數 142353關注度
往期回顧 全部

科技要聞

再不改飯碗都快沒了?百度搜索終于放大招

頭條要聞

俄媒披露海軍副總司令陣亡細節 遭至少4枚導彈攻擊

頭條要聞

俄媒披露海軍副總司令陣亡細節 遭至少4枚導彈攻擊

體育要聞

你永不獨行!球迷前往安菲爾德悼念若塔

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財經要聞

百億債務壓頂 風流傳奇大佬全面"崩塌"

汽車要聞

6.5秒破百 長安第三代UNI-V有更強2.0T

態度原創

手機
數碼
健康
教育
時尚

手機要聞

外賣小哥極力推薦REDMI K80至尊版:全程開GPS 從7點半用到下午4點

數碼要聞

七彩虹推出新款“貓板”COLORFIRE B850M-A MEOW WIFI 橘影橙

呼吸科專家破解呼吸道九大謠言!

教育要聞

南京這個學校高三“牛”班真牛!

七年陪跑+新劇逆襲!吳宣儀《不二臣》選角為何被嘲“災難現場”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 阳东县| 萨嘎县| 西吉县| 永平县| 进贤县| 金华市| 米脂县| 蒙阴县| 伊通| 社旗县| 永仁县| 紫云| 永吉县| 吴川市| 瑞丽市| 平利县| 米林县| 若尔盖县| 香河县| 曲沃县| 同江市| 集贤县| 龙游县| 汽车| 江华| 息烽县| 临邑县| 河北区| 布尔津县| 银川市| 长武县| 遂平县| 平果县| 驻马店市| 长春市| 游戏| 大理市| 阳信县| 东丽区| 孟州市| 泰来县|