99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

科學家揭示臨界學習奧秘,助力80億參數模型攻克量子場論核心計算

0
分享至

你有沒有想過:DeepSeek-R1 這類大型推理模型是如何自主學會思考的?

為尋找這一問題的答案,中國科學院理論物理研究所陳錕副研究員團隊與合作者對 DeepSeek 強化學習算法的動力學機制展開深入研究。他們發現,在單個訓練樣本的條件下,該算法導致的涌現行為可以用復雜網絡中的相變現象來精準描述。

基于這一重要發現,他們提出了“臨界學習”(LaC,Learning at Criticality)的理論框架,其核心思想是:通過強化學習的優化機制,將大模型參數調整到一個關鍵的臨界狀態,當模型處于這個臨界態時,能夠從極少量的訓練數據中實現最佳的泛化性能。不僅能從極少量學習樣本中抽象出通用算法規則,甚至僅憑單個示例即可實現復雜數學運算和量子場論中的符號推導等高階認知任務。


圖丨陳錕(來源:陳錕)

傳統 AI 方法從海量多樣化問題中學習,以保持泛化能力和發現不同問題之間的共性。與之不同的是,LaC 方法模擬了人類專家在專業領域的研究范式——通過深度聚焦單個復雜問題,經歷反復的思考與試錯過程來獲得突破性解決方案。

“臨界學習”方法的創新性主要體現在突破傳統 AI 在基礎科學領域的三大局限:首先,解決了數據稀缺條件下的學習效率問題;其次,克服了高度專業化知識獲取的障礙;最后,實現了小樣本情況下的深度專業化學習,這一點對于數據稀缺的基礎科學研究尤為重要。

陳錕對 DeepTech 表示:“傳統 AI 方法往往受限于數據規模,LaC 為應對理論物理、數學證明、材料設計等領域中復雜且數據稀疏的挑戰提供了新的 AI 解決方案。未來,隨著 LaC 理論的進一步完善,它有可能不局限于優化 AI 的推理能力,更有望為理解大模型中復雜推理能力的涌現機制提供新的理論工具。”

同時,該方法在基礎科學中的應用或將催生新的研究模式,有助于推動 AI 研究范式從作為輔助工具的 AI for Science 逐步演變為“自主探索科學問題的智能體”,從而真正實現 AI for Fundamental Science。

近日,相關論文以《大型推理模型的臨界態學習及其在量子場論等領域中的應用》(Learning-at-Criticality in Large Language Models for Quantum Field Theory and Beyond)為題發表在預印本網站arXiv上 [1]。

中國科學院理論物理研究所博士后蔡賢盛和中國科學技術大學胡思寒博士生是共同第一作者,美國麻省大學阿默斯特分校王韜博士、深勢科技黃遠博士、中國科學院理論物理研究所張潘研究員、中國科學技術大學鄧友金教授以及中國科學院理論物理研究所陳錕副研究員擔任共同通訊作者。


圖丨相關論文(來源:arXiv)



受物理啟發的臨界突破:將復雜問題簡化成“真空球形雞”

今年 1 月,隨著 DeepSeek 發布其推理模型 DeepSeek-R1 并在全球引發廣泛關注,長期專注于多電子場論研究的陳錕團隊敏銳地注意到一個關鍵科學問題:與傳統 AI 系統(如 Alpha Zero 依賴人工設計的蒙特卡洛樹搜索)不同,DeepSeek 模型展現出自發形成推理式思考模式的能力。這一現象激發了團隊的研究興趣——DeepSeek 是如何自主學會思考的?

陳錕解釋說道:“作為物理研究者,我們對這種涌現現象特別敏感,這讓我聯想到可以嘗試用統計物理的理論框架來解析這一過程。”

在研究過程中,團隊通過分析模型的推理模式,提出了一個關鍵假設:DeepSeek 背后可能存在一個簡約而普適的物理模型。他們發現,當模型學習單一問題時,其自發涌現過程表現為典型的臨界物理現象特征,類似于水-水蒸氣的相變過程。然而,由于實際訓練涉及多問題場景,其涌現模式又呈現出更復雜的特征。

發現這一有趣的現象后,研究團隊繼續思考:這樣的物理現象與傳統的機器學習方法有何本質區別?他們逐漸意識到,這可能代表了一種全新的、將 AI 應用于科學研究的范式,有望為解決基礎科學中需要深度思考的問題提供新思路。

這一推理能力相變的理論,來源于陳錕團隊對于模型如何學習多位數加法問題的深入研究。團隊首先選擇 7 進制多位數加法(7 位數)作為測試基準。實驗顯示,未經訓練的 Qwen2.5-7B 模型完全不具備解決該問題的能力,但通過基于單樣本的強化學習訓練后,模型最終能夠以接近 100% 的準確率解決這一樣本問題,其學習曲線并不是隨著訓練步驟線性增加,而是在一定訓練步驟后出現躍升的相變行為。

進一步實驗發現,相變點附近的模型雖然對于訓練樣本的準確率尚未達到峰值,但是模型在其他多位數加法問題上,由于模型發展出批判性思維特征,反而表現出最強的泛化能力。

這表明,大模型在臨界點運行時達到最優性能平衡:既能保持探索的靈活性,又能提取底層操作規則;而過度的訓練反而會使模型思維僵化,喪失批判性思考能力。


圖丨當大模型回答“12+98=?”問題時的推理過程(來源:陳錕)

基于這些發現,研究團隊從模型推理的細節入手,構建起一套獨特的理論框架。該理論來自一個有趣的觀察,當大模型回答例如“12+98=?”這類問題時,標準的推理過程會逐個輸出 token,而這其中“暗藏玄機”:有些詞的出現幾乎是必然的,比如回答中“結果”前大概率是“正確的”;而有些詞則充滿不確定性,如“結果”后接“of”還是“in”,模型會陷入短暫的“糾結”。

團隊將這些充滿不確定性的 token 位置定義為“決策點”,確定性 token 序列抽象為“概念”(Concept),并通過決策點間的關聯構成“概念網絡”(CoNet),以此建模大模型思考過程中的決策空間。


(來源:陳錕)

在該理論中,大模型長思維鏈中的抽象推理(System 2)過程對應于概念網絡中的隨機行走(如上圖左):模型從問題語境出發,通過探索網絡路徑最終抵達答案。其中,路徑選擇的概率分布至關重要:過于均勻的分布導致思維發散難以收斂,而過度確定的分布則易陷入局部最優。

研究人員發現,DeepSeek 的 GRPO 強化學習算法和其變種,正是通過調節每條路徑的概率,使得網絡處于一個中間態。如果通過單個學習樣本訓練,這一中間態處在一個連續相變點附近,表現出臨界行為;如思考的路徑長度呈冪律分布(P(L)~L??·1?),模型兼具“尋找最短路徑”的高效性與“探索多樣路徑”的靈活性,這種狀態下的模型泛化能力最強。這種無標度使得模型同時發現高效路徑與備選策略,是“臨界思考模式”的物理基礎。


(來源:arXiv)

陳錕表示,臨界學習的方法深受物理啟發。就像當物理學者面對復雜問題時,通常會先將其簡化為“真空球形雞”理想模型。這種從簡化模型出發,再逐步擴展到復雜系統的研究路徑,為理解大模型的認知機制提供了全新的方法論視角。

研究團隊從簡化模型反推真實大模型,也發現了相似的相變行為,由此提出“臨界學習”方法:通過單個訓例把網絡訓練到臨界態,能夠在數據極度稀缺的情況下,實現具有泛化能力復雜長思維鏈推理的學習。


圖丨簡易模型中的強化學習動力學(來源:陳錕)

在 DeepSeek-R1 671B 模型發布后,研究團隊系統評估了其在理論物理領域的能力表現,發現其水平相當于高年級本科生至中低年級研究生,但對更復雜問題仍存在局限。這促使他們思考,或許可以借鑒培養研究生的方法——通過深度思考逐步攻克復雜問題。

基于此,研究團隊選擇在理論物理中的典型問題——計算高階不同圈的費曼圖進行 LaC 的效果驗證。他們利用 80 億參數的 Qwen3-8B 模型,分階段訓練其求解松原頻率求和問題。

值得關注的是,僅通過低階圖例進行臨界點訓練,模型可成功推導出未見過的高階圖解,其表現甚至優于參數量高兩個數量級的基準模型。

數據顯示,經過 LaC 訓練的模型在 1-loop 和 2-loop 圖上的準確率分別達到 97.5% 和 56.9%,并能泛化至 3-loop 和 4-loop 問題,而未經訓練的基準模型在這些任務上表現不佳。


(來源:arXiv)



有望突破數據稀缺瓶頸,為科研范式革新提供新的可能性

當前 AI 系統面臨的關鍵瓶頸在于其靜態的知識體系架構,這與人類持續進化的終身學習能力形成鮮明對比。要實現類似人類的知識迭代機制,AI 系統需要發展出“增量學習”能力,即通過持續的環境交互積累數據并動態優化模型參數。然而,這種學習模式本質上受制于數據稀缺問題,這使得基于 LaC 的小樣本學習技術成為突破這一困境的關鍵所在。

在科學應用層面,LaC 方法對基礎科學的推動體現在多個方面。以化學研究為例,專注特定反應數十年的實驗室積累了極其專業化的知識體系,這類深度知識往往超出通用大模型的掌握范圍。針對這種情況,采用 LaC 基學習策略展現出顯著優勢:通過讓模型集中攻克領域核心問題,在確保專業知識深度的同時保持必要的泛化能力。

傳統研究模式下,博士生通常需要投入半年至一年時間才能掌握前沿場論問題的兩圈費曼圖(2-loop Feynman diagrams)的解析計算方法,而當問題復雜度提升至三圈圖(3-loop Feynman diagrams)時,人工計算幾乎不可行。歷史上,量子電動力學三圈散射圖的解析計算曾耗費學界數十年時間,而這類問題恰恰是 AI 技術可以“大顯身手”的領域。

雖然 AI 在學習高圈費曼圖時同樣面臨嚴峻挑戰,然而一旦突破這一專業瓶頸,就可能展現出強大的知識遷移能力,解決因人類認知局限而長期停滯的科學難題。通過這種專業化深度與泛化廣度的有機結合,AI 系統有望發展成為突破人類認知邊界的“專業智能體”。

“在研究 DeepSeek 強化學習算法的過程中,我們發現這是一個極具科學價值的探索方向。我們希望能利用在相變等多體統計物理等方面的專業積累,深入解析這一現象背后的物理機制。”陳錕說。

基于這一目標,研究團隊確立了雙向研究路徑:Physics for AI(運用物理學原理理解 AI)和 AI for Physics(運用 AI 技術推動物理學發展)。

在 Physics for AI 方向,團隊目前已完成第一階段工作,即通過單個問題的問答學習研究相關物理現象。后續研究計劃深入探討更復雜的科學問題:在多問題學習場景下,模型的網絡結構會呈現怎樣的動力學特征?是否仍然存在臨界物理現象?對這些機制的深入理解,不僅可能為強化學習算法的優化設計提供理論指導,還有助于評估現有算法的性能上限。

在 AI for Physics 方向,團隊采取的策略是將開源大模型視為“科研新生”,通過針對理論物理等特定領域的強化訓練,系統探索將其培養成為專業科研助手的可行性。這一研究思路既借鑒了人類專家的培養模式,又充分發揮了 AI 在數據處理和模式識別方面的獨特優勢,為科研范式的革新提供了新的可能性。

參考資料:

1.https://arxiv.org/abs/2506.03703

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
澳洲少年圍毆中國退役女兵遭反殺,抓頭發扇巴掌,圍觀路人引熱議

澳洲少年圍毆中國退役女兵遭反殺,抓頭發扇巴掌,圍觀路人引熱議

南宗歷史
2025-06-18 12:36:11
男學霸高考后泰山跳崖自盡,遺言催人淚下:如有來生,再也不見

男學霸高考后泰山跳崖自盡,遺言催人淚下:如有來生,再也不見

嘉琪Feel
2025-06-17 10:06:10
荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

荔枝的“死對頭”,醫生提醒:二者萬不可同吃,吃荔枝禁忌要牢記

阿龍美食記
2025-06-16 15:19:56
武磊身價僅70萬!12年新低,中國球員仍排第7,巔峰1000萬

武磊身價僅70萬!12年新低,中國球員仍排第7,巔峰1000萬

奧拜爾
2025-06-19 18:05:01
中央巡視期間,王建勇主動交代問題

中央巡視期間,王建勇主動交代問題

觀察者網
2025-06-19 10:27:06
絕了,才簽1.4億巨星!再砸1.2億前鋒,夏窗第一豪門誕生瓜帥夢碎

絕了,才簽1.4億巨星!再砸1.2億前鋒,夏窗第一豪門誕生瓜帥夢碎

阿泰希特
2025-06-19 12:02:13
網紅“天宇”因病去世,年僅47歲,公司上個月剛開業,此前每月直播40場,經常熬到凌晨兩三點

網紅“天宇”因病去世,年僅47歲,公司上個月剛開業,此前每月直播40場,經常熬到凌晨兩三點

極目新聞
2025-06-19 19:13:58
喜歡奔馳的朋友有福了!奔馳還有4款全新SUV將上市,還不攢錢?

喜歡奔馳的朋友有福了!奔馳還有4款全新SUV將上市,還不攢錢?

優視汽車
2025-06-19 16:21:12
淘寶史上最亂618:用戶怒了、商家跑了、平臺贏了?

淘寶史上最亂618:用戶怒了、商家跑了、平臺贏了?

深析古今
2025-06-19 22:50:50
房子不好賣,臨遷費發不出!網傳廣州某舊村改造開發商發出承諾函

房子不好賣,臨遷費發不出!網傳廣州某舊村改造開發商發出承諾函

火山詩話
2025-06-19 13:51:12
SpaceX“星艦”試飛前測試發生爆炸解體

SpaceX“星艦”試飛前測試發生爆炸解體

界面新聞
2025-06-19 14:01:03
一段錄音讓泰國一夜政壇變天,洪森的這一招,把佩通坦逼向了絕路

一段錄音讓泰國一夜政壇變天,洪森的這一招,把佩通坦逼向了絕路

阿天愛旅行
2025-06-19 14:33:14
優衣庫聯名LABUBU,3億年輕人又要沖了

優衣庫聯名LABUBU,3億年輕人又要沖了

品牌頭版
2025-06-18 16:56:04
中方一紙通告全球:不許配合!美媒:中國已到超越美國的分水嶺

中方一紙通告全球:不許配合!美媒:中國已到超越美國的分水嶺

艾米手工作品
2025-06-18 15:11:02
大范圍大暴雨形勢完全確定,國家暴雨預警近最高級!預報:四省特大

大范圍大暴雨形勢完全確定,國家暴雨預警近最高級!預報:四省特大

中國氣象愛好者
2025-06-19 22:54:14
1毫克就致命!有人吃完這道家常菜,全身“換血”搶救一周才保命

1毫克就致命!有人吃完這道家常菜,全身“換血”搶救一周才保命

削桐作琴
2025-06-16 13:11:18
最新!委培違約不止那爾那茜一人,《鏢人》主演名單撤下,相關動作已經開始了?

最新!委培違約不止那爾那茜一人,《鏢人》主演名單撤下,相關動作已經開始了?

閑侃閑侃
2025-06-19 08:35:33
5年前,那個興奮沖出考場跳“一字馬”的湖南考生,后來考多少分

5年前,那個興奮沖出考場跳“一字馬”的湖南考生,后來考多少分

柳絮憶史
2025-06-19 07:30:03
10死28傷!輟學生「血洗校園」大開殺戒,尸體成排!學生裝死逃過一劫...

10死28傷!輟學生「血洗校園」大開殺戒,尸體成排!學生裝死逃過一劫...

澳洲紅領巾
2025-06-19 08:21:13
外網炸鍋:韓國的臉皮比城墻還厚!聯合國震怒:漢字申遺純屬鬧劇

外網炸鍋:韓國的臉皮比城墻還厚!聯合國震怒:漢字申遺純屬鬧劇

詩意世界
2025-06-18 23:28:45
2025-06-20 00:40:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15315文章數 513792關注度
往期回顧 全部

科技要聞

羅永浩數字人爆火,可怕的不是5500萬GMV

頭條要聞

美打擊伊核設施計劃披露 特朗普鼓勵以總理"繼續干"

頭條要聞

美打擊伊核設施計劃披露 特朗普鼓勵以總理"繼續干"

體育要聞

22年,云南足球走出了一條自己的路

娛樂要聞

章子怡“吃蛋糕”戲在全網爆火

財經要聞

Labubu黃牛價腰斬 誰會是最后的接盤俠

汽車要聞

5.99萬起/空間大續航長 純電小車凱翼拾月Mate上市

態度原創

手機
本地
藝術
時尚
公開課

手機要聞

小米紅米新品下周來 新品開箱體驗搶先看

本地新聞

黎錦匠人鄭春榮:經緯千年 我在海島織黎錦

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

中年女人夏季別再穿"t恤"了,安排這3款夏裝,時髦還顯瘦

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 汉寿县| 陵川县| 龙井市| 建始县| 收藏| 兴业县| 濉溪县| 天等县| 崇礼县| 海兴县| 乌海市| 杭锦旗| 佛坪县| 舟曲县| 武强县| 山东| 拉孜县| 瓮安县| 日喀则市| 墨玉县| 图木舒克市| 来宾市| 平乐县| 中牟县| 江西省| 开化县| 邢台市| 扎囊县| 威海市| 赣榆县| 固安县| 老河口市| 密云县| 甘泉县| 余干县| 阳朔县| 岱山县| 志丹县| 南陵县| 娱乐| 南岸区|