99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

類AlphaZero自博弈賦能大模型推理,全新零數據訓練范式問世

0
分享至




在人工智能領域,推理能力的進化已成為通向通用智能的核心挑戰。近期,Reinforcement Learning with Verifiable Rewards(RLVR)范式下涌現出一批「Zero」類推理模型,擺脫了對人類顯式推理示范的依賴,通過強化學習過程自我學習推理軌跡,顯著減少了監督訓練所需的人力成本。然而,這些方法的學習任務分布仍由人類預先設計,所依賴的數據依舊高度依賴專家精心策劃與大量人工標注,面臨著難以擴展與持續演化的瓶頸。

更重要的是,如果智能系統始終受限于人類設定的任務邊界,其自主學習與持續進化的潛力將受到根本性限制,這一現實呼喚一種全新的推理范式,邁向超越人類設計約束的未來。

為應對這一挑戰,清華大學 LeapLab 團隊聯合北京通用人工智能研究院 NLCo 實驗室和賓夕法尼亞州立大學的研究者們提出了一種全新的推理訓練范式 ——Absolute Zero,使大模型無需依賴人類或 AI 生成的數據任務,即可通過自我提出任務并自主解決,實現「自我進化式學習」。在該范式中,模型不僅學習如何生成最具可學習性的任務(maximize learnability),還通過解決這些自主生成的任務持續增強自身的推理能力。Absolute Zero 范式不僅在性能上表現卓越,其核心理念更在于推動推理模型從依賴人類監督向依賴環境監督的范式轉變,使模型通過與真實環境的交互生成可驗證的任務并獲得可靠反饋,從而不斷提升自身的推理能力。

在這一范式下,研究團隊訓練了新的模型 Absolute Zero Reasoner(AZR),以代碼執行器作為真實環境,自動生成并解決三類代碼推理任務,涵蓋歸納、演繹與溯因推理,依賴環境可驗證的反饋實現穩定訓練。實驗表明,雖然未見過目標任務,AZR 在代碼生成與數學推理這兩個跨領域基準任務中表現出色,并且超越已有的方法達到 SOTA。這一成果不僅顯著緩解了當前大模型訓練對高質量人工數據的依賴難題,也預示著推理模型正邁入一個具備「自主進化」的智能新時代。



  • 論文標題:Absolute Zero: Reinforced Self-play Reasoning with Zero Data
  • 論文鏈接:https://www.arxiv.org/abs/2505.03335
  • 展示頁面:https://andrewzh112.github.io/absolute-zero-reasoner/



Absolute Zero Reasoner 在零數據的條件下實現了數學和代碼推理 benchmark 上的 SOTA 性能。該模型完全不依賴人工標注或人類預定義的任務,通過研究團隊提出的 self-play 訓練方法,展現出出色的分布外推理能力,甚至超越了那些在數萬個專家標注樣本上訓練而成的 reasoning 模型。

推理新范式:Absolute Zero,讓模型真正擺脫人類數據依賴

在當前的大模型訓練中,監督微調(SFT)是常見的推理能力對齊方法,依賴人類專家提供的問題、推理過程(即 Chain-of-Thought)以及標準答案。模型通過逐詞模仿這些示范,學習如何完成復雜的推理任務。然而,這種方法對人工標注的依賴極高,不僅耗時耗力,也限制了規模擴展。為緩解對人類標注的推理軌跡的依賴,近年來出現了基于可驗證獎勵的強化學習方法(RLVR),只需專家提供標注好的問題與標準答案,不要求中間過程。模型自行推理并生成答案,并通過和匹配標準答案匹配獲得獎勵,從而優化自身策略。這類方法雖然減少了部分監督需求,但其訓練所需的問題和答案仍由專家精心設計,依然無法擺脫對人類標注數據的依賴。

為解決這一根本性瓶頸,研究團隊提出了全新的推理訓練范式:Absolute Zero。該范式中,模型具備雙重能力:一是自主提出最具可學習性(learnability)的任務,二是通過解決這些任務不斷提升推理能力。整個過程在與環境的互動中完成,環境負責驗證任務的合理性和解答的正確性,并為模型提供獎勵反饋。這一機制構成了「自博弈閉環」:模型不斷提出任務、求解任務、從反饋中改進策略,完全不依賴任何人工構建的數據集。Absolute Zero 實現了真正意義上的「零人工數據推理模型」,不僅打破了現有范式對人類標注的依賴,也為構建具備持續自我進化能力的智能體開辟了新路徑。這一范式的提出,標志著推理模型訓練從「模仿人類」邁向「自主成長」的關鍵一步。



監督學習依賴人類精心設計的推理軌跡進行行為克隆;基于可驗證獎勵的強化學習雖能讓智能體自我學習推理過程,但仍依賴專家定義的問答對數據集,這些都需要大量領域知識與人工投入。相比之下,研究團隊提出了一種全新的推理模型訓練范式 ——Absolute Zero,實現了在完全不依賴人工數據的前提下進行訓練。該范式設想智能體應具備自主構造任務的能力,并通過統一的模型架構學習如何解決這些任務。智能體通過與提供可驗證反饋的環境進行交互完成學習,實現全流程無需人類干預的可靠、持續自我進化。

Absolute Zero Reasoner:實現零監督推理的開端

為驗證并實現 Absolute Zero 這一全新推理訓練范式的可行性,研究團隊提出了首個具體實現系統:Absolute Zero Reasoner(AZR)。作為該范式的初步探索,AZR 是一種統一的大語言模型系統,在訓練過程中同時擔任任務提出者與求解者兩個角色。它能夠不斷自我構建學習任務、自我嘗試解答,并在與代碼執行器環境交互中獲得可驗證反饋,從而實現無需人工數據的自我進化學習。



Absolute Zero Reasoner 訓練流程概覽。每輪訓練中,基于歷史生成的三元組和指定任務類型(溯因、演繹或歸納)模型會首先提出一批新任務;隨后使用 Python 代碼執行器對新任務進行過濾與構造,生成可驗證的代碼推理問題,并為每個任務計算可學習性獎勵。接著,模型嘗試解答這些問題,并根據輸出結果的正確性獲得準確性獎勵。最后,模型結合兩種獎勵信號,統一更新參數,以此實現多任務下的自我進化學習。

雙重角色:同時擔任任務設計者與問題求解者

在 Absolute Zero 框架中,大模型一體扮演「提出者」(Proposer)和「解答者」(Solver)兩個角色。模型首先提出一個新任務,由環境驗證其可解性與學習價值;隨后模型嘗試解決該任務,并根據答案的正確性獲得獎勵。兩階段均通過強化學習訓練,并共享同一套模型參數,確保推理能力與任務設計能力同步提升。

提出的任務會獲得一個「可學習性獎勵」,其定義為:對當前模型進行多次采樣解答該任務后,計算平均準確率,并將獎勵設為 1 - 平均準確率(當準確率為 0 或 1 時獎勵為 0)。這一設計鼓勵模型提出具有中等難度的任務,即那些當前模型偶爾能夠解出的任務,因為這類任務最有助于提升模型能力。解答環節的「解答獎勵」則更為直接:若模型給出的答案與標準答案完全一致,獎勵為 1,否則為 0,用于衡量推理是否正確。

三大推理方式:歸納、演繹與溯因

Absolute Zero Reasoner(AZR)通過對代碼任務的構建與求解,支持三種基本推理模式:演繹(Deduction)、溯因(Abduction)和歸納(Induction)。這些任務都圍繞程序、輸入和輸出三元組展開:

  • 演繹推理:模型接收程序和輸入,預測輸出,主要考察邏輯演算能力;
  • 溯因推理:模型接收程序和輸出,反推輸入,類似于「反向搜索」;
  • 歸納推理:模型接收多組輸入輸出和代碼描述,完成一個能通過驗證的程序,考察泛化能力。

模型提出任務后,Python 環境會驗證其可執行性、輸出是否正確、是否具有確定性,確保任務是有效且可用的。驗證通過后,模型嘗試求解,并通過環境反饋進行強化學習優化。

自我學習算法:從零起步的完整訓練流程

整個訓練過程以一個簡單的三元組作為種子任務啟動,自此進入 self-play 循環。訓練包括三個階段:任務提出、任務求解和策略更新。每一輪迭代,模型會先提出多個新任務(包括三種推理類型),再嘗試解答,最后根據兩個角色的表現共同更新模型參數。

為了提升訓練穩定性,AZR 采用了任務相對強化學習(Task-Relative REINFORCE++,TRR++)算法。它分別為六種「任務 - 角色」組合計算歸一化優勢值,避免任務間差異造成訓練干擾。這一策略使 AZR 在多任務強化學習設置下仍能有效優化,并實現真正跨任務泛化的推理能力。

最終,AZR 無需任何人工構建的數據,通過與環境的互動,在復雜任務空間中自我構建、自我評估、自我進化,展現出通用推理智能的新形態。Absolute Zero 范式為構建具備類人「經驗」與「成長力」的 AI 系統提供了嶄新的思路。

實驗結果

在本項研究中,研究團隊全面評估了 Absolute Zero Reasoner(AZR)在多項推理任務中的表現,涵蓋代碼生成與數學推理兩個關鍵領域,并與多個基于專家數據訓練的推理模型進行了對比。從結果來看,AZR 在完全不依賴任何人工構建數據的前提下,取得了超越現有主流模型的表現,充分展現了「零數據自我進化」范式的巨大潛力。



基于 Qwen2.5-7B 模型的強化學習推理器在推理基準任務中的表現。團隊對各類模型在三個標準代碼任務(HumanEval+、MBPP+、LCB v5)和六個數學推理任務(AIME’24、AIME’25、AMC’23、MATH500、Minerva、OlympiadBench)上的表現進行了評估。代碼任務與數學任務的平均分分別記為 CAvg 和 MAvg,總體表現為兩者的平均值(AVG = CAvg 與 MAvg 的平均)。表格中的綠色加號(+)表示相較于基準模型的絕對百分比提升。所有模型均基于不同版本的 Qwen2.5-7B 進行訓練。

在最核心的比較中,AZR-Coder-7B 在多個代碼與數學推理基準上取得了當前同規模模型中的最優結果,不僅在總體平均分上領先,更在代碼任務平均得分上超越了多個依賴人工任務訓練的模型。在數學推理方面,即便 AZR 從未直接見過任何相關任務或數據,其跨領域泛化能力依舊顯著:AZR-Base-7B 和 AZR-Coder-7B 在數學任務上的平均準確率分別提升了 10.9 和 15.2 個百分點,而多數對比的代碼模型在跨域測試中幾乎無提升。

進一步的分析顯示,AZR 的性能受初始模型能力影響顯著。盡管 Coder 版本在初始數學推理能力上略低于 Base 版本,但在 AZR 框架訓練后,其最終表現反而全面領先,說明代碼能力的強化訓練可以促進廣義推理能力的發展。這一現象突出了代碼環境在構建可驗證任務和推進推理能力提升中的獨特優勢。

在模型規模擴展實驗中,研究團隊分別對 3B、7B 與 14B 的模型版本進行 AZR 訓練。結果顯示,模型規模越大,AZR 訓練所帶來的提升越明顯。在 OOD 任務上的總體表現提升分別為 +5.7(3B)、+10.2(7B)與 +13.2(14B),說明 AZR 在更大、更強的模型上具備更強的訓練潛力和泛化能力,也為未來探索 AZR 的「擴展法則」提供了初步證據。



(a) 同分布任務表現與 (b) 異分布任務表現。(a) 展示了 AZR 在訓練過程中的同分布推理能力,評估任務包括 CruxEval-I、CruxEval-O 和 LiveCodeBench-Execution,分別對應溯因、演繹和演繹任務類型,涵蓋不同模型規模與類型。(b) 展示了 AZR 在異分布任務上的泛化推理表現,評估指標為代碼類任務平均分、數學類任務平均分以及兩者的總體平均分,涵蓋不同模型規模與結構。



「uh-oh」moment。在 LLama-8B 的訓練過程中,模型的思考帶有偏激情緒,希望設計一個「荒唐且復雜」的任務來迷惑人類和模型。

在 AZR 的訓練過程中,研究團隊觀察到一系列與推理模式相關的有趣行為。模型能夠自動提出多樣化的程序任務,如字符串處理、動態規劃及實用函數問題,并展現出顯著的認知差異性:在溯因任務中,模型傾向于反復試探輸入并自我修正;在演繹任務中,會逐步推演代碼并記錄中間狀態;在歸納任務中,則能歸納程序邏輯并逐一驗證樣例正確性。此外,模型在歸納任務中常出現帶注釋的「推理計劃」,表現出類似 ReAct 風格的中間思考路徑,這種現象也在近期 DeepSeek Prover V2(規模達 671B)中被觀察到,表明中間規劃行為可能是強推理模型自然涌現的能力之一。同時,在 Llama 模型中還出現了顯著的狀態跟蹤行為,模型能在多輪推理中保持變量引用的一致性,展現出較強的上下文連貫性與推理連貫能力。

另一個顯著現象是模型響應長度(token length)的任務依賴性差異:在溯因任務中,模型為了解決目標輸出,生成了更長的、包含試錯和反思的回答;而演繹與歸納任務中則相對更緊湊,表明其信息結構策略各不相同。訓練過程中還出現了個別值得注意的輸出,如 Llama 模型在某些場景下生成帶有偏激情緒的「uh-oh moment」,提示未來仍需關注自我進化系統的安全控制與行為治理問題。這些現象共同體現了 AZR 在不同推理任務中的認知特征演化,也為后續深入研究提供了寶貴線索。

結語:邁向「經驗智能」的新時代:Absolute Zero 的啟示

在本項研究中,研究團隊首次提出了Absolute Zero推理范式,為大模型的自我進化提供了一條全新的路徑。該范式打破了現有 RLVR 方法對人類標注任務分布的依賴,轉而讓模型在環境反饋的引導下,自主生成、解決和優化任務分布,從而實現從零開始的學習。團隊進一步構建并驗證了這一理念的具體實現 ——Absolute Zero Reasoner(AZR),通過代碼環境支撐任務驗證與獎勵反饋,完成自我提出與解答推理任務的閉環式訓練流程。

實驗結果顯示,AZR 在多個代碼生成與數學推理的異分布基準測試中,均展現出卓越的通用推理能力,甚至超越了依賴人工高質量數據訓練的最先進模型。這一表現令人驚訝,特別是在沒有使用任何人工構建的任務數據的前提下,AZR 依靠完全自提出的任務,實現了強大的推理泛化能力。更重要的是,研究團隊發現 AZR 在不同模型規模和架構上均具備良好的可擴展性,為將來進一步放大模型能力提供了可行性依據。

當然,Absolute Zero 仍處于早期階段,其自提出任務與自我學習過程的治理、安全性與穩定性仍有待進一步研究。例如,在某些模型(如 Llama3.1)中,研究團隊觀察到潛在的安全風險表達,「uh-oh moment」,提示我們需要更審慎地設計任務空間的約束與獎勵機制。

這一工作啟示我們:未來的推理智能體,不僅應能解決任務,更應具備提出任務、發現知識空白、并自主調整學習路徑的能力。這意味著,探索的重點應逐步從「如何解答」轉向「學什么、如何去學」。這一視角的轉變,可能成為構建具備經驗與成長能力智能體的關鍵起點。而這一點,正是當前大多數推理研究尚未觸及的邊界。從這一意義上說,AZR 所開啟的不只是一個新算法,而是一個新的時代 ——一個屬于「自主智能」的時代

本論文一作是清華大學自動化系四年級博士生 Andrew Zhao(趙啟晨),他專注于強化學習、大語言模型、Agents 和推理模型的研究。



他的導師是黃高教授。他是大語言模型 Agents 經驗學習開創性工作《ExpeL: LLM Agents Are Experiential Learners》的第一作者,也是《DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints》第一作者。

本論文二作是賓夕法尼亞州立大學信息系三年級博士生 Yiran Wu(吳一然),他專注于大語言模型 Agents,強化學習和推理模型的研究。



他的導師是吳清云教授。他是著名開源 agent 框架 AutoGen 的作者和核心維護者,也是《StateFlow: Enhancing LLM Task-Solving through State-Driven Workflows》第一作者。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
戴手套!戴手套!戴手套!致死率近100%

戴手套!戴手套!戴手套!致死率近100%

魯中晨報
2025-05-07 07:24:05
28歲女子相親6次失敗6次,網友一看女子照片懂了:牙尖嘴利誰敢娶

28歲女子相親6次失敗6次,網友一看女子照片懂了:牙尖嘴利誰敢娶

辣媒專欄記錄
2025-05-09 11:40:03
回應外界對季后賽吉米稱號的期待!巴特勒:我沒有任何心理負擔,我享受傳球的感覺

回應外界對季后賽吉米稱號的期待!巴特勒:我沒有任何心理負擔,我享受傳球的感覺

雷速體育
2025-05-09 13:05:12
馬德興:上村健一早聽中方建議就不是這樣了,回國總結還抱怨食宿

馬德興:上村健一早聽中方建議就不是這樣了,回國總結還抱怨食宿

懂球帝
2025-05-09 07:25:09
劉國梁卸任真相:不是輸球挨罵,而是被“她們”逼走了?

劉國梁卸任真相:不是輸球挨罵,而是被“她們”逼走了?

行舟問茶
2025-05-09 07:21:48
58歲港星懷二胎5個月,在浴缸內小產流血4升,為生孩子鋌而走險

58歲港星懷二胎5個月,在浴缸內小產流血4升,為生孩子鋌而走險

素素娛樂
2025-05-08 11:10:16
對不起!不懂白褲子“禁忌”?花再多錢,你也穿不出高級感!

對不起!不懂白褲子“禁忌”?花再多錢,你也穿不出高級感!

泰安秋子
2025-05-09 08:22:44
武則天長相曝光?古畫揭秘其真容,珠圓玉潤,身高1米67異于常人

武則天長相曝光?古畫揭秘其真容,珠圓玉潤,身高1米67異于常人

談史論天地
2025-04-16 15:57:52
轟-20正式登場?參加抗戰勝利80周年閱兵,與殲-36殲-50比翼齊飛

轟-20正式登場?參加抗戰勝利80周年閱兵,與殲-36殲-50比翼齊飛

科技虎虎
2025-05-06 18:08:15
跨境電商App“考拉海購”全網下架,阿里巴巴買它曾花了20億美元

跨境電商App“考拉海購”全網下架,阿里巴巴買它曾花了20億美元

靜看互聯網
2025-05-09 11:31:51
北大“0臨床基礎”副院長火了,教育經歷信息全刪除,顏值是真高

北大“0臨床基礎”副院長火了,教育經歷信息全刪除,顏值是真高

趣筆談
2025-05-07 16:02:34
騰訊 23 年前的這份神級 PPT,才是立項匯報的天花板

騰訊 23 年前的這份神級 PPT,才是立項匯報的天花板

人人都是產品經理社區
2025-05-01 10:14:48
我自駕900多公里去參加戰友兒子婚禮,隨禮5萬,返程看短信淚目了

我自駕900多公里去參加戰友兒子婚禮,隨禮5萬,返程看短信淚目了

紅豆講堂
2025-05-04 08:20:10
最大“輸家”出現了!被中國退貨的27架波音飛機,被兩國爭著要

最大“輸家”出現了!被中國退貨的27架波音飛機,被兩國爭著要

林子說事
2025-04-28 03:55:19
Zerebro加密貨幣創始人JeffyYu 竟在直播中飲彈自盡!

Zerebro加密貨幣創始人JeffyYu 竟在直播中飲彈自盡!

探索視線
2025-05-08 19:11:44
何超蓮34歲生日回娘家過,媽媽出鏡戴著翡翠貴氣,竇驍沒在身邊

何超蓮34歲生日回娘家過,媽媽出鏡戴著翡翠貴氣,竇驍沒在身邊

星光看娛樂
2025-05-09 10:21:38
越南一位大媽買彩票,不料竟中了140億。豪氣的她提前大擺宴席慶賀,并貸款給大家發禮品,可領獎時卻傻眼了

越南一位大媽買彩票,不料竟中了140億。豪氣的她提前大擺宴席慶賀,并貸款給大家發禮品,可領獎時卻傻眼了

明智家庭教育
2025-04-29 21:12:06
又擊落25架!印水電站再開閘,殲10爆殺陣風,中國軍工被嚴重低估

又擊落25架!印水電站再開閘,殲10爆殺陣風,中國軍工被嚴重低估

林子說事
2025-05-09 10:42:35
中國“最干凈”的6個城市,一塵不染,太羨慕住在這里的人了

中國“最干凈”的6個城市,一塵不染,太羨慕住在這里的人了

戶外釣魚哥阿勇
2025-05-03 05:40:54
女網冷門迭爆!4大種子選手翻車,斯瓦泰克送蛋晉級,鄭欽文首秀

女網冷門迭爆!4大種子選手翻車,斯瓦泰克送蛋晉級,鄭欽文首秀

劉姚堯的文字城堡
2025-05-09 06:14:29
2025-05-09 14:12:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10460文章數 142304關注度
往期回顧 全部

科技要聞

理想新車打折賣?激光雷達、Thor-U都配上了

頭條要聞

牛彈琴:中俄領導人歷史性會晤 兩國聲明直接點名美國

頭條要聞

牛彈琴:中俄領導人歷史性會晤 兩國聲明直接點名美國

體育要聞

追夢只差2T禁賽 科爾:他必須保持冷靜

娛樂要聞

張柏芝把鋒菲戀的體面徹底踩在了腳下

財經要聞

美英達成貿易協議!

汽車要聞

絕對能省心過日子 榮威D6滿足家用車三大標準

態度原創

健康
數碼
親子
藝術
游戲

唇皰疹和口腔潰瘍是"同伙"嗎?

數碼要聞

索尼 WH-1000XM6 耳機搶先看:防水+折疊設計、12降噪麥克風

親子要聞

焦慮的媽媽養不出松弛感的兒

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

Epic喜加二!《Deadtime Defenders》、《指尖傳說》免費領!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 色达县| 米脂县| 鹰潭市| 丹寨县| 富平县| 墨脱县| 罗山县| 海口市| 金平| 台江县| 镶黄旗| 墨脱县| 惠水县| 凯里市| 邵阳市| 新龙县| 鄯善县| 交口县| 新昌县| 大姚县| 宁陕县| 万源市| 晴隆县| 开远市| 南召县| 通山县| 连平县| 大英县| 东兴市| 永川市| 芷江| 汽车| 彭水| 尉犁县| 赤壁市| 菏泽市| 阳谷县| 宁海县| 乡宁县| 景宁| 兖州市|