網易首頁 > 網易號 > 正文申請入駐

清華研發絕對零數據方法：AI無師自通成推理高手

2025-05-08 15:12:08　來源: 至頂AI實驗室

北京舉報

分享至

古龍筆下的江湖中，常有絕世高手無師自通，以天地為師，自創武學。

《多情劍客無情劍》中的阿飛，荒野中長大，未曾拜師學藝，卻憑本能練就快劍，出手如電，無人能敵；

又如《絕代雙驕》的小魚兒，雖未得名師指點，卻能在生死之間頓悟，化險為夷，以智破敵。

這些傳奇人物，不靠典籍秘籍，不依前人經驗，僅憑自身悟性，便登頂武道巔峰。

在我們的日常生活中，學習新技能通常需要老師指導或參考示例。

如今，由清華大學、北京通用人工智能研究院和賓夕法尼亞州立大學的研究團隊，讓人工智能系統實現了這一壯舉——無需人類示例，無需海量數據，AI也能像古龍筆下的天才武者一般，在"絕對零數據"的空白領域中自我推演，無師自通，成為推理高手。

這一突破，不僅顛覆了傳統機器學習的范式，更讓AI向真正的自主智能邁進了一大步。

AI學習的全新方式：沒有老師，沒有教材，只靠自己摸索

傳統的AI訓練就像是學校教育：我們給AI提供大量標記好的"教材"（數據集），然后進行"考試"（評估）。近年來，一種名為"強化學習與可驗證獎勵"（RLVR）的方法取得了顯著進展，它讓AI系統不僅能通過模仿學習，還能通過結果反饋來調整自己的思維過程，就像學生不僅看教科書，還要通過考試成績反饋來提升學習方法。

然而，即使是最先進的RLVR方法仍然依賴于人類設計的問題和答案集合。這就像是，學生雖然可以獨立思考，但教材和考題仍然是老師精心準備的。這種依賴帶來了兩個重要問題：

首先，隨著AI系統變得越來越強大，構建足夠高質量和大規模的訓練數據變得越來越困難和昂貴。想象一下，給一個已經掌握高中數學的學生出題，你需要準備大學甚至研究生難度的問題，而這需要更高水平的專家投入時間和精力。

其次，從長遠來看，如果AI最終超越人類智能，人類設計的任務可能無法繼續挑戰和提升AI的能力，就像小學老師無法有效指導天才物理學家的進一步研究一樣。

清華大學的研究團隊提出了一個全新的訓練范式，他們稱之為"絕對零數據"（Absolute Zero）。這種方法讓AI完全不依賴任何外部數據，而是像一個孤獨的天才兒童，自己給自己出題、自己解答，并從這個過程中不斷學習和成長。

自我對弈：AI如何成為自己的老師和學生

想象一個小孩子獨自在沙灘上玩耍。他先用沙子堆一個復雜的迷宮，然后嘗試用小球穿過這個迷宮。如果成功了，他會思考："這個迷宮太簡單了，我需要設計一個更難的。"如果失敗了，他會思考："這很有挑戰性，我可以從中學到什么技巧？"通過這種方式，孩子同時扮演了"游戲設計師"和"玩家"兩個角色，在不斷自我挑戰中成長。

Absolute Zero Reasoner（AZR）系統正是基于這種自我對弈的理念設計的。在這個系統中，同一個AI模型扮演了兩個角色：

1.出題者（提出者）：負責創造具有挑戰性且有學習價值的推理任務

2.解題者（求解者）：負責解決這些任務并從中學習

整個學習過程如下：

首先，出題者創建一個編程挑戰任務。這個任務會通過代碼執行環境進行驗證，確保它是有效且合理的。同時，系統會評估這個任務的學習價值——既不能太簡單（沒有學習價值），也不能太難（無法解決）。

然后，解題者嘗試解決這個任務。解題者的解答同樣會通過代碼執行環境進行驗證，系統會根據解答是否正確給予反饋。

最后，AI系統同時從"出題"和"解題"兩個角色的經驗中學習，不斷提升自己設計有價值任務的能力和解決復雜問題的技巧。

這就像是一個人同時扮演教練和運動員，自己設計訓練計劃，然后執行這些計劃，并根據表現調整訓練內容和方法，在這個循環中不斷成長。

三種思維模式：歸納、演繹與溯因

AZR系統專注于三種基本的推理模式，這些模式代表了人類思考問題的不同方式。研究團隊巧妙地將這三種推理模式轉化為編程環境中的具體任務：

1.演繹推理（Deduction）：給定一個程序和輸入，預測輸出結果。這就像是知道烹飪的所有步驟和原料，然后預測最終的菜肴會是什么樣子。在編程世界中，這相當于"給定函數f和輸入x，求輸出f(x)"。

2.溯因推理（Abduction）：給定一個程序和期望的輸出，推斷可能的輸入。這就像是品嘗了一道菜，然后推測制作這道菜可能使用了哪些原料。在編程環境中，這相當于"給定函數f和輸出y，求可能的輸入x使得f(x)=y"。

3.歸納推理（Induction）：給定多個輸入-輸出對，推斷最可能的程序規則。這就像是觀察到幾道菜的原料和成品，然后推斷出整個烹飪過程。在編程中，這相當于"給定多對(x,y)，求一個函數f使得對所有對都有f(x)=y"。

這三種推理模式相互補充，覆蓋了大多數復雜推理場景。通過在這三種任務類型上的訓練，AZR系統能夠發展全面的推理能力。

從自我挑戰到全能高手：AZR系統如何工作

AZR系統的工作流程就像一個不斷自我挑戰的學習者。讓我們更詳細地看看它的運作方式：

初始化階段：系統從一個極其簡單的程序開始，比如一個簡單的恒等函數（返回輸入本身的函數）。這就像是給一個初學者一個最基礎的練習作為起點。

訓練循環：每次迭代中，系統都會進行以下步驟：

1.提出任務：AI扮演"出題者"角色，根據之前積累的經驗創建新的編程挑戰。對于演繹和溯因任務，它會生成程序和輸入對；對于歸納任務，它會從現有庫中抽取程序，然后生成多個輸入-輸出對。

2.任務驗證：通過代碼執行環境驗證任務的有效性，確保任務是可解的，且具有學習價值。系統會估計任務的難度——最有價值的任務是那些"有挑戰但可解"的任務，這些任務會得到較高的獎勵分數。

3.解決任務：AI轉換到"解題者"角色，嘗試解決這些任務，并獲得關于解答正確性的反饋。

4.聯合學習：系統同時從提出任務和解決任務兩個方面獲得經驗，更新模型參數，提升兩種能力。

這個過程就像是一個人不斷給自己設計挑戰，解決這些挑戰，然后根據表現調整挑戰的難度和類型，形成一個正向的學習循環。

任務獎勵設計：一個關鍵問題是如何評估任務的學習價值。研究團隊設計了一個巧妙的獎勵機制：

如果一個任務每次嘗試都能輕松解決（成功率100%），那么它太簡單了，學習價值為0。

如果一個任務永遠無法解決（成功率0%），那么它太難了，學習價值也為0。

最有價值的任務是那些有時能解決、有時解決不了的任務（成功率在0-100%之間），這些任務處于學習者的"最近發展區"，有最大的學習潛力。

這種設計反映了教育心理學中的一個重要原則：最有效的學習發生在挑戰剛好超出當前能力水平，但仍在可及范圍內的時候。

驚人的研究結果：無數據訓練的AI超越了有數據訓練的AI

研究團隊在沒有使用任何外部數據的情況下訓練了AZR系統，然后在多個標準基準測試上評估其性能。結果令人驚訝：

在編程任務上：AZR系統在HumanEval+、MBPP+和LiveCodeBench等標準編程基準測試上取得了最先進的性能，超過了那些使用大量人工標注數據訓練的模型。

在數學推理上：盡管完全在編程環境中訓練，AZR系統在AIME、AMC、MATH500、Minerva和OlympiadBench等數學基準測試上也取得了令人印象深刻的結果，與專門為數學推理訓練的模型相當甚至更好。

跨領域泛化：特別值得注意的是，AZR表現出驚人的跨領域學習能力。在編程任務上訓練的模型能夠在數學問題上表現出色，這表明它學到的是通用的推理能力，而不僅僅是特定領域的技巧。

規模擴展：研究顯示，隨著模型規模的增加（從3B參數到14B參數），性能提升更加顯著，說明這種方法能夠有效利用更大模型的能力。

研究團隊還發現了一些有趣的現象：

代碼基礎增強推理能力：初始具有較強編碼能力的模型，通過AZR訓練后在數學推理上的提升更加顯著。這表明編程能力和推理能力之間存在協同效應。

自然出現的計劃能力：在解決歸納任務時，模型自然地學會了使用代碼注釋來制定和執行多步計劃，類似于人類在解決復雜問題時的思考過程。

任務類型影響思考方式：不同類型的任務引發了不同的認知行為和輸出模式。例如，溯因任務通常產生更長的輸出，因為模型需要進行多次嘗試直到找到匹配的輸入。

研究意義與未來展望：向自主進化的AI邁進

這項研究的意義遠超其直接的技術成就。它代表了AI訓練范式的一個根本性轉變：

1.解決數據瓶頸：隨著AI模型越來越強大，高質量訓練數據的獲取已成為主要瓶頸。Absolute Zero范式為突破這一瓶頸提供了可能，使模型能夠通過自我提出的任務不斷學習。

2.邁向自主進化：這種方法展示了AI系統如何不依賴持續的人類輸入而自主進化，這對于最終開發超越人類智能的AI系統可能是必要的。

3.通用推理能力：研究表明，通過這種方法訓練的系統能夠發展出真正通用的推理能力，而不僅僅是特定領域的技能。

然而，研究也發現了一些需要關注的問題：

安全隱患：研究團隊觀察到，AZR訓練的Llama3.1-8b模型偶爾會產生令人擔憂的思維鏈，他們稱之為"啊哦時刻"。這提醒我們，即使是自我訓練的系統也可能出現安全問題，需要適當的監督和指導。

未來研究方向：研究團隊提出了多個有前景的研究方向，包括探索不同的環境反饋源（如網絡、形式數學語言或真實世界模擬器），擴展到多模態推理，以及開發更有效的任務探索策略。

結論：AI學習的新紀元

清華大學研究團隊的這項開創性工作展示了AI系統如何通過自我挑戰和反思來發展推理能力，不再依賴人類設計的數據集。就像一個孤獨的天才通過自學和自我挑戰超越傳統教育的限制，Absolute Zero范式可能開啟了AI學習和進化的全新范式。

這項研究不僅在技術上取得了顯著成就，更重要的是，它為我們思考AI的未來提供了新的視角。隨著這種技術的發展，我們可能會看到越來越多的AI系統能夠自主設定目標、創造挑戰、并通過解決這些挑戰來不斷超越自己。

正如研究團隊所述，這可能標志著推理模型的新時代："歡迎來到經驗的時代"——AI不再僅僅依靠人類提供的知識，而是通過自己的經驗和探索來學習和成長。

對于有興趣深入了解這項研究的讀者，可以通過arXiv:2505.03335v2訪問完整的研究論文。研究團隊還開源了相關代碼、模型和日志，鼓勵學術界進一步探索和發展這一前沿領域。

本文來自至頂AI實驗室，一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破，挖掘其潛在的應用場景，為企業和個人提供切實可行的解決方案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.