古龍筆下的江湖中,常有絕世高手無師自通,以天地為師,自創武學。
《多情劍客無情劍》中的阿飛,荒野中長大,未曾拜師學藝,卻憑本能練就快劍,出手如電,無人能敵;
又如《絕代雙驕》的小魚兒,雖未得名師指點,卻能在生死之間頓悟,化險為夷,以智破敵。
這些傳奇人物,不靠典籍秘籍,不依前人經驗,僅憑自身悟性,便登頂武道巔峰。
在我們的日常生活中,學習新技能通常需要老師指導或參考示例。
如今,由清華大學、北京通用人工智能研究院和賓夕法尼亞州立大學的研究團隊,讓人工智能系統實現了這一壯舉——無需人類示例,無需海量數據,AI也能像古龍筆下的天才武者一般,在"絕對零數據"的空白領域中自我推演,無師自通,成為推理高手。
這一突破,不僅顛覆了傳統機器學習的范式,更讓AI向真正的自主智能邁進了一大步。
AI學習的全新方式:沒有老師,沒有教材,只靠自己摸索
傳統的AI訓練就像是學校教育:我們給AI提供大量標記好的"教材"(數據集),然后進行"考試"(評估)。近年來,一種名為"強化學習與可驗證獎勵"(RLVR)的方法取得了顯著進展,它讓AI系統不僅能通過模仿學習,還能通過結果反饋來調整自己的思維過程,就像學生不僅看教科書,還要通過考試成績反饋來提升學習方法。
然而,即使是最先進的RLVR方法仍然依賴于人類設計的問題和答案集合。這就像是,學生雖然可以獨立思考,但教材和考題仍然是老師精心準備的。這種依賴帶來了兩個重要問題:
首先,隨著AI系統變得越來越強大,構建足夠高質量和大規模的訓練數據變得越來越困難和昂貴。想象一下,給一個已經掌握高中數學的學生出題,你需要準備大學甚至研究生難度的問題,而這需要更高水平的專家投入時間和精力。
其次,從長遠來看,如果AI最終超越人類智能,人類設計的任務可能無法繼續挑戰和提升AI的能力,就像小學老師無法有效指導天才物理學家的進一步研究一樣。
清華大學的研究團隊提出了一個全新的訓練范式,他們稱之為"絕對零數據"(Absolute Zero)。這種方法讓AI完全不依賴任何外部數據,而是像一個孤獨的天才兒童,自己給自己出題、自己解答,并從這個過程中不斷學習和成長。
自我對弈:AI如何成為自己的老師和學生
想象一個小孩子獨自在沙灘上玩耍。他先用沙子堆一個復雜的迷宮,然后嘗試用小球穿過這個迷宮。如果成功了,他會思考:"這個迷宮太簡單了,我需要設計一個更難的。"如果失敗了,他會思考:"這很有挑戰性,我可以從中學到什么技巧?"通過這種方式,孩子同時扮演了"游戲設計師"和"玩家"兩個角色,在不斷自我挑戰中成長。
Absolute Zero Reasoner(AZR)系統正是基于這種自我對弈的理念設計的。在這個系統中,同一個AI模型扮演了兩個角色:
1.出題者(提出者):負責創造具有挑戰性且有學習價值的推理任務
2.解題者(求解者):負責解決這些任務并從中學習
整個學習過程如下:
首先,出題者創建一個編程挑戰任務。這個任務會通過代碼執行環境進行驗證,確保它是有效且合理的。同時,系統會評估這個任務的學習價值——既不能太簡單(沒有學習價值),也不能太難(無法解決)。
然后,解題者嘗試解決這個任務。解題者的解答同樣會通過代碼執行環境進行驗證,系統會根據解答是否正確給予反饋。
最后,AI系統同時從"出題"和"解題"兩個角色的經驗中學習,不斷提升自己設計有價值任務的能力和解決復雜問題的技巧。
這就像是一個人同時扮演教練和運動員,自己設計訓練計劃,然后執行這些計劃,并根據表現調整訓練內容和方法,在這個循環中不斷成長。
三種思維模式:歸納、演繹與溯因
AZR系統專注于三種基本的推理模式,這些模式代表了人類思考問題的不同方式。研究團隊巧妙地將這三種推理模式轉化為編程環境中的具體任務:
1.演繹推理(Deduction):給定一個程序和輸入,預測輸出結果。這就像是知道烹飪的所有步驟和原料,然后預測最終的菜肴會是什么樣子。在編程世界中,這相當于"給定函數f和輸入x,求輸出f(x)"。
2.溯因推理(Abduction):給定一個程序和期望的輸出,推斷可能的輸入。這就像是品嘗了一道菜,然后推測制作這道菜可能使用了哪些原料。在編程環境中,這相當于"給定函數f和輸出y,求可能的輸入x使得f(x)=y"。
3.歸納推理(Induction):給定多個輸入-輸出對,推斷最可能的程序規則。這就像是觀察到幾道菜的原料和成品,然后推斷出整個烹飪過程。在編程中,這相當于"給定多對(x,y),求一個函數f使得對所有對都有f(x)=y"。
這三種推理模式相互補充,覆蓋了大多數復雜推理場景。通過在這三種任務類型上的訓練,AZR系統能夠發展全面的推理能力。
從自我挑戰到全能高手:AZR系統如何工作
AZR系統的工作流程就像一個不斷自我挑戰的學習者。讓我們更詳細地看看它的運作方式:
初始化階段: 系統從一個極其簡單的程序開始,比如一個簡單的恒等函數(返回輸入本身的函數)。這就像是給一個初學者一個最基礎的練習作為起點。
訓練循環: 每次迭代中,系統都會進行以下步驟:
1.提出任務:AI扮演"出題者"角色,根據之前積累的經驗創建新的編程挑戰。對于演繹和溯因任務,它會生成程序和輸入對;對于歸納任務,它會從現有庫中抽取程序,然后生成多個輸入-輸出對。
2.任務驗證:通過代碼執行環境驗證任務的有效性,確保任務是可解的,且具有學習價值。系統會估計任務的難度——最有價值的任務是那些"有挑戰但可解"的任務,這些任務會得到較高的獎勵分數。
3.解決任務:AI轉換到"解題者"角色,嘗試解決這些任務,并獲得關于解答正確性的反饋。
4.聯合學習:系統同時從提出任務和解決任務兩個方面獲得經驗,更新模型參數,提升兩種能力。
這個過程就像是一個人不斷給自己設計挑戰,解決這些挑戰,然后根據表現調整挑戰的難度和類型,形成一個正向的學習循環。
任務獎勵設計: 一個關鍵問題是如何評估任務的學習價值。研究團隊設計了一個巧妙的獎勵機制:
如果一個任務每次嘗試都能輕松解決(成功率100%),那么它太簡單了,學習價值為0。
如果一個任務永遠無法解決(成功率0%),那么它太難了,學習價值也為0。
最有價值的任務是那些有時能解決、有時解決不了的任務(成功率在0-100%之間),這些任務處于學習者的"最近發展區",有最大的學習潛力。
這種設計反映了教育心理學中的一個重要原則:最有效的學習發生在挑戰剛好超出當前能力水平,但仍在可及范圍內的時候。
驚人的研究結果:無數據訓練的AI超越了有數據訓練的AI
研究團隊在沒有使用任何外部數據的情況下訓練了AZR系統,然后在多個標準基準測試上評估其性能。結果令人驚訝:
在編程任務上:AZR系統在HumanEval+、MBPP+和LiveCodeBench等標準編程基準測試上取得了最先進的性能,超過了那些使用大量人工標注數據訓練的模型。
在數學推理上:盡管完全在編程環境中訓練,AZR系統在AIME、AMC、MATH500、Minerva和OlympiadBench等數學基準測試上也取得了令人印象深刻的結果,與專門為數學推理訓練的模型相當甚至更好。
跨領域泛化:特別值得注意的是,AZR表現出驚人的跨領域學習能力。在編程任務上訓練的模型能夠在數學問題上表現出色,這表明它學到的是通用的推理能力,而不僅僅是特定領域的技巧。
規模擴展:研究顯示,隨著模型規模的增加(從3B參數到14B參數),性能提升更加顯著,說明這種方法能夠有效利用更大模型的能力。
研究團隊還發現了一些有趣的現象:
代碼基礎增強推理能力:初始具有較強編碼能力的模型,通過AZR訓練后在數學推理上的提升更加顯著。這表明編程能力和推理能力之間存在協同效應。
自然出現的計劃能力:在解決歸納任務時,模型自然地學會了使用代碼注釋來制定和執行多步計劃,類似于人類在解決復雜問題時的思考過程。
任務類型影響思考方式:不同類型的任務引發了不同的認知行為和輸出模式。例如,溯因任務通常產生更長的輸出,因為模型需要進行多次嘗試直到找到匹配的輸入。
研究意義與未來展望:向自主進化的AI邁進
這項研究的意義遠超其直接的技術成就。它代表了AI訓練范式的一個根本性轉變:
1.解決數據瓶頸:隨著AI模型越來越強大,高質量訓練數據的獲取已成為主要瓶頸。Absolute Zero范式為突破這一瓶頸提供了可能,使模型能夠通過自我提出的任務不斷學習。
2.邁向自主進化:這種方法展示了AI系統如何不依賴持續的人類輸入而自主進化,這對于最終開發超越人類智能的AI系統可能是必要的。
3.通用推理能力:研究表明,通過這種方法訓練的系統能夠發展出真正通用的推理能力,而不僅僅是特定領域的技能。
然而,研究也發現了一些需要關注的問題:
安全隱患:研究團隊觀察到,AZR訓練的Llama3.1-8b模型偶爾會產生令人擔憂的思維鏈,他們稱之為"啊哦時刻"。這提醒我們,即使是自我訓練的系統也可能出現安全問題,需要適當的監督和指導。
未來研究方向:研究團隊提出了多個有前景的研究方向,包括探索不同的環境反饋源(如網絡、形式數學語言或真實世界模擬器),擴展到多模態推理,以及開發更有效的任務探索策略。
結論:AI學習的新紀元
清華大學研究團隊的這項開創性工作展示了AI系統如何通過自我挑戰和反思來發展推理能力,不再依賴人類設計的數據集。就像一個孤獨的天才通過自學和自我挑戰超越傳統教育的限制,Absolute Zero范式可能開啟了AI學習和進化的全新范式。
這項研究不僅在技術上取得了顯著成就,更重要的是,它為我們思考AI的未來提供了新的視角。隨著這種技術的發展,我們可能會看到越來越多的AI系統能夠自主設定目標、創造挑戰、并通過解決這些挑戰來不斷超越自己。
正如研究團隊所述,這可能標志著推理模型的新時代:"歡迎來到經驗的時代"——AI不再僅僅依靠人類提供的知識,而是通過自己的經驗和探索來學習和成長。
對于有興趣深入了解這項研究的讀者,可以通過arXiv:2505.03335v2訪問完整的研究論文。研究團隊還開源了相關代碼、模型和日志,鼓勵學術界進一步探索和發展這一前沿領域。
本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.