99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清華研發絕對零數據方法:AI無師自通成推理高手

0
分享至

古龍筆下的江湖中,常有絕世高手無師自通,以天地為師,自創武學。

《多情劍客無情劍》中的阿飛,荒野中長大,未曾拜師學藝,卻憑本能練就快劍,出手如電,無人能敵;

又如《絕代雙驕》的小魚兒,雖未得名師指點,卻能在生死之間頓悟,化險為夷,以智破敵。

這些傳奇人物,不靠典籍秘籍,不依前人經驗,僅憑自身悟性,便登頂武道巔峰。



在我們的日常生活中,學習新技能通常需要老師指導或參考示例。

如今,由清華大學、北京通用人工智能研究院和賓夕法尼亞州立大學的研究團隊,讓人工智能系統實現了這一壯舉——無需人類示例,無需海量數據,AI也能像古龍筆下的天才武者一般,在"絕對零數據"的空白領域中自我推演,無師自通,成為推理高手。

這一突破,不僅顛覆了傳統機器學習的范式,更讓AI向真正的自主智能邁進了一大步。

AI學習的全新方式:沒有老師,沒有教材,只靠自己摸索

傳統的AI訓練就像是學校教育:我們給AI提供大量標記好的"教材"(數據集),然后進行"考試"(評估)。近年來,一種名為"強化學習與可驗證獎勵"(RLVR)的方法取得了顯著進展,它讓AI系統不僅能通過模仿學習,還能通過結果反饋來調整自己的思維過程,就像學生不僅看教科書,還要通過考試成績反饋來提升學習方法。

然而,即使是最先進的RLVR方法仍然依賴于人類設計的問題和答案集合。這就像是,學生雖然可以獨立思考,但教材和考題仍然是老師精心準備的。這種依賴帶來了兩個重要問題:

首先,隨著AI系統變得越來越強大,構建足夠高質量和大規模的訓練數據變得越來越困難和昂貴。想象一下,給一個已經掌握高中數學的學生出題,你需要準備大學甚至研究生難度的問題,而這需要更高水平的專家投入時間和精力。

其次,從長遠來看,如果AI最終超越人類智能,人類設計的任務可能無法繼續挑戰和提升AI的能力,就像小學老師無法有效指導天才物理學家的進一步研究一樣。

清華大學的研究團隊提出了一個全新的訓練范式,他們稱之為"絕對零數據"(Absolute Zero)。這種方法讓AI完全不依賴任何外部數據,而是像一個孤獨的天才兒童,自己給自己出題、自己解答,并從這個過程中不斷學習和成長。



自我對弈:AI如何成為自己的老師和學生

想象一個小孩子獨自在沙灘上玩耍。他先用沙子堆一個復雜的迷宮,然后嘗試用小球穿過這個迷宮。如果成功了,他會思考:"這個迷宮太簡單了,我需要設計一個更難的。"如果失敗了,他會思考:"這很有挑戰性,我可以從中學到什么技巧?"通過這種方式,孩子同時扮演了"游戲設計師"和"玩家"兩個角色,在不斷自我挑戰中成長。

Absolute Zero Reasoner(AZR)系統正是基于這種自我對弈的理念設計的。在這個系統中,同一個AI模型扮演了兩個角色:

1.出題者(提出者):負責創造具有挑戰性且有學習價值的推理任務

2.解題者(求解者):負責解決這些任務并從中學習



整個學習過程如下:

首先,出題者創建一個編程挑戰任務。這個任務會通過代碼執行環境進行驗證,確保它是有效且合理的。同時,系統會評估這個任務的學習價值——既不能太簡單(沒有學習價值),也不能太難(無法解決)。

然后,解題者嘗試解決這個任務。解題者的解答同樣會通過代碼執行環境進行驗證,系統會根據解答是否正確給予反饋。

最后,AI系統同時從"出題"和"解題"兩個角色的經驗中學習,不斷提升自己設計有價值任務的能力和解決復雜問題的技巧。

這就像是一個人同時扮演教練和運動員,自己設計訓練計劃,然后執行這些計劃,并根據表現調整訓練內容和方法,在這個循環中不斷成長。

三種思維模式:歸納、演繹與溯因

AZR系統專注于三種基本的推理模式,這些模式代表了人類思考問題的不同方式。研究團隊巧妙地將這三種推理模式轉化為編程環境中的具體任務:

1.演繹推理(Deduction):給定一個程序和輸入,預測輸出結果。這就像是知道烹飪的所有步驟和原料,然后預測最終的菜肴會是什么樣子。在編程世界中,這相當于"給定函數f和輸入x,求輸出f(x)"。

2.溯因推理(Abduction):給定一個程序和期望的輸出,推斷可能的輸入。這就像是品嘗了一道菜,然后推測制作這道菜可能使用了哪些原料。在編程環境中,這相當于"給定函數f和輸出y,求可能的輸入x使得f(x)=y"。

3.歸納推理(Induction):給定多個輸入-輸出對,推斷最可能的程序規則。這就像是觀察到幾道菜的原料和成品,然后推斷出整個烹飪過程。在編程中,這相當于"給定多對(x,y),求一個函數f使得對所有對都有f(x)=y"。

這三種推理模式相互補充,覆蓋了大多數復雜推理場景。通過在這三種任務類型上的訓練,AZR系統能夠發展全面的推理能力。

從自我挑戰到全能高手:AZR系統如何工作

AZR系統的工作流程就像一個不斷自我挑戰的學習者。讓我們更詳細地看看它的運作方式:

初始化階段: 系統從一個極其簡單的程序開始,比如一個簡單的恒等函數(返回輸入本身的函數)。這就像是給一個初學者一個最基礎的練習作為起點。



訓練循環: 每次迭代中,系統都會進行以下步驟:

1.提出任務:AI扮演"出題者"角色,根據之前積累的經驗創建新的編程挑戰。對于演繹和溯因任務,它會生成程序和輸入對;對于歸納任務,它會從現有庫中抽取程序,然后生成多個輸入-輸出對。

2.任務驗證:通過代碼執行環境驗證任務的有效性,確保任務是可解的,且具有學習價值。系統會估計任務的難度——最有價值的任務是那些"有挑戰但可解"的任務,這些任務會得到較高的獎勵分數。

3.解決任務:AI轉換到"解題者"角色,嘗試解決這些任務,并獲得關于解答正確性的反饋。

4.聯合學習:系統同時從提出任務和解決任務兩個方面獲得經驗,更新模型參數,提升兩種能力。

這個過程就像是一個人不斷給自己設計挑戰,解決這些挑戰,然后根據表現調整挑戰的難度和類型,形成一個正向的學習循環。

任務獎勵設計: 一個關鍵問題是如何評估任務的學習價值。研究團隊設計了一個巧妙的獎勵機制:

如果一個任務每次嘗試都能輕松解決(成功率100%),那么它太簡單了,學習價值為0。

如果一個任務永遠無法解決(成功率0%),那么它太難了,學習價值也為0。

最有價值的任務是那些有時能解決、有時解決不了的任務(成功率在0-100%之間),這些任務處于學習者的"最近發展區",有最大的學習潛力。

這種設計反映了教育心理學中的一個重要原則:最有效的學習發生在挑戰剛好超出當前能力水平,但仍在可及范圍內的時候。

驚人的研究結果:無數據訓練的AI超越了有數據訓練的AI

研究團隊在沒有使用任何外部數據的情況下訓練了AZR系統,然后在多個標準基準測試上評估其性能。結果令人驚訝:

在編程任務上:AZR系統在HumanEval+、MBPP+和LiveCodeBench等標準編程基準測試上取得了最先進的性能,超過了那些使用大量人工標注數據訓練的模型。

在數學推理上:盡管完全在編程環境中訓練,AZR系統在AIME、AMC、MATH500、Minerva和OlympiadBench等數學基準測試上也取得了令人印象深刻的結果,與專門為數學推理訓練的模型相當甚至更好。

跨領域泛化:特別值得注意的是,AZR表現出驚人的跨領域學習能力。在編程任務上訓練的模型能夠在數學問題上表現出色,這表明它學到的是通用的推理能力,而不僅僅是特定領域的技巧。

規模擴展:研究顯示,隨著模型規模的增加(從3B參數到14B參數),性能提升更加顯著,說明這種方法能夠有效利用更大模型的能力。

研究團隊還發現了一些有趣的現象:

代碼基礎增強推理能力:初始具有較強編碼能力的模型,通過AZR訓練后在數學推理上的提升更加顯著。這表明編程能力和推理能力之間存在協同效應。

自然出現的計劃能力:在解決歸納任務時,模型自然地學會了使用代碼注釋來制定和執行多步計劃,類似于人類在解決復雜問題時的思考過程。

任務類型影響思考方式:不同類型的任務引發了不同的認知行為和輸出模式。例如,溯因任務通常產生更長的輸出,因為模型需要進行多次嘗試直到找到匹配的輸入。

研究意義與未來展望:向自主進化的AI邁進

這項研究的意義遠超其直接的技術成就。它代表了AI訓練范式的一個根本性轉變:

1.解決數據瓶頸:隨著AI模型越來越強大,高質量訓練數據的獲取已成為主要瓶頸。Absolute Zero范式為突破這一瓶頸提供了可能,使模型能夠通過自我提出的任務不斷學習。

2.邁向自主進化:這種方法展示了AI系統如何不依賴持續的人類輸入而自主進化,這對于最終開發超越人類智能的AI系統可能是必要的。

3.通用推理能力:研究表明,通過這種方法訓練的系統能夠發展出真正通用的推理能力,而不僅僅是特定領域的技能。

然而,研究也發現了一些需要關注的問題:

安全隱患:研究團隊觀察到,AZR訓練的Llama3.1-8b模型偶爾會產生令人擔憂的思維鏈,他們稱之為"啊哦時刻"。這提醒我們,即使是自我訓練的系統也可能出現安全問題,需要適當的監督和指導。

未來研究方向:研究團隊提出了多個有前景的研究方向,包括探索不同的環境反饋源(如網絡、形式數學語言或真實世界模擬器),擴展到多模態推理,以及開發更有效的任務探索策略。

結論:AI學習的新紀元

清華大學研究團隊的這項開創性工作展示了AI系統如何通過自我挑戰和反思來發展推理能力,不再依賴人類設計的數據集。就像一個孤獨的天才通過自學和自我挑戰超越傳統教育的限制,Absolute Zero范式可能開啟了AI學習和進化的全新范式。

這項研究不僅在技術上取得了顯著成就,更重要的是,它為我們思考AI的未來提供了新的視角。隨著這種技術的發展,我們可能會看到越來越多的AI系統能夠自主設定目標、創造挑戰、并通過解決這些挑戰來不斷超越自己。

正如研究團隊所述,這可能標志著推理模型的新時代:"歡迎來到經驗的時代"——AI不再僅僅依靠人類提供的知識,而是通過自己的經驗和探索來學習和成長。

對于有興趣深入了解這項研究的讀者,可以通過arXiv:2505.03335v2訪問完整的研究論文。研究團隊還開源了相關代碼、模型和日志,鼓勵學術界進一步探索和發展這一前沿領域。

本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術及其應用的實驗室。致力于推動生成式AI在各個領域的創新與突破,挖掘其潛在的應用場景,為企業和個人提供切實可行的解決方案。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
丟臉到國外!被央視多次點名的“文盲”,被郝蕾徹底扯下遮羞布

丟臉到國外!被央視多次點名的“文盲”,被郝蕾徹底扯下遮羞布

白面書誏
2025-05-12 19:09:53
張勇等9人退出阿里合伙人

張勇等9人退出阿里合伙人

魯中晨報
2025-06-26 22:08:14
雅虎為首輪30人評級:弗拉格A+ 灰熊選科沃德A++ 楊瀚森16順位C+

雅虎為首輪30人評級:弗拉格A+ 灰熊選科沃德A++ 楊瀚森16順位C+

顏小白的籃球夢
2025-06-26 12:33:02
開拓者已擁有五位中鋒 楊瀚森為何不用擔心出場時間?

開拓者已擁有五位中鋒 楊瀚森為何不用擔心出場時間?

羅說NBA
2025-06-26 16:47:04
中方給稀土加上“新鎖”,美方不僅沒脾氣,還給中國開了道口子

中方給稀土加上“新鎖”,美方不僅沒脾氣,還給中國開了道口子

梁訊
2025-06-26 17:46:14
貴州猴子河特大橋引橋倒塌分析

貴州猴子河特大橋引橋倒塌分析

彭衛兵課題組
2025-06-26 17:55:53
馬斯克離開政府效率部一個月后,19歲的核心成員愛德華·科里斯汀被曝已辭職:曾幫特朗普賣“金卡”

馬斯克離開政府效率部一個月后,19歲的核心成員愛德華·科里斯汀被曝已辭職:曾幫特朗普賣“金卡”

魯中晨報
2025-06-26 07:12:07
安徽一女子網購5斤荔枝,一口氣剝完后僅退款,網友:氣死了

安徽一女子網購5斤荔枝,一口氣剝完后僅退款,網友:氣死了

大笑江湖史
2025-06-26 17:55:06
套現41.75億!服裝巨頭雅戈爾,進入“收獲期”

套現41.75億!服裝巨頭雅戈爾,進入“收獲期”

侃見財經
2025-06-26 08:23:18
劉詩詩婚變升級,曝他和吳奇隆結婚原因:必須回族,沒有更佳選擇

劉詩詩婚變升級,曝他和吳奇隆結婚原因:必須回族,沒有更佳選擇

古希臘掌管月桂的神
2025-06-26 17:19:33
涉嫌嚴重違紀違法,江蘇4人被查

涉嫌嚴重違紀違法,江蘇4人被查

揚子晚報
2025-06-26 19:11:52
保時捷女銷冠真容曝光!工作6年還生了娃,同事披露她賣車多原因

保時捷女銷冠真容曝光!工作6年還生了娃,同事披露她賣車多原因

寒士之言本尊
2025-06-05 22:08:25
什么是211,什么是985?一定要讓孩子早知道

什么是211,什么是985?一定要讓孩子早知道

尚曦讀史
2025-06-26 09:54:28
大V批Labubu是人為制造稀缺的商業泡沫,泡泡瑪特發函刪稿:惡意中傷,沒炒作洗錢!

大V批Labubu是人為制造稀缺的商業泡沫,泡泡瑪特發函刪稿:惡意中傷,沒炒作洗錢!

回旋鏢
2025-06-26 17:55:08
兒子要求父親死刑后續,已執死刑,兒子拒領骨灰,知情人爆更多

兒子要求父親死刑后續,已執死刑,兒子拒領骨灰,知情人爆更多

南南說娛
2025-06-26 10:24:18
東風15C鉆透90米花崗巖!華夏神矛專破地堡,美軍鉆地彈甘拜下風

東風15C鉆透90米花崗巖!華夏神矛專破地堡,美軍鉆地彈甘拜下風

科學知識點秀
2025-06-26 07:00:13
盤點中國球員NBA總得分排行:周琦24分,易建聯2148分僅排第三

盤點中國球員NBA總得分排行:周琦24分,易建聯2148分僅排第三

大衛的籃球故事
2025-06-26 21:08:32
河南高考女狀元出爐了,724分,數學滿分,長得國泰民安的一張臉

河南高考女狀元出爐了,724分,數學滿分,長得國泰民安的一張臉

阿纂看事
2025-06-26 17:37:01
充電寶風波愈演愈烈,中國民航局今日發布緊急通知!問題源頭或指向美國巨頭安普瑞斯,主要客戶包括小米、OPPO、vivo等手機巨頭

充電寶風波愈演愈烈,中國民航局今日發布緊急通知!問題源頭或指向美國巨頭安普瑞斯,主要客戶包括小米、OPPO、vivo等手機巨頭

金融界
2025-06-26 18:21:36
太刺激了!國泰君安國際大漲近90%后高臺跳水,一度跌10%!什么情況?

太刺激了!國泰君安國際大漲近90%后高臺跳水,一度跌10%!什么情況?

每日經濟新聞
2025-06-26 14:27:20
2025-06-27 01:12:49
至頂AI實驗室 incentive-icons
至頂AI實驗室
一個專注于探索生成式AI前沿技術及其應用的實驗室。
177文章數 145關注度
往期回顧 全部

科技要聞

小米YU7價格來了!標準版起售價25.35萬元

頭條要聞

小米YU7開啟預定3分鐘大定破20萬臺 只比SU7貴3萬

頭條要聞

小米YU7開啟預定3分鐘大定破20萬臺 只比SU7貴3萬

體育要聞

蓄謀已久的開拓者,就是最適合楊瀚森的球隊

娛樂要聞

倪妮,怎么突然下桌了?

財經要聞

央視再揭茅臺鎮“年份酒”造假黑幕

汽車要聞

智界全系2萬元現金減免 豪華智能限時普惠

態度原創

數碼
游戲
旅游
公開課
軍事航空

數碼要聞

小米今日發布四款智能穿戴設備 AI眼鏡售價1999元

外媒夸《死亡擱淺2》女性角色:小島你是懂的

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

滿足特朗普要求 北約峰會通過5%軍費目標

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 朝阳县| 临西县| 神池县| 蕉岭县| 刚察县| 漳平市| 宁乡县| 安陆市| 高青县| 眉山市| 梁山县| 大足县| 新宾| 同德县| 化州市| 宁都县| 新干县| 扶余县| 家居| 清河县| 永宁县| 白银市| 霸州市| 江华| 沈丘县| 阿城市| 旌德县| 昌黎县| 六盘水市| 渭南市| 黄梅县| 星座| 鸡泽县| 湖北省| 乌海市| 同仁县| 封开县| 台湾省| 台山市| 鲜城| 吉水县|