新智元報道
編輯:KingHZ
【新智元導讀】只靠強化學習,AGI就能實現?Claude-4核心成員放話「5年內AI干掉白領」,卻被Karpathy等聯手潑冷水!持續學習真的可能嗎?RL的真正邊界、下一代智能的關鍵轉折點到底在哪兒?
只靠強化學習,AGI就能實現?
「到2030年,不靠算法創新,只要繼續收集數據,針對性訓練,就能實現AGI?!?/p>
最近,這一關于AGI的未來道路的觀點,引起了熱議。
這還要從Darkesh Patel主持的播客節目說起。
即使人工智能的發展完全停滯,但收集不同的白領工作任務的數據足夠容易,因此我們預計在未來五年內將看到它們實現自動化。
事后,主持人Darkesh Patel覺得事情沒那么容易。
他認為目前算法并不成熟,AGI要更晚才會到來。
最大的問題在于:隨著時間流逝,LLM不會像人類一樣變得更好。
它們無法進行持續學習。工程師能做的就是不斷修改系統提示詞,但這遠遠不及人類能通過反饋、積累經驗和自我糾錯而持續進步。即便是RL微調也無法提供人類那種有機、不斷適應的學習體驗。
Darkesh Patel的系列推文引起了Karpathy的注意。
Karpathy同意當前的LLM能力不足,無法持續學習,無法保存學習到的經驗和知識,就像人失憶一樣。
Ai2的后訓練負責人、「強化學習傳人」Nathan Lambert,也回應了Darkesh Patel的觀點。
他認為在LLM中,強化學習確實已經取得突破,而之后還有三個值得探索的方向:Scaling強化學習、稀疏獎勵和持續學習。
強化學習下一步
如何將當前可驗證獎勵強化學習(reinforcement learning with verifiable rewards,RLVR)擴展到下一代語言模型?
甚至擴展到通用人工智能(AGI)或超級人工智能(ASI)?
即便我們真希望如此,但最樂觀的設想也有一個前提:RL是否具備解決更高難度任務的能力。
目前的訓練方法在處理數學或編程問題時,每個答案通常生成1萬到10萬個token。而設想的下一代RL訓練中,單個答案可能需要生成100萬到1億個token。
這意味著每次訓練要整合多個推理調用、提示以及與環境的多輪交互,納入到統一的學習回合(Episode)中,并據此更新策略。
然而,RL能否適用于新領域,目前遠不像它在現有訓練機制中那樣明確。
在現有方法中,模型只需完成一次任務,例如解決一道編程題、算出一個數學答案或完成一次信息檢索,就能根據表現獲得獎勵。
但RL并不能「魔法般」地讓我們訓練出能優化整個代碼庫、開展現實世界科學實驗或制定復雜策略的語言模型。要實現這些目標,仍需重大的技術突破和基礎設施的升級。
因此,當我們說「Scaling RL是提升語言模型性能的最短路徑」時,真正的含義是
繼續沿用當前模型的擴展方法,而不是一下子進軍全新的復雜應用領域。
這種「超長回合」的強化學習,與「持續學習」(Continual Learning)的理念密切相關——
也就是語言模型與現實世界不斷交互,持續進步。
從結構上看,擴大RL訓練規模很可能是未來發展的前沿方向,但目前還不確定的是:要擴展的這些新任務,是否在訓練效果上具有本質上的不同。
以下三個相關方向,依舊值得展開討論:
推理中繼續擴展RL——也就是在不依賴重大算法創新的前提下,繼續在數據規模和應用領域上擴展當前的RLVR技術。
將RL應用于反饋稀疏的任務——例如那些需要數小時甚至數天才能獲得反饋的科學研究或機器人任務。隨著傳統領域的訓練逐漸飽和,AI實驗室的研究重點自然會轉向這些方向。
實現語言模型的持續學習——即模型根據實際使用情況不斷更新參數,而不是一旦訓練完畢就固定權重,進入只負責推理的靜態狀態。
推理任務中繼續擴展RL
從建模的角度來看,隨著預訓練與后訓練方法的演化,未來的趨勢可能是:
預訓練進一步降低,而后訓練的強化學習(RL)階段將顯著延長。
更長的RL訓練周期,自然呈現出類似「持續學習」(Continual Learning)的特征:訓練可以從某個中間階段的RL檢查點繼續,執行偏好對齊與安全性相關的后訓練,最終產出可直接部署給用戶的模型。
不過需要指出的是,這并不是嚴格意義上的「持續學習」。它更多意味著:
模型的發布將更加頻繁,每次訓練的周期也更長。
對于訓練團隊而言,這是重要的轉變。
過去,只有在預訓練完全結束后,才能啟動后訓練,最后評估模型的性能。比如說,GPT-4或GPT-4.5(又稱Orion),這些模型通常需要大量后訓練來「馴服」預訓練模型,但性能難以預測,完成時間也具有高度不確定性。
可預見的是,未來幾年整個行業將進入以RL擴展為核心、強調持續優化的迭代模式,整體上類似「持續學習」。
在Dwarkesh Patel看來,真正的「持續學習」應更像人類「活到老,學到老」。也就是說,模型能夠從經驗中學習、調整參數,從而在特定任務上不斷改進。
「從失敗中學習」的機制,是當前智能系統所缺失的一塊核心拼圖。
畢竟,人類之所以特別,就在于我們具備極強的適應能力,并能從反饋中迅速成長。
與此相關,Arc Prize組織也提出了另一種衡量智能的方式: 他們稱之為「技能獲取效率」(skill acquisition efficiency)。
無論是實現Dwarkesh所設想的「持續學習」,還是提升「技能獲取效率」,要在這兩個方向取得實質進展,都極其困難。
相比之下,像「推理時擴展」(inference-time scaling)這樣的方式則更容易實現和理解。
所謂「推理時擴展」,本質上是進一步放大思維鏈提示(CoT prompting)方法。在訓練與應用階段加大力度,它可以將模型性能提升10倍甚至100倍。
但要真正實現「持續學習」——尤其是在模型規模不斷擴大、應用場景日益復雜的背景下
——則需要顛覆性的科學突破。 這種突破,往往具有極高的不確定性。
我們確實可以通過更高效的編程系統,持續優化當前模型體系。 但要實現更智能的目標,仍離不開人類的創造力與開放式研究的推動。
稀疏強化學習擴展中的難題
如前所述,當前業界正積極探索:
將現有的強化學習(RL)機制與可驗證獎勵機制結合,并不斷擴大應用范圍。
在這種模式下,模型發布頻率更高,可以更頻繁地交付更新版本。 由于開發重心正逐漸轉向后訓練階段,模型的迭代優化也變得更加自然和高效。
但在另一個極端,我們也談到過——
若試圖在現有語言模型的基礎上,構建真正意義上的「持續學習」系統, 本質上,是一種高度不確定性的嘗試。
而介于這兩者之間的方向,即:
嘗試將RL應用于反饋稀疏、評估周期較長的任務領域,前景更具爭議 。
從個人角度,對此Nathan Lambert持略為悲觀的態度。
原因在于,這類研究路徑在實踐中,越來越像復雜機器人系統的研究。而在機器人領域,端到端的強化學習,并不是當前公認的最佳方案。
這一事實提醒我們:將RL拓展到稀疏反饋領域時,必須格外謹慎,不能盲目套用已有的訓練范式。
真需要「持續學習」嗎?
AI應該像人一樣,能在互動之后獲得永久性的成長。
這個愿景雖然美好,但也暗藏隱患,甚至帶有某種危險。
事實上,當前實現「持續學習」的最接近方式,其實是推薦系統。
很多人驚嘆推薦系統能在短短幾分鐘內精準捕捉到個人興趣,這其實就是通過用戶交互進行的即時學習。
但想象一下,如果這種能力被賦予超強理解力的AI模型,并且背后的交互反饋機制又被某家公司所掌控,那將帶來一系列令人不安的后果。
其實,也有一些更穩妥的替代方案。
比如說,雖然ChatGPT當前的「記憶」功能還不完美,但它已經可以根據你過往的糾正,避免重復犯錯。
這種基于歷史對話記錄的記憶機制,雖然沒有更新模型權重,但在體驗上,其實已接近「持續學習」。
如果覺得還不夠強,那我們可以繼續等待技術成熟:
讓本地模型邊用邊學,真正實現私有化的持續進化。
這些路徑雖然發展更慢,卻能顯著降低「超級偏見AI」的風險。
在這場討論中,有一個詞其實更容易被大眾接受——「個性化」。
相比之下,「持續學習」這個提法,更有利于AI巨頭。 因為他們可以從每一位用戶的交互中提取數據、反哺模型。但對這些AI實驗室而言,真正的個性化其實和他們的戰略相悖。
他們更傾向于:用少數幾個通用模型,服務成千上萬的用戶。
而如果開源模型能持續進步,或許真的能迎來「個性化」時代—— 每個人都擁有屬于自己的專屬AI。
圖靈獎得主
從經驗中學習
早在1993年,2024年度圖靈獎得主Richard Sutton就寫下這樣一段話:
我從智能體(agent)與環境之間的互動關系起步,因為目標的設定、選擇以及信息的獲取,都是基于這種互動。
可以說,這種互動是唯一真實存在的事物,我們對世界的所有理解正是由此而來。
他的核心觀點是,智能的本質,是智能體與環境之間的直接交互體驗——即來回傳遞的信號。
從邏輯上講,這幾乎是不證自明的:智能體的智能只能通過它的行為展現出來,而這種行為的好壞又只能通過對環境反饋的影響來評估。
所謂「了解環境」,對智能體而言,其實就是了解這些交互造成的效果。
智能體所感知的一切世界,其實都來自自身不斷接收到的經驗流。
不管如何抽象世界,例如物體、物理規則或其他智能體等復雜概念,對于一個智能體來說,這些不過是經驗中反復出現的模式。經驗流構成了智能體全部的輸入和輸出,它的智能行為正是在對這些經驗的理解和處理中顯現出來。
這一看似顯而易見卻頗具顛覆性的思想,正是他研究生涯的出發點。
他認為隨著主流AI范式演變,人類將進入「體驗時代」。
圖1:主流AI范式的演變時間簡圖??v軸表示整個領域中用于強化學習(RL)的研究精力和計算資源的大致比例
體驗時代的到來標志著AI的關鍵轉折。
在已有的堅實基礎上,智能體將突破「人類衍生數據」的局限。
它們將更多依靠自身與世界的互動進行學習。通過觀察和行動,智能體能主動與環境交流。在持續終身的體驗中,它們不斷適應和進化。它們的目標可以設定為任何基于現實信號的組合。
借助超過人類的推理能力,智能體能規劃決策,用行動影響環境。隨著體驗數據的積累,規模與質量最終將超過人類生成的數據。
這種范式轉變,結合強化學習的進步,將催生許多超越人類極限的新能力。
參考資料:
https://x.com/natolambert/status/1932102119265554789
https://www.interconnects.ai/p/what-comes-next-with-reinforcement
http://incompleteideas.net/CCAIprop2025.pdf
https://www.dwarkesh.com/p/timelines-june-2025
https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.