新智元報道
編輯:桃子
【新智元導讀】強化學習,或許并不能通往AGI終點。Karpathy最新發文提出另一種Scaling范式,像人類一樣反思回顧,通過復盤學習取得突破,更多的S形進步曲線等待發現。
Grok 4能站在大模型之巔,全是Scaling強化學習立了大功。
如今,AI大神Karpathy站出來急潑一盆冷水:
RL只是把最終成敗的單一數值回傳,效率隨任務時長急劇下降。
而且,RL與人類「反思-提煉-再應用」迭代機制存在巨大差異。
RL短期有效
真正突破在于「復盤學習」
強化學習的本質是,某次行動表現良好(糟糕),就略微提升(降低)未來類似行動的概率。
這種方法通過驗證函數,比顯示監督取得了更大的杠桿效應,無疑是其強大之處。
然而, 在Karpathy看來,從長遠角度來講,強化學習或許并不是最優策略。
長時程任務,RL局限顯現
首先,一旦任務交互時間增加到幾分鐘乃至幾小時,RL就遇到了挑戰。
想象一下,一個數小時交互的任務,最終卻只得到一個單一的標量獎勵,來調整整個過程的梯度。
這樣的反饋,能否足以支撐高效學習?
RL機制與人類差異顯著
其次,對于大多數智能任務而言,這感覺并不像人類的進步機制。
簡言之,RL的機制與人類智能提升方式,存在著顯著的差異。
人類會通過一個復盤/反思階段,從每一次推演中能提取到多得多的監督信息,比如「哪里做得好?哪里不太行?下次該試試什么?」等等。
從這個階段得到的教訓感覺是明確的,就像一個新字符串,可以直接添加到未來的系統提示詞里,也可以選擇性地在之后被「蒸餾」成權重/直覺,有點像睡眠的作用。
在英語里,我們說通過這個過程,某件事會成為人的「第二天性」,而我們目前正缺少這樣的學習范式。
這里,Karpathy提到了ChatGPT「記憶」功能,或許就是這種機制概念的一個雛形,盡管它目前只用于個性化,而非解決問題。
值得注意的是,在Atari游戲這類RL場景中也不存在類似的機制,因為那些領域里沒有大語言模型,也沒有上下文學習。
算法新設想:回顧-反思范式
為此,Karpathy提出了一個算法框架——
給定一個任務,先跑幾次推演,然后把所有推演過程(包括每次的獎勵)都塞進一個上下文,再用一個元提示詞來復盤/反思哪些地方做得好或不好,從而提煉出一個字符串形式的「教訓」,并將其添加到系統提示詞中(或者更通用地,更新當前的教訓數據庫)。
不過,他表示,這里面有很多細節要填充,有很多地方可以調整,具體怎么做并不簡單。
舉個栗子,大模型計數問題。
我們知道,由于分詞(tokenization)的原因,大模型不太容易識別單個字母,也不太容易在殘差流里計數。
所以,眾所周知,模型很難識別出「strawberry」里的「r」字母。
Claude的系統提示詞里就加入了一個「快速修復」patch——添加了一段話,大意是:「如果用戶讓你數字母,你得先用逗號把字母隔開,每隔一個就給一個顯式計數器加一,照這樣做完任務」。
這段話就是「教訓」,它明確地指導模型如何完成計數任務。
但問題在于,這種教訓要如何從智能體的實踐中自發產生,而不是由工程師硬編碼進去?它該如何被泛化?
以及,這些教訓如何隨著時間推移被蒸餾,從而避免讓上下文窗口無限膨脹?
最后,他總結道,RL會帶來更多收益,如果應用得當,它的杠桿效應巨大。
并且,深受「慘痛教訓」(bitter lesson)理論的啟發,RL優于監督微調(SFT)。
但它并不是完整的答案,尤其是隨著推演的流程越來越長。
在這之后,還有更多的S型增長曲線等待發現,這些曲線可能專屬于大語言模型,在游戲/機器人這類環境中沒有先例,而這,正是我覺得激動人心的地方。
OpenAI研究科學家Noam Brown對此深表贊同,「確實,未來仍有許多研究工作有待完成」。
AI初創公司聯創Yuchen Jin提出了一個有趣的觀點,全新訓練范式——課程學習,是一個自監督記憶+檢索+反思的反饋循環,無需任何外部獎勵信號。
一位網友很有見地稱,強化學習實際上是暴力試錯的一種方法,并非是明智的策略。
放棄無效RL研究
最近,關于強化學習的討論,成為了AI圈的一大熱點。
除了Karpathy本人下場,上周前OpenAI研究員Kevin Lu發長文稱,Transformer只是配角,放棄無效RL研究!
他直言,真正推動AI規模躍遷的技術是互聯網,而非Transformer,這也是你應該停止RL研究,轉投產品開發的原因。
眾所周知數據才是AI最重要的要素,但研究者們卻往往選擇回避這個領域...
究竟什么才是規?;刈鰯祿??
互聯網提供了天然的數據寶庫:海量且多樣化的數據源、自然形成的學習路徑、反映人類真實需求的能力維度,以及可經濟高效規模化部署的技術特性——
它成為下一個token預測的完美搭檔,構成了AI爆發的原始湯池。
沒有Transformer,我們本可以用CNN或狀態空間模型達到GPT-4.5的水平。
但自GPT-4之后,基礎模型再未出現突破性進展。
專用推理模型在垂直領域表現優異,卻遠不及2023年3月GPT-4帶來的震撼級跨越(距今已兩年多...)。
RL確實成就斐然,但Kevin Lu對此深切擔憂,研究者會重蹈2015-2020年間RL研究的覆轍——沉迷于無關緊要的學術游戲。
如果說互聯網是監督預訓練的時代搭檔,那么什么才能成為強化學習的「共生體」,催生出GPT-1到GPT-4量級的飛躍?
Kevin Lu認為答案在于:研究-產品協同設計。
參考資料:
https://x.com/karpathy/status/1944435412489171119
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.