99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Karpathy戳破強化學習神話,首提AI復盤式進化!暴力試錯將死

0
分享至


新智元報道

編輯:桃子

【新智元導讀】強化學習,或許并不能通往AGI終點。Karpathy最新發文提出另一種Scaling范式,像人類一樣反思回顧,通過復盤學習取得突破,更多的S形進步曲線等待發現。

Grok 4能站在大模型之巔,全是Scaling強化學習立了大功。



如今,AI大神Karpathy站出來急潑一盆冷水:

RL只是把最終成敗的單一數值回傳,效率隨任務時長急劇下降。

而且,RL與人類「反思-提煉-再應用」迭代機制存在巨大差異。


RL短期有效

真正突破在于「復盤學習」

強化學習的本質是,某次行動表現良好(糟糕),就略微提升(降低)未來類似行動的概率。

這種方法通過驗證函數,比顯示監督取得了更大的杠桿效應,無疑是其強大之處。

然而, 在Karpathy看來,從長遠角度來講,強化學習或許并不是最優策略。

長時程任務,RL局限顯現

首先,一旦任務交互時間增加到幾分鐘乃至幾小時,RL就遇到了挑戰。

想象一下,一個數小時交互的任務,最終卻只得到一個單一的標量獎勵,來調整整個過程的梯度。

這樣的反饋,能否足以支撐高效學習?


RL機制與人類差異顯著

其次,對于大多數智能任務而言,這感覺并不像人類的進步機制。

簡言之,RL的機制與人類智能提升方式,存在著顯著的差異。

人類會通過一個復盤/反思階段,從每一次推演中能提取到多得多的監督信息,比如「哪里做得好?哪里不太行?下次該試試什么?」等等。

從這個階段得到的教訓感覺是明確的,就像一個新字符串,可以直接添加到未來的系統提示詞里,也可以選擇性地在之后被「蒸餾」成權重/直覺,有點像睡眠的作用。

在英語里,我們說通過這個過程,某件事會成為人的「第二天性」,而我們目前正缺少這樣的學習范式。

這里,Karpathy提到了ChatGPT「記憶」功能,或許就是這種機制概念的一個雛形,盡管它目前只用于個性化,而非解決問題。

值得注意的是,在Atari游戲這類RL場景中也不存在類似的機制,因為那些領域里沒有大語言模型,也沒有上下文學習。

算法新設想:回顧-反思范式

為此,Karpathy提出了一個算法框架——

給定一個任務,先跑幾次推演,然后把所有推演過程(包括每次的獎勵)都塞進一個上下文,再用一個元提示詞來復盤/反思哪些地方做得好或不好,從而提煉出一個字符串形式的「教訓」,并將其添加到系統提示詞中(或者更通用地,更新當前的教訓數據庫)。

不過,他表示,這里面有很多細節要填充,有很多地方可以調整,具體怎么做并不簡單。

舉個栗子,大模型計數問題。

我們知道,由于分詞(tokenization)的原因,大模型不太容易識別單個字母,也不太容易在殘差流里計數。

所以,眾所周知,模型很難識別出「strawberry」里的「r」字母。


Claude的系統提示詞里就加入了一個「快速修復」patch——添加了一段話,大意是:「如果用戶讓你數字母,你得先用逗號把字母隔開,每隔一個就給一個顯式計數器加一,照這樣做完任務」。

這段話就是「教訓」,它明確地指導模型如何完成計數任務。

但問題在于,這種教訓要如何從智能體的實踐中自發產生,而不是由工程師硬編碼進去?它該如何被泛化?

以及,這些教訓如何隨著時間推移被蒸餾,從而避免讓上下文窗口無限膨脹?

最后,他總結道,RL會帶來更多收益,如果應用得當,它的杠桿效應巨大。

并且,深受「慘痛教訓」(bitter lesson)理論的啟發,RL優于監督微調(SFT)。

但它并不是完整的答案,尤其是隨著推演的流程越來越長。

在這之后,還有更多的S型增長曲線等待發現,這些曲線可能專屬于大語言模型,在游戲/機器人這類環境中沒有先例,而這,正是我覺得激動人心的地方。

OpenAI研究科學家Noam Brown對此深表贊同,「確實,未來仍有許多研究工作有待完成」。


AI初創公司聯創Yuchen Jin提出了一個有趣的觀點,全新訓練范式——課程學習,是一個自監督記憶+檢索+反思的反饋循環,無需任何外部獎勵信號。


一位網友很有見地稱,強化學習實際上是暴力試錯的一種方法,并非是明智的策略。


放棄無效RL研究

最近,關于強化學習的討論,成為了AI圈的一大熱點。

除了Karpathy本人下場,上周前OpenAI研究員Kevin Lu發長文稱,Transformer只是配角,放棄無效RL研究!


他直言,真正推動AI規模躍遷的技術是互聯網,而非Transformer,這也是你應該停止RL研究,轉投產品開發的原因。

眾所周知數據才是AI最重要的要素,但研究者們卻往往選擇回避這個領域...

究竟什么才是規?;刈鰯祿??

互聯網提供了天然的數據寶庫:海量且多樣化的數據源、自然形成的學習路徑、反映人類真實需求的能力維度,以及可經濟高效規模化部署的技術特性——

它成為下一個token預測的完美搭檔,構成了AI爆發的原始湯池。


沒有Transformer,我們本可以用CNN或狀態空間模型達到GPT-4.5的水平。

但自GPT-4之后,基礎模型再未出現突破性進展。

專用推理模型在垂直領域表現優異,卻遠不及2023年3月GPT-4帶來的震撼級跨越(距今已兩年多...)。

RL確實成就斐然,但Kevin Lu對此深切擔憂,研究者會重蹈2015-2020年間RL研究的覆轍——沉迷于無關緊要的學術游戲。

如果說互聯網是監督預訓練的時代搭檔,那么什么才能成為強化學習的「共生體」,催生出GPT-1到GPT-4量級的飛躍?

Kevin Lu認為答案在于:研究-產品協同設計。


參考資料:

https://x.com/karpathy/status/1944435412489171119


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
強制交易!拒絕加盟!火箭最大對手上演鬧劇,聯盟或許要失算了

強制交易!拒絕加盟!火箭最大對手上演鬧劇,聯盟或許要失算了

老侃侃球
2025-07-14 10:21:23
人均600萬到欠400億,毀掉“天下第一村”的不是別人,是他們自己

人均600萬到欠400億,毀掉“天下第一村”的不是別人,是他們自己

一家說
2025-05-23 15:05:58
洛夫頓全場登場18分鐘,投籃6中3得到8分3板2助

洛夫頓全場登場18分鐘,投籃6中3得到8分3板2助

懂球帝
2025-07-14 09:56:34
朱雨玲奪冠后,孫穎莎陳熠遭牽連

朱雨玲奪冠后,孫穎莎陳熠遭牽連

阿銍武器裝備科普
2025-07-14 20:09:19
再次抑郁風險!阿尼西莫娃未來將走向何方?

再次抑郁風險!阿尼西莫娃未來將走向何方?

網球之家
2025-07-14 23:12:33
圓了兒時的夢,莫德里奇曾留下身穿米蘭外套的老照片

圓了兒時的夢,莫德里奇曾留下身穿米蘭外套的老照片

懂球帝
2025-07-15 06:19:56
小老虎?!廣西又一縣委書記被查...

小老虎?!廣西又一縣委書記被查...

嶺南美玉
2025-07-15 00:24:18
朱雨玲收獲2000積分、10萬美元獎金,世界排名升至第六位

朱雨玲收獲2000積分、10萬美元獎金,世界排名升至第六位

懂球帝
2025-07-14 10:18:45
大反轉!德云社融入主流了:曲協主席馮鞏同德云社演員同臺!

大反轉!德云社融入主流了:曲協主席馮鞏同德云社演員同臺!

史書無明
2025-07-14 11:45:18
柯文哲:一旦武力收臺,最終獲勝的將是臺島,解放軍會傷亡慘重

柯文哲:一旦武力收臺,最終獲勝的將是臺島,解放軍會傷亡慘重

混沌錄
2025-07-14 22:39:12
獨家丨拼多多與香港順豐合作終止,網傳順豐CMO徐本松因“重大異常事件”被降級調離

獨家丨拼多多與香港順豐合作終止,網傳順豐CMO徐本松因“重大異常事件”被降級調離

號外工作室
2025-07-14 19:27:49
廢掉一個孩子,就讓他待在家里,一天到晚待在家里(深度好文)

廢掉一個孩子,就讓他待在家里,一天到晚待在家里(深度好文)

新東方家庭教育
2025-07-11 17:14:32
亞洲第一賭場新東泰覆滅記:性交易泛濫,富商瘋狂砸錢,揮金如土

亞洲第一賭場新東泰覆滅記:性交易泛濫,富商瘋狂砸錢,揮金如土

談史論天地
2025-07-02 20:45:03
拿到歐盟1.8億美元后,塔利班對中企翻了臉,中阿油田合作被終止

拿到歐盟1.8億美元后,塔利班對中企翻了臉,中阿油田合作被終止

流年拾光
2025-06-21 22:32:26
同學聚會我沒人理,當縣長的好友進來直接走向我:這個位置得給你

同學聚會我沒人理,當縣長的好友進來直接走向我:這個位置得給你

白云故事
2025-07-12 17:10:03
洪森失算!佩通坦正式就職,泰國絕對不辜負中國期待

洪森失算!佩通坦正式就職,泰國絕對不辜負中國期待

蘭妮搞笑分享
2025-07-15 01:42:39
發現了沒,凡是結婚不主動要彩禮的女方家庭,一般都是以下幾種

發現了沒,凡是結婚不主動要彩禮的女方家庭,一般都是以下幾種

娛樂看阿敞
2025-06-28 10:39:21
男子因熱射病不幸走了!醫生提醒:高溫寧愿啃雪糕,也別干這些事

男子因熱射病不幸走了!醫生提醒:高溫寧愿啃雪糕,也別干這些事

逍遙史記
2025-07-05 10:38:05
好消息,馬刺隊文班亞馬宣布血栓恐慌過后,已獲準復出

好消息,馬刺隊文班亞馬宣布血栓恐慌過后,已獲準復出

好火子
2025-07-15 04:05:04
徹底告別剛兌,30萬億銀行理財市場陷入“囚徒困境”

徹底告別剛兌,30萬億銀行理財市場陷入“囚徒困境”

鈦媒體APP
2025-07-14 15:05:16
2025-07-15 06:52:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13060文章數 66093關注度
往期回顧 全部

科技要聞

DeepSeek流量下滑,這半年梁文鋒都干了啥

頭條要聞

學者:九三閱兵不但要請特朗普 最好把日本首相也叫上

頭條要聞

學者:九三閱兵不但要請特朗普 最好把日本首相也叫上

體育要聞

高考數學滿分的他,說要成為1/3個鄧肯

娛樂要聞

秦嵐辛芷蕾聚餐熱聊 結束直奔魏大勛家

財經要聞

探究新茶飲賽道爆發的“內核”

汽車要聞

余承東親發預告:鴻蒙智行首款旅行車享界S9T來了

態度原創

本地
家居
數碼
房產
公開課

本地新聞

褲子那里鼓鼓的,當代都市麗人都被女裝做局了

家居要聞

悅己環境 藝術融入生活

數碼要聞

華為穿戴產品發貨超兩億只,其中 GT 系列超 5200 萬只

房產要聞

三亞,開啟新一輪大征收!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 香港 | 阜南县| 北川| 湖北省| 顺昌县| 宕昌县| 长葛市| 东城区| 登封市| 商南县| 马龙县| 广灵县| 连江县| 奉化市| 东平县| 阳山县| 玛纳斯县| 漳浦县| 易门县| 墨脱县| 五峰| 静海县| 固安县| 金湖县| 北辰区| 崇仁县| 祁阳县| 泰兴市| 襄汾县| 老河口市| 陵水| 汕头市| 昌邑市| 高青县| 博客| 图片| 荆门市| 庆安县| 界首市| 定陶县| 邵阳县|