99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<var id="a0fda"></var>

<var id="a0fda"></var><abbr id="a0fda"><strong id="a0fda"><dl id="a0fda"></dl></strong></abbr>

<pre id="a0fda"></pre>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Karpathy戳破強化學習神話，首提AI復盤式進化！暴力試錯將死

2025-07-14 11:06:26　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：桃子

【新智元導讀】強化學習，或許并不能通往AGI終點。Karpathy最新發文提出另一種Scaling范式，像人類一樣反思回顧，通過復盤學習取得突破，更多的S形進步曲線等待發現。

Grok 4能站在大模型之巔，全是Scaling強化學習立了大功。

如今，AI大神Karpathy站出來急潑一盆冷水：

RL只是把最終成敗的單一數值回傳，效率隨任務時長急劇下降。

而且，RL與人類「反思-提煉-再應用」迭代機制存在巨大差異。

RL短期有效

真正突破在于「復盤學習」

強化學習的本質是，某次行動表現良好（糟糕），就略微提升（降低）未來類似行動的概率。

這種方法通過驗證函數，比顯示監督取得了更大的杠桿效應，無疑是其強大之處。

然而，在Karpathy看來，從長遠角度來講，強化學習或許并不是最優策略。

長時程任務，RL局限顯現

首先，一旦任務交互時間增加到幾分鐘乃至幾小時，RL就遇到了挑戰。

想象一下，一個數小時交互的任務，最終卻只得到一個單一的標量獎勵，來調整整個過程的梯度。

這樣的反饋，能否足以支撐高效學習？

RL機制與人類差異顯著

其次，對于大多數智能任務而言，這感覺并不像人類的進步機制。

簡言之，RL的機制與人類智能提升方式，存在著顯著的差異。

人類會通過一個復盤/反思階段，從每一次推演中能提取到多得多的監督信息，比如「哪里做得好？哪里不太行？下次該試試什么？」等等。

從這個階段得到的教訓感覺是明確的，就像一個新字符串，可以直接添加到未來的系統提示詞里，也可以選擇性地在之后被「蒸餾」成權重/直覺，有點像睡眠的作用。

在英語里，我們說通過這個過程，某件事會成為人的「第二天性」，而我們目前正缺少這樣的學習范式。

這里，Karpathy提到了ChatGPT「記憶」功能，或許就是這種機制概念的一個雛形，盡管它目前只用于個性化，而非解決問題。

值得注意的是，在Atari游戲這類RL場景中也不存在類似的機制，因為那些領域里沒有大語言模型，也沒有上下文學習。

算法新設想：回顧-反思范式

為此，Karpathy提出了一個算法框架——

給定一個任務，先跑幾次推演，然后把所有推演過程（包括每次的獎勵）都塞進一個上下文，再用一個元提示詞來復盤/反思哪些地方做得好或不好，從而提煉出一個字符串形式的「教訓」，并將其添加到系統提示詞中（或者更通用地，更新當前的教訓數據庫）。

不過，他表示，這里面有很多細節要填充，有很多地方可以調整，具體怎么做并不簡單。

舉個栗子，大模型計數問題。

我們知道，由于分詞（tokenization）的原因，大模型不太容易識別單個字母，也不太容易在殘差流里計數。

所以，眾所周知，模型很難識別出「strawberry」里的「r」字母。

Claude的系統提示詞里就加入了一個「快速修復」patch——添加了一段話，大意是：「如果用戶讓你數字母，你得先用逗號把字母隔開，每隔一個就給一個顯式計數器加一，照這樣做完任務」。

這段話就是「教訓」，它明確地指導模型如何完成計數任務。

但問題在于，這種教訓要如何從智能體的實踐中自發產生，而不是由工程師硬編碼進去？它該如何被泛化？

以及，這些教訓如何隨著時間推移被蒸餾，從而避免讓上下文窗口無限膨脹？

最后，他總結道，RL會帶來更多收益，如果應用得當，它的杠桿效應巨大。

并且，深受「慘痛教訓」（bitter lesson）理論的啟發，RL優于監督微調（SFT）。

但它并不是完整的答案，尤其是隨著推演的流程越來越長。

在這之后，還有更多的S型增長曲線等待發現，這些曲線可能專屬于大語言模型，在游戲/機器人這類環境中沒有先例，而這，正是我覺得激動人心的地方。

OpenAI研究科學家Noam Brown對此深表贊同，「確實，未來仍有許多研究工作有待完成」。

AI初創公司聯創Yuchen Jin提出了一個有趣的觀點，全新訓練范式——課程學習，是一個自監督記憶+檢索+反思的反饋循環，無需任何外部獎勵信號。

一位網友很有見地稱，強化學習實際上是暴力試錯的一種方法，并非是明智的策略。

放棄無效RL研究

最近，關于強化學習的討論，成為了AI圈的一大熱點。

除了Karpathy本人下場，上周前OpenAI研究員Kevin Lu發長文稱，Transformer只是配角，放棄無效RL研究！

他直言，真正推動AI規模躍遷的技術是互聯網，而非Transformer，這也是你應該停止RL研究，轉投產品開發的原因。

眾所周知數據才是AI最重要的要素，但研究者們卻往往選擇回避這個領域...

究竟什么才是規?；刈鰯祿?？

互聯網提供了天然的數據寶庫：海量且多樣化的數據源、自然形成的學習路徑、反映人類真實需求的能力維度，以及可經濟高效規模化部署的技術特性——

它成為下一個token預測的完美搭檔，構成了AI爆發的原始湯池。

沒有Transformer，我們本可以用CNN或狀態空間模型達到GPT-4.5的水平。

但自GPT-4之后，基礎模型再未出現突破性進展。

專用推理模型在垂直領域表現優異，卻遠不及2023年3月GPT-4帶來的震撼級跨越（距今已兩年多...）。

RL確實成就斐然，但Kevin Lu對此深切擔憂，研究者會重蹈2015-2020年間RL研究的覆轍——沉迷于無關緊要的學術游戲。

如果說互聯網是監督預訓練的時代搭檔，那么什么才能成為強化學習的「共生體」，催生出GPT-1到GPT-4量級的飛躍？

Kevin Lu認為答案在于：研究-產品協同設計。

參考資料：

https://x.com/karpathy/status/1944435412489171119

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

突破多模態獎勵瓶頸！R1-Reward用強化學習賦予模型長期推理能力

量子位 2025-05-08 17:47:02
0 跟貼 0
科學家開發AI觸覺-視覺融合系統，突破機器人觸覺閉環控制

DeepTech深科技 2025-07-14 20:25:56
0 跟貼 0

用動作分塊突破RL極限，伯克利引入模仿學習，超越離線/在線SOTA

機器之心Pro 2025-07-14 14:15:58
0 跟貼 0

Qwen真是怪胎，獎勵錯了，模型反而更強，強化學習得推翻重來？

機器之心Pro 2025-06-04 21:44:30
0 跟貼 0
AI進化時間表已現！LLM每7個月能力翻倍，2030年職場不復存在？

新智元 2025-07-14 19:51:04
7 跟貼 7

不止會跳舞，還會做家務，掃地、做飯、關窗簾？擎天柱機器人又進化了

新智元 2025-06-01 01:36:14
0 跟貼 0

Gartner解讀2025中國十大AI趨勢：開源模型增強生態掌控力，超4成中國企業已試點Agentic AI

智東西 2025-07-14 21:56:11
0 跟貼 0
第一作者必須是AI！首個面向AI作者的學術會議來了，斯坦福發起

機器之心Pro 2025-07-14 14:31:55
10 跟貼 10

亞馬遜跳入AI編程紅海：不只是AI寫代碼更意在打造開發新范式

財聯社 2025-07-15 03:58:19
0 跟貼 0
傳統MVP模型不成立了，AI時代要更多預測剛需場景

量子位 2025-04-22 14:14:16
0 跟貼 0
大模型月級迭代下，金融AI Agent如何平衡創新與風險合規

每日經濟新聞 2025-05-19 23:01:58
0 跟貼 0
136張截圖,vivo開源DeepSeek R1式強化學習,提升GUI智能體預測

機器之心Pro 2025-04-08 18:40:57
0 跟貼 0
重構訓練框架，開源新方法：拋棄替代損失函數，僅需優化原始目標

量子位 2025-04-27 12:22:37
0 跟貼 0
字母D不是嘚兒一下子，車次前面的字母都表示啥意思？

人民網 2025-07-12 18:11:39
240 跟貼 240
特朗普的組合拳VS中國策略

錢在說 2025-07-14 18:47:24
10 跟貼 10
國外媽媽就是細心，給寶寶小腳丫做模型，既有紀念意義也可愛！

老沾看生活 2025-07-10 14:45:25
3 跟貼 3
我軍頂級的軍事天才只有一人，他打的仗，即使別人復盤也打不出來

全球直擊 2025-07-12 01:55:23
1 跟貼 1
景德鎮瑤里古鎮收門票致村民不滿，村民紛紛指引游客逃票，景區回應

極目新聞 2025-07-13 17:19:45
14256 跟貼 14256
黑化蛻變：新提路虎攬勝暗夜套件升級全記錄

老郭改大G 2025-07-14 18:54:33
4 跟貼 4
寓教于樂，字母樂園點亮鄉村課堂——三下鄉趣味英語課堂紀實

智慧中國新聞 2025-07-14 17:44:02
0 跟貼 0
深度科普：600多萬年前，外星人對黑猩猩基因改造創造了人類？

宇宙時空 2025-07-13 11:30:08
3 跟貼 3
這是什么陣法？中國太陽能發電進化感覺來到了外星球

生思孰慮 2025-07-13 09:01:27
0 跟貼 0
小學生磨耳朵，26個英語音視頻全整理，一鍵收藏！

成都商報教育報道 2025-07-14 10:17:48
0 跟貼 0
急著把本國女孩釘上恥辱柱，才是真“辱國格”

直言心語 2025-07-14 07:32:23
8509 跟貼 8509
王楚欽4比0戰勝張本智和，生涯第三次大滿貫男單奪冠

澎湃新聞 2025-07-14 11:08:31
3685 跟貼 3685
航母發展進化歷程，英國的航母之路

二叔胡侃 2025-07-13 08:57:18
0 跟貼 0
閑魚進化

經濟觀察報 2025-07-14 19:29:46
10 跟貼 10
植物為什么沒有大腦，難道是進化“失誤”嗎？

李雷博士 2025-07-14 00:05:03
3 跟貼 3
智齒的存在，或許恰好證明了人類是通過進化而來的

易會科普 2025-07-14 18:53:50
0 跟貼 0
現代版“浸豬籠”

燕梳樓頻道 2025-07-14 13:49:23
4229 跟貼 4229
男子辦公室翹著二郎腿嚼著個檳榔訓斥一個女生，女生跪地痛哭！

爆料視頻 2025-07-14 12:21:36
3460 跟貼 3460
巴西農民逆襲：用壕溝抵御野豬的驚人策略

全球見聞筆記 2025-07-12 08:39:27
2 跟貼 2
周歆昕，私自閱看有嚴重政治問題的網絡文本

新京報政事兒 2025-07-14 15:25:23
430 跟貼 430
氣象局真的不敢預報40℃嗎？權威回應來了

閃電新聞 2025-07-14 15:35:04
4223 跟貼 4223
浙江吳軒哲以687分成空軍招飛全國第一系徐楓燦學弟

環球網 2025-07-14 17:34:57
1791 跟貼 1791
從鉛酸到固態，動力電池的百年進化（1）：動力電池上車記

曉鶯說 2025-07-14 17:37:12
4 跟貼 4
印航空難調查后續：56歲機長成焦點人物，調查人員正審查飛行員的醫療記錄

紅星新聞 2025-07-14 14:53:20
1754 跟貼 1754
莎莎邊笑邊復盤，看得出來莎莎是滿意的

科技酷玩倉 2025-07-12 22:03:50
1 跟貼 1
100%國產化！我國首套，研發成功

海外網 2025-07-14 13:18:02
835 跟貼 835
王楚欽晉級男單決賽，賽后和王皓復盤相當激動，決賽加油！

金州體育 2025-07-13 19:45:56
0 跟貼 0

強制交易！拒絕加盟！火箭最大對手上演鬧劇，聯盟或許要失算了

強制交易！拒絕加盟！火箭最大對手上演鬧劇，聯盟或許要失算了

老侃侃球

2025-07-14 10:21:23

人均600萬到欠400億，毀掉“天下第一村”的不是別人，是他們自己

人均600萬到欠400億，毀掉“天下第一村”的不是別人，是他們自己

一家說

2025-05-23 15:05:58

洛夫頓全場登場18分鐘，投籃6中3得到8分3板2助

洛夫頓全場登場18分鐘，投籃6中3得到8分3板2助

懂球帝

2025-07-14 09:56:34

朱雨玲奪冠后，孫穎莎陳熠遭牽連

朱雨玲奪冠后，孫穎莎陳熠遭牽連

阿銍武器裝備科普

2025-07-14 20:09:19

再次抑郁風險！阿尼西莫娃未來將走向何方？

再次抑郁風險！阿尼西莫娃未來將走向何方？

網球之家

2025-07-14 23:12:33

圓了兒時的夢，莫德里奇曾留下身穿米蘭外套的老照片

圓了兒時的夢，莫德里奇曾留下身穿米蘭外套的老照片

懂球帝

2025-07-15 06:19:56

小老虎？！廣西又一縣委書記被查...

小老虎？！廣西又一縣委書記被查...

嶺南美玉

2025-07-15 00:24:18

朱雨玲收獲2000積分、10萬美元獎金，世界排名升至第六位

朱雨玲收獲2000積分、10萬美元獎金，世界排名升至第六位

懂球帝

2025-07-14 10:18:45

大反轉！德云社融入主流了：曲協主席馮鞏同德云社演員同臺！

大反轉！德云社融入主流了：曲協主席馮鞏同德云社演員同臺！

史書無明

2025-07-14 11:45:18

柯文哲：一旦武力收臺，最終獲勝的將是臺島，解放軍會傷亡慘重

柯文哲：一旦武力收臺，最終獲勝的將是臺島，解放軍會傷亡慘重

混沌錄

2025-07-14 22:39:12

獨家丨拼多多與香港順豐合作終止，網傳順豐CMO徐本松因“重大異常事件”被降級調離

獨家丨拼多多與香港順豐合作終止，網傳順豐CMO徐本松因“重大異常事件”被降級調離

號外工作室

2025-07-14 19:27:49

廢掉一個孩子，就讓他待在家里，一天到晚待在家里（深度好文）

廢掉一個孩子，就讓他待在家里，一天到晚待在家里（深度好文）

新東方家庭教育

2025-07-11 17:14:32

亞洲第一賭場新東泰覆滅記：性交易泛濫，富商瘋狂砸錢，揮金如土

亞洲第一賭場新東泰覆滅記：性交易泛濫，富商瘋狂砸錢，揮金如土

談史論天地

2025-07-02 20:45:03

拿到歐盟1.8億美元后，塔利班對中企翻了臉，中阿油田合作被終止

拿到歐盟1.8億美元后，塔利班對中企翻了臉，中阿油田合作被終止

流年拾光

2025-06-21 22:32:26

同學聚會我沒人理，當縣長的好友進來直接走向我：這個位置得給你

同學聚會我沒人理，當縣長的好友進來直接走向我：這個位置得給你

白云故事

2025-07-12 17:10:03

洪森失算！佩通坦正式就職，泰國絕對不辜負中國期待

洪森失算！佩通坦正式就職，泰國絕對不辜負中國期待

蘭妮搞笑分享

2025-07-15 01:42:39

發現了沒，凡是結婚不主動要彩禮的女方家庭，一般都是以下幾種

發現了沒，凡是結婚不主動要彩禮的女方家庭，一般都是以下幾種

娛樂看阿敞

2025-06-28 10:39:21

男子因熱射病不幸走了！醫生提醒：高溫寧愿啃雪糕，也別干這些事

男子因熱射病不幸走了！醫生提醒：高溫寧愿啃雪糕，也別干這些事

逍遙史記

2025-07-05 10:38:05

好消息，馬刺隊文班亞馬宣布血栓恐慌過后，已獲準復出

好消息，馬刺隊文班亞馬宣布血栓恐慌過后，已獲準復出

好火子

2025-07-15 04:05:04

徹底告別剛兌，30萬億銀行理財市場陷入“囚徒困境”

徹底告別剛兌，30萬億銀行理財市場陷入“囚徒困境”

鈦媒體APP

2025-07-14 15:05:16

AI產業主平臺領航智能+時代

13060文章數 66093關注度

往期回顧全部

科技要聞

DeepSeek流量下滑，這半年梁文鋒都干了啥

頭條要聞

學者：九三閱兵不但要請特朗普最好把日本首相也叫上

頭條要聞

學者：九三閱兵不但要請特朗普最好把日本首相也叫上

體育要聞

高考數學滿分的他，說要成為1/3個鄧肯

娛樂要聞

秦嵐辛芷蕾聚餐熱聊結束直奔魏大勛家

財經要聞

探究新茶飲賽道爆發的“內核”

汽車要聞

余承東親發預告：鴻蒙智行首款旅行車享界S9T來了

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

家居

數碼

房產

公開課

本地新聞

褲子那里鼓鼓的，當代都市麗人都被女裝做局了

云游中國|踏入時光長廊！岐山八景訴說古今歲月風華
建筑地標如何成為城市人才匯聚的 “強磁場”？
建筑地標如何成為城市人才匯聚的 “強磁場”？

家居要聞

悅己環境藝術融入生活

生活憧憬自由浪漫之境
美式簡約奢華不失優雅
以光為境國寶花園別墅

數碼要聞

華為穿戴產品發貨超兩億只，其中 GT 系列超 5200 萬只

房產要聞

三亞，開啟新一輪大征收！

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
你到底該和什么樣的人做朋友？
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：香港 | 阜南县| 北川| 湖北省| 顺昌县| 宕昌县| 长葛市| 东城区| 登封市| 商南县| 马龙县| 广灵县| 连江县| 奉化市| 东平县| 阳山县| 玛纳斯县| 漳浦县| 易门县| 墨脱县| 五峰| 静海县| 固安县| 金湖县| 北辰区| 崇仁县| 祁阳县| 泰兴市| 襄汾县| 老河口市| 陵水| 汕头市| 昌邑市| 高青县| 博客| 图片| 荆门市| 庆安县| 界首市| 定陶县| 邵阳县|

<var id="rtqke"></var>

<tt id="rtqke"></tt>

<pre id="rtqke"></pre>

<del id="rtqke"></del><table id="rtqke"></table>