(關注公眾號設為標,獲取AI深度洞察)
全文 7,000字 | 閱讀約35分鐘
(視頻為:谷歌DeepMind 強化學習副總裁David Silver的最新采訪)
大模型正熱。
GPT 每兩個月迭代一代,Gemini、Claude、DeepSeek 卷得飛起。
公司之間卷參數,員工之間卷微調,連簡歷上沒寫“Transformer”三個字都不好意思投。
可就在所有人都在“調教 AI”時,有個人卻在提醒我們:
“AI 的進化,不該靠喂知識,而該靠試錯。”
他不是局外人。他是 AlphaGo 強化學習系統的首席設計者,也是 AlphaZero 架構的關鍵負責人,谷歌 DeepMind 強化學習副總裁——David Silver……
在最近DeepMind 官方播客中,他提出了一條正在被主流忽視的 AI 路線:
“AI 最大的能力,從來不是記住人類的答案, 而是去發現人類不知道的東西。”
在這個只看參數大小的時代,他反而相信:AI 不該只會答題,它得先學會犯錯。
一、為什么不再卷大模型?
在 GPT發布之后,全世界都在卷大模型。
Gemini、Claude、Grok,一個接一個上分布,參數不斷刷新紀錄,語料越訓越多。
所有人都在談 prompt,調 RLHF,卷微調,連論文都在比誰的 tokenizer 更巧妙。。
但與此同時,一些觀察者也開始提出疑問:
“這些模型真的更聰明了嗎? 還是只是更會說話?”
DeepMind 內部并沒有放棄大模型,但 Silver 正在力推一條容易被忽視的支線。
不是更大、更多、更強。 而是讓 AI “像人一樣犯錯,從錯誤中進化”。
1、另一個聲音:不是更大,而是更對
DeepMind 一邊在推進 Gemini,但也在靜靜地構建另一條路徑:
由 David Silver 主導的強化學習、自我成長式 AI。
這不是“舊技術翻炒”,而是對當下大模型路徑的一次“輕微調整”。
“在 Silver 看來,關鍵問題不是“做不做得出更大的模型”,而是“做出來后能不能成長”。”
David Silver 不是營銷口的人物,他是 AlphaGo 背后的強化學習架構設計者。
在谷歌 AI 的戰略版圖上,他不是“提出想法的人”,而是“推動路線的人”。
他不常接受采訪,但在他看來,AI 真正的成長,不靠人類數據的“喂養”,而要靠自己“撞南墻”,在失敗中修正。”
2、不再相信“參數+語料”就能走向智能
你看現在所有的大模型玩家:
誰擁有更多數據,誰就能訓練得更擬人;
誰調得 prompt 更精細,誰就能回答得更像人。
但 David Silver 不這么看。
在他看來,這種靠堆數據、灌人類經驗的方式,很快就會觸頂。
你永遠只能教 AI 你知道的,而永遠教不了它你還不知道的。
真正強的 AI,不是“吸收完人類知識”,而是“能發現人類不知道的東西”。
這些,都是大模型無法完成的任務。
3、所以DeepMind 可能在做什么?
一句話:
它沒有放棄大模型,但它知道,大模型可能不是終點。
真正的終點,是讓 AI 有“自主性”——像人一樣試錯、像孩子一樣探索、像科學家一樣提出問題。
這條路徑不是空談,而是在圍棋、數學、搜索等系統中,已經得到了初步驗證。
而它可能不是媒體熱度最高的那條,但它也許才是最值得企業關注的那條“AI 境界線”。
二、AI 的真正能力:不是記住,而是試錯
David Silver 不喜歡炫技,比較低調。
他不像 Demis Hassabis 那樣總是站在聚光燈下,也不怎么在媒體發言。
但業內都知道,他是 DeepMind 技術底盤的奠基人之一,尤其是圍棋 AI —— AlphaGo 和 AlphaZero 的靈魂人物。
1、不是“預訓練模型”,而是“經驗成長體”
Silver在播客表示:這幾年,自己一直在反復講一個被忽視的觀點:
“我們正從人類數據時代,走向經驗時代。”
什么意思?
他說,現在的 AI,大多數還活在一個“人類灌輸”的階段。
你告訴它怎么寫簡歷、怎么寫代碼、怎么當客服,它就照著做。
它從沒犯過錯,也從沒被允許犯錯。
在播客中,主持人 Hannah Fry 直接問了一個關鍵問題:
“所以,如果我們去掉人類反饋,AI 還能學會正確的事嗎?”
David 的回答是:
“如果你想讓 AI 超越人類知識,那就必須讓它脫離人類反饋。 它要靠自己,去試,去錯,去失敗,去調整。”
這,就是他提出的“經驗時代”。
2、AI 不會失敗,就永遠不會進步
Silver 解釋說,現在的主流模型依賴的是“人類數據”和“人類判斷”。
但問題在于——人類的數據也會誤導 AI,甚至阻止它真正去探索新的可能。
“我們給了 AI 一堆食譜,但它從沒下過廚房。 人類說‘這看起來不錯’,可它從沒真的嘗過蛋糕。”

主持人 Hannah 聽完這段,還調侃說:
“也許它真應該做一塊怪味馬芬蛋糕(Muffin cake),然后發現其實很好吃。”
Silver 笑著回應:
“對。創新就藏在那些‘人覺得怪’的嘗試里。 如果我們老是插手,就永遠不會有 Move 37。”
3、“經驗時代”的三層含義
David Silver 播客里面提出的“經驗時代”(Era of Experience),有三層含義:
1?? 數據來源不再來自人類寫的內容,而是 AI 自己在環境中的行動
2?? 反饋方式不再是“人類打分”,而是由真實環境結果來判定對錯(比如輸了就是輸了)
3?? 學習過程不再是“知識灌輸”,而是“行為試錯 + 動態反思”
所以他說:
“人類數據,就像是 AI 的化石燃料。 它可以快速起飛,但我們需要更可持續的‘經驗燃料’。”
這句話,就像給整個行業兜頭潑下一盆冷水。
這訪談第一節結束時,主持人總結道:“我們訓練它回答問題,卻從沒訓練它‘提問’。”
對此, David Silver 給出的回應,也是整場訪談中最讓我難忘的一句:
“AI 最大的能力, 從來不是記住人類的知識, 而是去發現人類不知道的東西。”三、AI 靠犯錯變強的兩個案例

David Silver 的理論,并不是空談。
他在 DeepMind 親自操盤的兩個項目,已經實打實地驗證了“經驗智能”的威力:
一個是我們熟知的圍棋 AI —— AlphaZero,
一個是近年大放異彩的數學 AI —— AlphaProof。
它們共同的特點是:
它們的共同特點不是模仿人類,而是從零起步、在環境中自我生成經驗。 沒有依賴人類偏好反饋,也沒有靠提示詞指令優化,而是靠自己試,自己錯,自己提升。
1、AlphaZero:從零開始學圍棋,一步步變成世界冠軍
AlphaZero 的成功,很多人知道,但很多人沒意識到:
它沒有學過任何一盤人類棋譜。
所以說,不像 AlphaGo 初版靠人類棋手的數據“起步”, AlphaZero 一上來就是“白板狀態”。
Silver 的團隊給它的,只有規則,沒有經驗。
唯一的訓練信號只有:
贏了 +1,輸了 -1。
它靠這個極簡的反饋,自己對弈、試錯、優化——每天幾百萬盤棋,
下輸了?改策略。
再輸?再改。
不斷迭代,不斷試錯,最終達到人類前所未有的水平。
David Silver稱之為:
“不是在學習知識,而是在發現模式。”
這也意味著:它不在乎人類怎么下棋,它只關心——“這樣下,我能不能贏?”
而這就是“經驗智能”的起點。
2、那個震撼世界的“Move 37”,其實是“錯著錯著”走出來的
圍棋界最出圈的一手,是 AlphaGo 在對陣李世石的第二局所下的“第 37 手”。
它不是人類邏輯中該出現的走法,甚至一開始連 DeepMind 團隊自己都看懵了。
Hannah Fry 在播客中說:“Move 37 看起來像魔術。” David Silver 回應得很冷靜:“它只是從失敗中學到,那是勝率最高的下一步。”
那一手棋,如果你讓人類反饋系統去訓練,是永遠不會出現的。
因為所有人類標注者都會說:“這手太怪了,應該打低一點。”
但也正是那一手棋,終結了人類對圍棋格局的長期認知。
3、AlphaProof:當 AI 不再“解題”,而是開始“證明定理”
圍棋能用試錯做,數學呢?
DeepMind 用 AlphaZero 的架構做了一個激進的實驗,叫 AlphaProof。
任務不是下棋,而是:自己推理、自己證明、自己構建一個邏輯嚴密的數學體系。
它沒有使用語言模型解題思路,也沒有借助人類講解,只有形式化定理構建出的訓練環境。證明成功 +1,失敗 -1。
一開始,它幾乎全軍覆沒。
“99.999% 的定理都證明不了。”Silver 回憶說,“一開始我們都覺得完蛋了。”
但它堅持“撞墻式試錯”:
反復失敗 → 修正路徑 → 逐步建立數學“直覺”,
最終,它能輸出一整套嚴密可驗證的數學證明,被頂尖數學家認為“有結構感”。
在 DeepMind 模擬的國際數學奧林匹克測試中,AlphaProof 達到了“銀牌”級別(前10% 選手水平)。
4、“學會怎么學”——系統進化的新起點
Silver 在訪談中還透露了一項延伸實驗:
讓他們讓系統在 AlphaProof 的過程中,自動學會如何進行強化學習本身。。
也就是說,AI 不再等人類告訴它怎么學,而是:
自己學會“怎么學”。 “它跳到了元層面(meta-level),學出一種執行強化學習的算法, 而且它的表現,比人類幾十年發明的 RL 方法還要好。”
當然,這仍屬于研究階段,但它釋放的信號已經足夠明確:
強化學習不僅是“行動力”的來源,未來還可能成為 AI 自我演化的起點。
5、真正強的 AI,不是知道答案,而是能承受過程
David Silver 在總結AlphaZero 和 AlphaProof 的成功時候說:
“它們不是被教會了‘怎么做’,而是在試錯中建立了‘判斷力’。”
這種判斷力,不依賴數據、不依賴模板、不依賴提示詞, 而是 AI 自己從世界中萃取出來的“經驗智慧”。
這也許就是我們與真正強 AI 的分水嶺:
大模型能模仿你寫的詩,但不會提出你沒見過的命題;
多模態系統能識別圖片里的貓,但不能發現某種未知生物的規律;
參數越大,記得越多,但如果不會“試錯”,它終究只能活在過去。
Alpha 系列的貢獻,不僅是贏棋、解題,更是讓我們看見了——
AI 也許可以不靠人類經驗,也能通過“撞墻”走出自己的知識地圖。
四、強化學習不是舊路,而是 AI 的操作系統
過去幾年,大語言模型成為了 AI 舞臺的主角。 大家在追 GPT、調 Gemini、等 Claude,爭搶“最會說話”的模型。
誰更像人,誰就贏得更多關注。
而那個曾帶來 AlphaGo 奇跡的技術路線——強化學習,似乎被人遺忘。
但它沒有消失,只是退到了幕后。
從機器人控制,到科學發現,從自動駕駛到數學定理證明,強化學習依然活躍在技術的深水區。
David Silver,作為 AlphaGo 的技術靈魂,也從未離開這條路。
在大模型狂潮席卷的同時,他清晰判斷:強化學習的價值,其實才剛剛開始被理解。
1、如果大模型是“訓練寵物”,強化學習就是“養孩子”
主持人 Hannah Fry 拋出一個問題:
“如果我們去掉人類反饋,那些模型還會有‘扎根感’嗎?”
David Silver 很干脆地反駁說:
“不,所謂的人類反饋,其實并不扎根。
我們在做的是:系統先輸出一句話,然后讓人類說‘好’或‘不好’。
但真正的智能,不是人覺得好,而是世界驗證它好。”
他說得很直白:
“你讓 GPT 給一個菜單, 人類看了一眼覺得‘不錯’,但沒人真的去烤,也沒人真的嘗。”
這不是智能,這是“看起來聰明”。
而強化學習最大的優勢就是:
讓系統必須承擔“后果”。
你走錯一步,輸了,那就重新來。 你答錯一次,就等著下一輪繼續修。
它不需要“人覺得好”,它只需要“能贏”。
Silver 把這稱作 AI 的信用分配問題(credit assignment problem)。
這和人類學走路、學說話,是一樣的。
2、AlphaGo 的成長秘訣,其實是“沒有人插手”
Silver 在播客中反復說了一句非常關鍵的話:
“如果我們在 AlphaGo 訓練時,每一步棋都讓人來打分, 它永遠也學不會驚人表現。”
主持人 Hannah 立刻反應:
“對啊,它只會去模仿人覺得‘好’的走法,而不是自己去試那種‘人沒見過’的路。”
這段對話,非常關鍵。
它揭示了:強化學習最大的價值,不是找最優答案,而是探索“未知策略空間”。
你甚至可以說:
強化學習,就是讓 AI 有膽子“亂來”一次。
而所有真正的突破,幾乎都來自“亂來”之后的自我修正。
強化學習的三個關鍵點,恰好是大模型的短板
強化學習系統本質上是一個自循環反饋引擎,你不給它標準答案,它反而能自己建立一套解決系統:
自己出題(比如對弈、推理)
自己嘗試解答(執行策略)
自己承受后果(勝負/證明)
自己承受后果(勝負/證明)
正如 Silver 在播客中反復強調的那樣:人類反饋只適合當起點,——必須交給環境。
3、所以強化學習不是“回歸”,而是一次戰略升級
大模型教它如何說話、怎么應答;強化學習教它如何感知世界、行動決策、承擔后果 —— 像個真正的智能體一樣“活著”。
它不是落后路線,而是通往“認知智能”的下一跳。:
從“語言理解”到“行動判斷”
從“記住歷史”到“創造新經驗”
從“只能模仿”到“敢于試錯”
而在 Silver 代表的 DeepMind 技術路線中,強化學習的意義在于:
用強化學習,打通 AI 從“理解語言”到“獨立行動”的最后一公里。
這才是一個智能體真正站起來的瞬間。
你以為強化學習已經退場?不。
OpenAI 的 ChatGPT 背后的 RLHF,就是強化學習的一種現實變體;
NVIDIA 用強化學習訓練機器人實現抓取、行走和自主導航;
DeepMind 在排序算法(AlphaDev)、數學證明(AlphaProof)等任務上,仍然堅持強化學習作為主干方法。
強化學習沒有消失,,它只是被埋進了 AI 的“操作系統”。
所以,如果 GPT 是大腦,強化學習,就是脊椎。
五、誰需要會犯錯的 AI?
過去幾年,大模型成了企業技術路線的“政治正確”。
誰掌握了更多參數,誰就似乎更強大; 誰發得出更新模型,誰就似乎更有未來。
一個不敢慢下來的時代,一旦有人提“換方向”,都會顯得像離經叛道。
但當DeepMind副總裁在嘗試推動一條非語言模型主導的“試錯智能”路線時,我們也該問自己一句:
“我們卷的是正確方向嗎?”

1、“寫得對”≠“做得成”:企業在假裝聰明的 AI 上花太多錢
你有沒有聽過類似的場景?
“我們這邊大模型還在訓練,但 prompt 不太穩定。”
“能不能調一下微調數據?這輪又 overfit 了。”
“先做個對話 demo,用戶看不懂不要緊,能播出來就行。”
聽起來都挺“懂 AI”,但其實是把 AI 當成一個“說得像人”的展示系統。
但本質上,是在跟“看上去聰明”的系統對話。
GPT 系列能寫方案、寫代碼、寫匯報……但它能判斷結果是否成功嗎?能修正?能反思?
它的“聰明”,其實是借來的。
而真正能陪你做決策的 AI,是 David Silver 所定義的那類“愿意試錯、能自我修正、對結果負責”的智能體。
這才是未來能融入組織的 AI 同事,而不是“展示給客戶看的道具”。
2、企業不是論文集,AI 模型不是越大越值錢
我們在企業落地中看到一個普遍現象:
為什么會這樣?
因為企業常常誤把“AI 能力”理解為“語言能力”,而不是“行為能力”。
你能讓一個 AI 寫出一本員工手冊,但它能不能在真實業務中試過、錯過、學會判斷?
你能讓它輸出一個市場方案,但它能不能根據反饋自動調整方向?
“不會犯錯的 AI,永遠也學不會成功。”
3、誰最需要會犯錯的 AI?
答案是兩個字:組織。
一個組織最怕的,不是“模型不夠大”,而是“系統不會成長”:
你今天給它輸進一堆知識,它會背,但明天知識換了,它就廢了;
你今天告訴它怎么操作,流程一改,它立刻懵了;
你今天手動調參調 prompt,明天業務變了,訓練全白干。
而一個能犯錯、能修復、能從經驗里成長的 AI,才有可能變成組織的真正延伸。
它是自適應的,是可塑的,是有“方向感”的。
David Silver也和Sam Altman一樣,說了一句令人印象深刻的話:
“AI 的下一階段,不是‘更會說話’,而是要像人一樣具備判斷、犯錯和成長的能力。
不是靠記憶力贏,而是靠判斷力贏。
不是靠參數撐住,而是靠經驗走遠。
這也是DeepMind為什么敢賭試錯智能—— 因為他們知道,或許真正能跟組織共生的 AI,不是完美的那一個,而是能成長的那一個。
模型再強,也終將過時;唯有能犯錯的智能體,才能走得更遠。
六、AI下一階段進化
GPT 能寫詩,Midjourney會畫畫,Gemini 精通十幾種語言。 它們像神一樣流暢,像人一樣健談,像百科一樣有問必答。
它們從不猶豫,從不后悔,
也從不需要為自己做出的決定承擔后果。
這,是我們現在大多數 AI 的真實狀態:
強,但不懂后果;
準,但不敢冒險;
快,但無法修正;
聰明,卻沒有成長。
1、AlphaGo 給人類的第一課,不是“贏”
2016 年,AlphaGo 戰勝李世石,世界震驚。 人們以為它代表的是“AI 的勝利”。
但 David Silver 在播客中回顧那場比賽時說:
“我們最大的收獲,不是贏了人類,而是發現了人類從沒見過的路。”
那手被稱為“Move 37”的神來之筆,并不是某個天才程序員設計的。
它不是天賦的體現,而是試錯的結果。 它是在數百萬次失敗中,系統自己找出來的‘勝率更高的方式’。
那手棋,是 AI 第一次真正“創造”了人類沒見過的知識。
這,才是智能。
2、AI 要變強,不是靠
記憶,
而是靠經驗
David Silver 說這樣一句話,應該被所有 AI 使用者、技術團隊和企業家寫在會議室里:
“只有能犯錯、敢犯錯的 AI,才能真正進化。”
試過,才會判斷;
錯過,才會總結;
摔倒,才會站起來。
現在的大模型,的確可以生成答案、優化流程、幫助決策。
但只有具備試錯能力的 AI,才能:
隨環境適應,像人一樣調整策略;
面對失敗不慌,像人一樣總結經驗;
做出選擇時有因果鏈,而不是模糊概率。
它不完美,但它成長。
這,才是下一階段人工智能的模樣。
留給我們的問題是:
在這個什么都可以訓練、所有人都在升級算力的時代, 你敢不敢放棄“正確答案”, 讓 AI 去摔一次跤?
這不僅是技術路線的選擇,
也是企業智慧的判斷,
更是我們在 AI 時代,留給自己的一次“成長機會”。
感謝你讀到這里。
如果這篇文章讓你重新思考了 AI 的未來,
不妨轉給那個總說“我們也做個大模型”的領導,
或者那個正試圖用 prompt 解萬事的同事,
還有那個對 AI 又愛又怕、其實正是你自己的那個自己。
留言告訴我:你更希望擁有什么樣的 AI?
**特別說明:** 本文基于 David Silver 在《Google DeepMind: The Podcast》中的訪談內容整理而成,觀點僅代表其個人學術與技術立場,不代表谷歌或 DeepMind 的官方戰略。我們尊重每一種探索 AI 的路徑,也歡迎不同聲音的碰撞與交流。
本文由AI深度研究院出品,聚焦全球 AI 創新浪潮中的企業轉型策略。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:https://www.youtube.com/watch?v=zzXyPGEtseI&t=1465s&ab_channel=GoogleDeepMind
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.