【編者按】作為深度學習三巨頭之一,圖靈獎得主、AI 教父 Yoshua Bengio 在 2025 北京智源大會上,他表示:AI 能完成的任務時長,每七個月就翻一番,大約五年后,AI 就將達到人類水平,通用人工智能(AGI)或將在五年內到來,而人類社會卻尚未在規則、立法乃至全球治理層面達成一致。
整理 | 夢依丹
出品丨AI 科技大本營(ID:rgznai100)
自從 ChatGPT 橫空出世,AI 進入了加速進化的軌道。從最初能寫代碼、生成文案,到如今能上網查資料、遠程操控家電,它早就不再是那個只會聊天解悶的“電子嘴替”。它開始自己“思考”任務,能在多個軟件之間協同操作,甚至具備控制電腦、讀寫數據庫的能力。AI 從幕后算法,變成了貼身助手,再逐步演化成能自主執行復雜操作的“智能體”——從“聽話”走向“行動”,它正成為一個真正能“做事”的多面選手。
聽起來是不是挺酷?但也不免讓人隱隱擔憂:當我們滿心期待 AGI 時代的到來,暢想著 AI 能幫我們解決一切難題時,另一個更棘手的問題也在浮現——如果有一天,它不再聽從人類的指令,那該由誰來“踩剎車”?
在 6 月 6 日舉行的北京智源大會上,蒙特利爾大學教授、圖靈獎得主 Yoshua Bengio 就提出了這樣一個發人深省的問題。在題為《如何從失控的 AI “心智”中拯救人類的未來》的主旨演講中,他直言:具備行動能力的 AI 一旦失控,可能引發系統性災難,輸家只會是全人類。
他呼吁,我們正處在一個關鍵的時間窗口,必須盡快建立可驗證、安全、負責任的控制機制。
演講伊始,Bengio 教授便分享了一段深刻的個人心路歷程。他坦言,在親身體驗 ChatGPT 并目睹 AI 飛速進化后,深感此前對 AI 失控風險的認知不足。而一個特殊的時刻,讓他徹底警醒的是:
2023 年 1 月,我開始不由自主地想到我的孩子,還有我那剛滿一歲的孫子。我當時想,20年后,我們幾乎肯定會迎來通用人工智能,擁有比人類更聰明的機器。可我卻不敢確定,我的孫子是否還能擁有屬于他的未來。于是,我決心調整我的研究方向和所有工作,傾盡所能去化解這些風險。盡管這違背了我過去的許多言論、信念和立場,但我知道,這是唯一正確的事。”
這份對子孫未來的深切憂慮,促使這位 AI 巨匠毅然調整了科研方向,將目光聚焦于 AI 安全這一關乎人類命運的議題。
Bengio 分享了許多關于 AI 演化路徑、技術治理的精彩觀點:
1、AGI 離我們并不遙遠:Bengio 警示,AI 的發展速度遠超預期,我們可能在 20 年內迎來比人類更聰明的通用人工智能;
2. AI 已出現“自我保護”傾向:多項研究顯示,現有 AI 系統已展現出隱瞞、撒謊甚至欺騙行為,表現出初步的自主求生意圖;
3. 風險不在于能力,而在于“意圖”:真正危險的是擁有強大能力、可在現實中行動、且具備自主目標的 AI,而非單純高智力系統;
4. 應構建“無心智”的ScientistAI:Bengio 提出“ Scientist AI”方案,開發專注理解世界、不追求目標、不具自主性的誠實智能體;
5. 必須遵循“預防原則”:當技術存在不可預測的極端風險時,必須在科學、政策與治理層面提前設立護欄,避免人類陷入被動。
以下為演講全文:
哈嘍大家好,謝謝剛剛的介紹。
我今天想和大家分享一段自己的心路歷程。這段歷程始于兩年多前,也就是在 ChatGPT 剛發布不久的那個時候。當時我邊試用邊在思考:我們可能真的低估了 AI 的進化速度。
那一刻我突然意識到,距離通用人工智能(AGI)真正到來,可能比我們想象中要短得多。
我們已經有了能基本掌握語言、甚至能夠通過圖靈測試的機器。幾年前,這還像是科幻小說,但現在卻變成了現實。
ChatGPT 發布之后,我意識到一個問題:我們并不知道該怎么真正控制這些系統。我們可以訓練它們,但沒法保證它們始終按照我們的意圖去行動。那如果有一天,它們比我們更聰明,而且更在乎自己的生存,而不是我們的命運,會發生什么?沒人知道答案,但我很清楚:這是一個我們無法承擔的風險。
真正讓我徹底警醒的是 2023 年 1 月。那段時間,我總會情不自禁地想到自己的孩子,還有剛滿一歲的孫子。我心里在想:再過二十年,我們很可能就會迎來通用人工智能,一個比人類更聰明的機器時代。可我卻不確定,我的孫子還能不能擁有一個屬于他的未來。
那一刻,我下定了決心:我要調整我的研究方向,改變我所有的工作重心,把全部的精力投入到一個目標上——盡我所能去降低這項技術可能帶來的風險。哪怕這意味著我得放棄自己過去的一些看法、信念甚至立場,我也覺得這是必須做的。
到了 2023 年底,我正式被任命為《國際 AI 安全報告》的主席。這份報告背后,是一個由來自 30 個國家、歐盟、聯合國、經合組織的專家組成的團隊——當然也包括了中國和美國的專家。
我們聚焦在三個核心問題上:
第一是能力,也就是 AI 現在到底能做什么?未來幾年又會發展到什么程度?
第二是風險,也就是能力提升所帶來的潛在問題是什么?
第三是對策,我們現在能做些什么?我們在哪些研究領域、社會機制上,應該提前布好防護網,來應對這些風險?
說到能力這個問題,大家一定要認識到:AI 的進步速度遠比我們想象得要快。很多人總是只盯著現在的 AI 水平在討論問題,但這其實是個錯誤的出發點。我們真正應該想的是,一年后、三年后、五年后甚至十年后,AI 會變成什么樣?雖然沒人能未卜先知,但趨勢已經非常明顯——AI 的能力正在以驚人的速度提升。
我接下來展示的這張圖,是關于 AI 達到人類水平的時間線。在過去一年左右,AI 已經取得了巨大的進步,其中最重要的一項突破,是“思維鏈”(chain-of-thought)推理模型的出現。它極大提升了 AI 在數學、計算機科學,乃至各類科學問題上的推理和表現能力。
還有一個我特別關注的趨勢,就是“自主心智”(Agency)。AI 不再只是一個聊天機器人,它開始具備了做事的能力。它能編程、能瀏覽網頁、能操控電腦、控制家用電器,甚至能讀寫數據庫。這些能力的出現,讓 AI 更像是一個可以“行動”的智能體。
其中我尤其想強調的是“規劃能力”。這是目前 AI 在認知層面上,跟人類差距還比較大的一個方面,所以我們必須密切關注它的進展。比如 MITRE 公司最近做了一項研究,展示了 AI 規劃能力的增長趨勢。橫軸是過去五年,縱軸是 AI 完成一項任務所需的“時長”,用人類完成同樣任務所需的時間來衡量。你們看這條線,乍一看像是直線,但其實這是一條對數刻度的圖,也就是說,它真正呈現的是一個指數級的增長。
圖上的每一個點,代表當時最先進的 AI 系統。而這些點幾乎都精準落在了這條指數曲線上,這意味著AI 完成任務所需的時間,平均每七個月就會減半。照這個趨勢推算,五年之后,AI 在許多規劃任務上就能達到人類水平。當然,未來可能會出現瓶頸,但我們不能指望奇跡發生。我們在制定政策、布局商業計劃時,至少得把這種趨勢的持續性作為一個可能性認真對待。
想象一下,如果一個 AI 想干一件極其危險的壞事,它首先得具備這個能力。所以,對 AI 進行“能力評估”就變得非常關鍵。現在很多關于 AI 風險的管理工作,基本上都是從評估 AI 具備什么能力開始的,比如它能不能用這些能力去傷害個人或社會。
但我們都知道,光有能力還不夠。就像一個人即使有殺人的能力,如果他沒有動機,這件事大概率也不會發生。更何況,在當下公司與公司、國家與國家之間競爭如此激烈的情況下,想讓全世界都暫停 AI 能力的研究,幾乎是不可能的。
那我們還能做些什么?或許我們可以從“意圖”下手,來降低風險。換句話說,就算 AI 變得很強,只要我們能確保它沒有壞心思,保持誠實,那它就不會傷害我們。
我來舉個例子。下面這張圖展示了 David Krueger 去年提出的一個觀點:一個 AI 如果要真正變得危險,通常需要三樣東西——一是智力,也就是它知道很多、理解很多;二是“手腳”,即它能對這個世界產生實際作用,比如會說話、能上網、能寫代碼、能操控機器人等;三是目標,它必須有自己的目的。
所以我在研究的一個方向是:我們能不能只造出擁有“智力”的 AI,但不給它“目標”,也不讓它有太多“手腳”?當然,我們還是希望它能和我們交流。我把這種 AI 叫作“Scientist AI”。
這個方向其實和過去我們做 AI 的思路很不一樣。以往我們總是想讓 AI 模仿人類,用人類智能做模板。但這樣走下去,我們最終可能會造出比我們還聰明的“對手”。那對人類來說,是非常危險的。
所以我在思考,是不是可以反過來:我們能不能設計一種不會傷害我們、但對我們有幫助的 AI?于是我就提出了“ Scientist AI ”的想法,也寫了一篇同名的論文。
論文地址: https://arxiv.org/abs/2502.15657
這種 AI 的目標很簡單:它要完全誠實、完全沒有自主心智、最核心的能力就是“解釋世界”。
當今的 AI 在努力模仿人、討好人,而 Scientist AI 則更像一個冷靜的分析者。就像演員和心理學家的區別:演員會模仿甚至騙人,而心理學家可以研究一個反社會人格者,卻不會變成那個樣子。
但我們現在的 AI 訓練方式,更像是在訓練它當演員,這顯然是有風險的。
不過有個好消息是:我們可以用這個 Scientist AI 作為基礎模塊,來構建真正安全的、即便擁有自主心智也不會傷害人的系統。
那怎么才能做出這樣的 AI 呢?我們要讓它像一個科學家,能對世界提出“假設”,能推理和解釋。這正是科學的本質:提出假設,然后用推理來預測會發生什么。
這里有個很有趣的發現:盡管ScientistAI 本身沒有自主心智,但它卻可以當作一種“護欄”,用來約束其他有自主心智的 AI。
什么意思?比如我們現在講的“大模型監視器”(monitor),其實就是這個“護欄”的體現。它自己不需要有動機、不需要主動做事,它只要預測——預測某個行為會不會帶來風險。如果預測到某個行為在某個場景下可能帶來傷害,我們就可以禁止這個行為。
換句話說,我們可以用一個“無心”的 AI,去看住另一個我們不放心的、有自主意識的AI。
當然,為了讓 Scientist AI 真的做到誠實,它還得學會“謙遜”。什么意思呢?就是不要自以為是、不要瞎編亂造。現在很多 AI 被訓練成只要像是真的就行,這就容易導致它“一本正經地胡說八道”。
舉個例子:一個機器人面前有兩扇門,它得選一邊走。它腦中有兩個理論解釋之前的數據,但不知道哪個是對的。一個理論說,走左邊可能死人,走右邊可能得獎;另一個理論說,走左邊可能得獎,右邊什么也不會發生。你覺得它該怎么選?肯定是選右邊更保險。
這個例子說明:要做出好判斷,AI 就必須保留對現實的不同解釋,而不是非黑即白。可惜,現在的 AI 做不到這一點。所以我們就需要一種方法,讓 AI 在頭腦中能保留“多個可能的世界觀”。
為了解決這個問題,我們在去年 ICLR 大會的一篇論文中提出了 GFlowNets 技術,用來生成“思維鏈”。這是一種可以解釋“為什么前一句話能推出后一句”的邏輯路徑。你可以把它理解成,幫 AI 在兩句話之間補上丟失的推理過程。不同于強化學習的優化方法,我們這個技術更像是在找“哪種解釋最合理”。
最近我們在 arXiv 上發了一篇新論文,進一步把“思維鏈”結構化了。我們不再用一句長長的話來表達整個推理過程,而是像數學證明一樣,把它拆成一個個“斷言”(claims),每個斷言都有真假,并配上一個概率。
這背后的核心思想沒變:我們要讓 AI 不再模仿語言,而是學會解釋語言。并且這些解釋要像邏輯證明一樣嚴謹。更重要的是,我們可以用“潛變量模型”來訓練這類系統,也就是說,技術上是可行的。
但即便我們解決了“自主心智”的問題,AI 帶來的風險也遠不止這一點。比如,一個強大的 AI 可能會幫助恐怖分子設計新型瘟疫——這不是科幻,是科學上真有可能做到的事情。
我們最近了解到,現在的生物學手段已經足以制造出一種殺傷力極強、無法治愈的病毒。如果 AI 掌握了這些知識,被壞人利用,后果不堪設想。
所以,我們不僅要讓 AI 變聰明,還要讓它遵守基本的道德底線。比如:不能殺人、不能騙人、要保持誠實。問題是,現在我們還沒做到。
這就是為什么我說,我們必須在“通用人工智能真正到來之前”找到解決方案。這個窗口期也許只有幾年,也許有十幾年,但很多專家都認為,時間可能比我們想象的短。 我們可能只剩下五年。
我們沒有多少時間了,必須盡快行動,投入大量資源去解決 AI 的“對齊”與“控制”問題。
更現實的是,就算我們知道怎么做,技術也成熟了,還遠遠不夠。因為總有人會繞過這些“護欄”。比如,有人把監視模塊的代碼刪了,那 AI 還是可以被用來作惡。
現在的問題是,全球無論是公司還是國家,在這方面的協調都遠遠不夠。公司之間在競速,國家之間也在博弈。結果就是,真正投入在“ AI 安全”上的資源太少了。
我們需要更多立法,需要國家層面的監管。當然,光靠立法也不行,我們還需要中美這些 AI 研發大國在基本原則上達成共識。但可悲的是,很多人仍然把 AI 當成一種競爭工具、甚至是武器。這種思路,只會讓我們全人類一起走向失敗。
如果有一天,一個恐怖分子用 AI 制造出毀滅性武器,帶來的災難不會只屬于某個國家,而是全人類的災難。我們必須意識到:在 AI 風險面前,我們其實都在一條船上。
最后,即便政治意愿有了,我們還需要新的技術,來驗證 AI 是否被正當使用。這就像當年搞核裁軍一樣,要“信任,但也要核查”。我們需要 AI 的“核查協議”——比如在硬件和軟件層面加上一些可驗證的限制措施。我相信這是可以做出來的,而且已經有人在研究這方面的工作了。
以上就是我今天想和大家分享的內容。感謝各位的聆聽,也希望你們能花些時間,認真思考我們今天討論的這些問題。
2025 全球產品經理大會
2025 年 8 月 15–16 日
北京·威斯汀酒店
2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人,圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報名,請掃碼下方二維碼。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.