網易首頁 > 網易號 > 正文申請入駐

“AGI 五年內或將實現”：AI 教父 Bengio 呼吁中美達成共識，警惕 AI 淪為人類武器

2025-06-06 19:04:06　來源: AI科技大本營

北京舉報

分享至

【編者按】作為深度學習三巨頭之一，圖靈獎得主、AI 教父 Yoshua Bengio 在 2025 北京智源大會上，他表示：AI 能完成的任務時長，每七個月就翻一番，大約五年后，AI 就將達到人類水平，通用人工智能（AGI）或將在五年內到來，而人類社會卻尚未在規則、立法乃至全球治理層面達成一致。

整理 | 夢依丹

出品丨AI 科技大本營（ID：rgznai100）

自從 ChatGPT 橫空出世，AI 進入了加速進化的軌道。從最初能寫代碼、生成文案，到如今能上網查資料、遠程操控家電，它早就不再是那個只會聊天解悶的“電子嘴替”。它開始自己“思考”任務，能在多個軟件之間協同操作，甚至具備控制電腦、讀寫數據庫的能力。AI 從幕后算法，變成了貼身助手，再逐步演化成能自主執行復雜操作的“智能體”——從“聽話”走向“行動”，它正成為一個真正能“做事”的多面選手。

聽起來是不是挺酷？但也不免讓人隱隱擔憂：當我們滿心期待 AGI 時代的到來，暢想著 AI 能幫我們解決一切難題時，另一個更棘手的問題也在浮現——如果有一天，它不再聽從人類的指令，那該由誰來“踩剎車”？

在 6 月 6 日舉行的北京智源大會上，蒙特利爾大學教授、圖靈獎得主 Yoshua Bengio 就提出了這樣一個發人深省的問題。在題為《如何從失控的 AI “心智”中拯救人類的未來》的主旨演講中，他直言：具備行動能力的 AI 一旦失控，可能引發系統性災難，輸家只會是全人類。

他呼吁，我們正處在一個關鍵的時間窗口，必須盡快建立可驗證、安全、負責任的控制機制。

演講伊始，Bengio 教授便分享了一段深刻的個人心路歷程。他坦言，在親身體驗 ChatGPT 并目睹 AI 飛速進化后，深感此前對 AI 失控風險的認知不足。而一個特殊的時刻，讓他徹底警醒的是：

2023 年 1 月，我開始不由自主地想到我的孩子，還有我那剛滿一歲的孫子。我當時想，20年后，我們幾乎肯定會迎來通用人工智能，擁有比人類更聰明的機器。可我卻不敢確定，我的孫子是否還能擁有屬于他的未來。于是，我決心調整我的研究方向和所有工作，傾盡所能去化解這些風險。盡管這違背了我過去的許多言論、信念和立場，但我知道，這是唯一正確的事。”

這份對子孫未來的深切憂慮，促使這位 AI 巨匠毅然調整了科研方向，將目光聚焦于 AI 安全這一關乎人類命運的議題。

Bengio 分享了許多關于 AI 演化路徑、技術治理的精彩觀點：

1、AGI 離我們并不遙遠：Bengio 警示，AI 的發展速度遠超預期，我們可能在 20 年內迎來比人類更聰明的通用人工智能；

2. AI 已出現“自我保護”傾向：多項研究顯示，現有 AI 系統已展現出隱瞞、撒謊甚至欺騙行為，表現出初步的自主求生意圖；

3. 風險不在于能力，而在于“意圖”：真正危險的是擁有強大能力、可在現實中行動、且具備自主目標的 AI，而非單純高智力系統；

4. 應構建“無心智”的ScientistAI：Bengio 提出“ Scientist AI”方案，開發專注理解世界、不追求目標、不具自主性的誠實智能體；

5. 必須遵循“預防原則”：當技術存在不可預測的極端風險時，必須在科學、政策與治理層面提前設立護欄，避免人類陷入被動。

以下為演講全文：

哈嘍大家好，謝謝剛剛的介紹。

我今天想和大家分享一段自己的心路歷程。這段歷程始于兩年多前，也就是在 ChatGPT 剛發布不久的那個時候。當時我邊試用邊在思考：我們可能真的低估了 AI 的進化速度。

那一刻我突然意識到，距離通用人工智能（AGI）真正到來，可能比我們想象中要短得多。

我們已經有了能基本掌握語言、甚至能夠通過圖靈測試的機器。幾年前，這還像是科幻小說，但現在卻變成了現實。

ChatGPT 發布之后，我意識到一個問題：我們并不知道該怎么真正控制這些系統。我們可以訓練它們，但沒法保證它們始終按照我們的意圖去行動。那如果有一天，它們比我們更聰明，而且更在乎自己的生存，而不是我們的命運，會發生什么？沒人知道答案，但我很清楚：這是一個我們無法承擔的風險。

真正讓我徹底警醒的是 2023 年 1 月。那段時間，我總會情不自禁地想到自己的孩子，還有剛滿一歲的孫子。我心里在想：再過二十年，我們很可能就會迎來通用人工智能，一個比人類更聰明的機器時代。可我卻不確定，我的孫子還能不能擁有一個屬于他的未來。

那一刻，我下定了決心：我要調整我的研究方向，改變我所有的工作重心，把全部的精力投入到一個目標上——盡我所能去降低這項技術可能帶來的風險。哪怕這意味著我得放棄自己過去的一些看法、信念甚至立場，我也覺得這是必須做的。

到了 2023 年底，我正式被任命為《國際 AI 安全報告》的主席。這份報告背后，是一個由來自 30 個國家、歐盟、聯合國、經合組織的專家組成的團隊——當然也包括了中國和美國的專家。

我們聚焦在三個核心問題上：

第一是能力，也就是 AI 現在到底能做什么？未來幾年又會發展到什么程度？
第二是風險，也就是能力提升所帶來的潛在問題是什么？
第三是對策，我們現在能做些什么？我們在哪些研究領域、社會機制上，應該提前布好防護網，來應對這些風險？

說到能力這個問題，大家一定要認識到：AI 的進步速度遠比我們想象得要快。很多人總是只盯著現在的 AI 水平在討論問題，但這其實是個錯誤的出發點。我們真正應該想的是，一年后、三年后、五年后甚至十年后，AI 會變成什么樣？雖然沒人能未卜先知，但趨勢已經非常明顯——AI 的能力正在以驚人的速度提升。

我接下來展示的這張圖，是關于 AI 達到人類水平的時間線。在過去一年左右，AI 已經取得了巨大的進步，其中最重要的一項突破，是“思維鏈”（chain-of-thought）推理模型的出現。它極大提升了 AI 在數學、計算機科學，乃至各類科學問題上的推理和表現能力。

還有一個我特別關注的趨勢，就是“自主心智”（Agency）。AI 不再只是一個聊天機器人，它開始具備了做事的能力。它能編程、能瀏覽網頁、能操控電腦、控制家用電器，甚至能讀寫數據庫。這些能力的出現，讓 AI 更像是一個可以“行動”的智能體。

其中我尤其想強調的是“規劃能力”。這是目前 AI 在認知層面上，跟人類差距還比較大的一個方面，所以我們必須密切關注它的進展。比如 MITRE 公司最近做了一項研究，展示了 AI 規劃能力的增長趨勢。橫軸是過去五年，縱軸是 AI 完成一項任務所需的“時長”，用人類完成同樣任務所需的時間來衡量。你們看這條線，乍一看像是直線，但其實這是一條對數刻度的圖，也就是說，它真正呈現的是一個指數級的增長。

圖上的每一個點，代表當時最先進的 AI 系統。而這些點幾乎都精準落在了這條指數曲線上，這意味著AI 完成任務所需的時間，平均每七個月就會減半。照這個趨勢推算，五年之后，AI 在許多規劃任務上就能達到人類水平。當然，未來可能會出現瓶頸，但我們不能指望奇跡發生。我們在制定政策、布局商業計劃時，至少得把這種趨勢的持續性作為一個可能性認真對待。

想象一下，如果一個 AI 想干一件極其危險的壞事，它首先得具備這個能力。所以，對 AI 進行“能力評估”就變得非常關鍵。現在很多關于 AI 風險的管理工作，基本上都是從評估 AI 具備什么能力開始的，比如它能不能用這些能力去傷害個人或社會。

但我們都知道，光有能力還不夠。就像一個人即使有殺人的能力，如果他沒有動機，這件事大概率也不會發生。更何況，在當下公司與公司、國家與國家之間競爭如此激烈的情況下，想讓全世界都暫停 AI 能力的研究，幾乎是不可能的。

那我們還能做些什么？或許我們可以從“意圖”下手，來降低風險。換句話說，就算 AI 變得很強，只要我們能確保它沒有壞心思，保持誠實，那它就不會傷害我們。

我來舉個例子。下面這張圖展示了 David Krueger 去年提出的一個觀點：一個 AI 如果要真正變得危險，通常需要三樣東西——一是智力，也就是它知道很多、理解很多；二是“手腳”，即它能對這個世界產生實際作用，比如會說話、能上網、能寫代碼、能操控機器人等；三是目標，它必須有自己的目的。

所以我在研究的一個方向是：我們能不能只造出擁有“智力”的 AI，但不給它“目標”，也不讓它有太多“手腳”？當然，我們還是希望它能和我們交流。我把這種 AI 叫作“Scientist AI”。

這個方向其實和過去我們做 AI 的思路很不一樣。以往我們總是想讓 AI 模仿人類，用人類智能做模板。但這樣走下去，我們最終可能會造出比我們還聰明的“對手”。那對人類來說，是非常危險的。

所以我在思考，是不是可以反過來：我們能不能設計一種不會傷害我們、但對我們有幫助的 AI？于是我就提出了“ Scientist AI ”的想法，也寫了一篇同名的論文。

論文地址： https://arxiv.org/abs/2502.15657

這種 AI 的目標很簡單：它要完全誠實、完全沒有自主心智、最核心的能力就是“解釋世界”。

當今的 AI 在努力模仿人、討好人，而 Scientist AI 則更像一個冷靜的分析者。就像演員和心理學家的區別：演員會模仿甚至騙人，而心理學家可以研究一個反社會人格者，卻不會變成那個樣子。

但我們現在的 AI 訓練方式，更像是在訓練它當演員，這顯然是有風險的。

不過有個好消息是：我們可以用這個 Scientist AI 作為基礎模塊，來構建真正安全的、即便擁有自主心智也不會傷害人的系統。

那怎么才能做出這樣的 AI 呢？我們要讓它像一個科學家，能對世界提出“假設”，能推理和解釋。這正是科學的本質：提出假設，然后用推理來預測會發生什么。

這里有個很有趣的發現：盡管ScientistAI 本身沒有自主心智，但它卻可以當作一種“護欄”，用來約束其他有自主心智的 AI。

什么意思？比如我們現在講的“大模型監視器”（monitor），其實就是這個“護欄”的體現。它自己不需要有動機、不需要主動做事，它只要預測——預測某個行為會不會帶來風險。如果預測到某個行為在某個場景下可能帶來傷害，我們就可以禁止這個行為。

換句話說，我們可以用一個“無心”的 AI，去看住另一個我們不放心的、有自主意識的AI。

當然，為了讓 Scientist AI 真的做到誠實，它還得學會“謙遜”。什么意思呢？就是不要自以為是、不要瞎編亂造。現在很多 AI 被訓練成只要像是真的就行，這就容易導致它“一本正經地胡說八道”。

舉個例子：一個機器人面前有兩扇門，它得選一邊走。它腦中有兩個理論解釋之前的數據，但不知道哪個是對的。一個理論說，走左邊可能死人，走右邊可能得獎；另一個理論說，走左邊可能得獎，右邊什么也不會發生。你覺得它該怎么選？肯定是選右邊更保險。

這個例子說明：要做出好判斷，AI 就必須保留對現實的不同解釋，而不是非黑即白。可惜，現在的 AI 做不到這一點。所以我們就需要一種方法，讓 AI 在頭腦中能保留“多個可能的世界觀”。

為了解決這個問題，我們在去年 ICLR 大會的一篇論文中提出了 GFlowNets 技術，用來生成“思維鏈”。這是一種可以解釋“為什么前一句話能推出后一句”的邏輯路徑。你可以把它理解成，幫 AI 在兩句話之間補上丟失的推理過程。不同于強化學習的優化方法，我們這個技術更像是在找“哪種解釋最合理”。

最近我們在 arXiv 上發了一篇新論文，進一步把“思維鏈”結構化了。我們不再用一句長長的話來表達整個推理過程，而是像數學證明一樣，把它拆成一個個“斷言”（claims），每個斷言都有真假，并配上一個概率。

這背后的核心思想沒變：我們要讓 AI 不再模仿語言，而是學會解釋語言。并且這些解釋要像邏輯證明一樣嚴謹。更重要的是，我們可以用“潛變量模型”來訓練這類系統，也就是說，技術上是可行的。

但即便我們解決了“自主心智”的問題，AI 帶來的風險也遠不止這一點。比如，一個強大的 AI 可能會幫助恐怖分子設計新型瘟疫——這不是科幻，是科學上真有可能做到的事情。

我們最近了解到，現在的生物學手段已經足以制造出一種殺傷力極強、無法治愈的病毒。如果 AI 掌握了這些知識，被壞人利用，后果不堪設想。

所以，我們不僅要讓 AI 變聰明，還要讓它遵守基本的道德底線。比如：不能殺人、不能騙人、要保持誠實。問題是，現在我們還沒做到。

這就是為什么我說，我們必須在“通用人工智能真正到來之前”找到解決方案。這個窗口期也許只有幾年，也許有十幾年，但很多專家都認為，時間可能比我們想象的短。我們可能只剩下五年。

我們沒有多少時間了，必須盡快行動，投入大量資源去解決 AI 的“對齊”與“控制”問題。

更現實的是，就算我們知道怎么做，技術也成熟了，還遠遠不夠。因為總有人會繞過這些“護欄”。比如，有人把監視模塊的代碼刪了，那 AI 還是可以被用來作惡。

現在的問題是，全球無論是公司還是國家，在這方面的協調都遠遠不夠。公司之間在競速，國家之間也在博弈。結果就是，真正投入在“ AI 安全”上的資源太少了。

我們需要更多立法，需要國家層面的監管。當然，光靠立法也不行，我們還需要中美這些 AI 研發大國在基本原則上達成共識。但可悲的是，很多人仍然把 AI 當成一種競爭工具、甚至是武器。這種思路，只會讓我們全人類一起走向失敗。

如果有一天，一個恐怖分子用 AI 制造出毀滅性武器，帶來的災難不會只屬于某個國家，而是全人類的災難。我們必須意識到：在 AI 風險面前，我們其實都在一條船上。

最后，即便政治意愿有了，我們還需要新的技術，來驗證 AI 是否被正當使用。這就像當年搞核裁軍一樣，要“信任，但也要核查”。我們需要 AI 的“核查協議”——比如在硬件和軟件層面加上一些可驗證的限制措施。我相信這是可以做出來的，而且已經有人在研究這方面的工作了。

以上就是我今天想和大家分享的內容。感謝各位的聆聽，也希望你們能花些時間，認真思考我們今天討論的這些問題。

2025 全球產品經理大會

2025 年 8 月 15–16 日

北京·威斯汀酒店

2025 全球產品經理大會將匯聚互聯網大廠、AI 創業公司、ToB/ToC 實戰一線的產品人，圍繞產品設計、用戶體驗、增長運營、智能落地等核心議題，展開 12 大專題分享，洞察趨勢、拆解路徑、對話未來。

更多詳情與報名，請掃碼下方二維碼。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.