網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

圖靈獎得主 Bengio 官宣創(chuàng)業(yè)：要在 AGI 到來前守住 AI 最后一公里

2025-06-05 10:29:42　來源: AI科技大本營

北京舉報

分享至

“坐在我身邊的是我的孩子，我的孫輩，我的學(xué)生，還有許多其他人。那你呢？是誰坐在你的副駕駛座？”——圖靈獎得主 Yoshua Bengio 在 TED 演講中發(fā)出靈魂提問，沉甸甸地指向 AI 時代的人類命運共同體。

當(dāng)「AGI」正以令人眩目的速度逼近，誰在為“安全”這道防線筑基？

整理 | 夢依丹

出品丨AI 科技大本營（ID：rgznai100）

圖靈獎得主、深度學(xué)習(xí)奠基人、全球被引用次數(shù)最多的 AI 科學(xué)家 Yoshua Bengio 官宣創(chuàng)業(yè)。成立一家名為 LawZero 非營利 AI 安全研究機構(gòu)，以“安全優(yōu)先”原則回應(yīng)人工智能可能帶來的系統(tǒng)性風(fēng)險。

LawZero 是一家以研究和技術(shù)開發(fā)為核心使命的非營利組織，旨在構(gòu)建“設(shè)計即安全”的 AI 系統(tǒng)，并組建一支由世界頂尖研究者組成的技術(shù)團隊。

“當(dāng)前的 AI 系統(tǒng)已展現(xiàn)出自我保護和欺騙行為跡象，而隨著其能力和自主性的增強，這種趨勢只會加速。”Bengio 在博文中列出了多個案例：

在一項實驗中，一個 AI 模型在得知自己即將被替換后，悄然將自身代碼嵌入新系統(tǒng)中，從而實現(xiàn)自我延續(xù)；
Claude 4 曾試圖勒索工程師來阻止自身被新版本替代；
當(dāng)某 AI 模型在國際象棋中面臨必敗局面時，竟然不接受自己失敗，而是通過入侵計算機系統(tǒng)來強行贏得勝利。

以上這些 AI 行為所展現(xiàn)出來的是 AI 系統(tǒng)在缺乏安全約束機制下，可能發(fā)展出不受控制的目標偏差與策略選擇。

深度學(xué)習(xí)三巨頭紛紛發(fā)出 AI 安全警告

作為 AI 領(lǐng)域的殿堂級人物，Yoshua Bengio 與 Geoffrey Hinton、Yann LeCun 就 AI 安全問題不斷發(fā)聲，表達各自的擔(dān)憂與立場：

Geoffrey Hinton 警告稱，，呼吁在這一關(guān)鍵節(jié)點投入大量資源研究 AI 安全，否則后果將不堪設(shè)想；
Bengio 強調(diào)：真正讓他憂心的并非自身安危，而是對子孫后代命運的深切關(guān)愛與責(zé)任；
Yann LeCun 一直對當(dāng)前大型語言模型（LLMs）的發(fā)展持批評態(tài)度，它們本質(zhì)上是自回歸模型，缺乏對物理世界、因果關(guān)系和常識的真正理解易產(chǎn)生“幻覺”，并非通往通用人工智能（AGI）的可靠路徑。他更關(guān)注濫用、偏見及信息污染等現(xiàn)實威脅，并倡導(dǎo)通過開放研究和構(gòu)建具備更深層推理能力（如“世界模型”）的 AI 系統(tǒng)，來確保技術(shù)安全可控地發(fā)展，同時警惕過度監(jiān)管扼殺創(chuàng)新。

已籌集 3000 萬美金

旨在構(gòu)建更安全的 AI 新模型

LawZero 已獲得超過 3000 萬美元的啟動資金，由生命未來研究所（Future of Life Institute）、開放慈善（Open Philanthropy）、施密特科學(xué)（Schmidt Sciences）等多家關(guān)注 AI 長期影響的機構(gòu)和個人聯(lián)合捐助。這筆資金將用于構(gòu)建一個以安全為核心的新型人工智能研發(fā)體系。

超過 15 名研究人員組成了 LawZero 技術(shù)團隊，他們正積極推進一項全新的人工智能架構(gòu)實驗——Scientist AI。

這一架構(gòu)不同于當(dāng)前主流的“代理型 AI”路線，其目標并非讓 AI 在現(xiàn)實中自主執(zhí)行任務(wù)，而是致力于理解世界本質(zhì)。通過透明、可外化的推理過程生成真實可靠的答案。LawZero 希望通過這一路徑，打造出一種可用于監(jiān)督代理型系統(tǒng)、加速科學(xué)發(fā)現(xiàn)并增強風(fēng)險治理能力的 AI 新范式。

Yoshua Bengio 自述：因愛而創(chuàng)，為子孫后代打造更安全的 AI

Yoshua Bengio 在自述文中坦言道：自己一直被這樣的一個比喻所激勵：

想象你與愛人駕車行駛在一條風(fēng)景秀麗卻又陌生的山路上。前方的道路是新建的，被濃霧籠罩，既沒有路標也沒有護欄。你爬得越高，就越意識到自己可能是第一個走這條路的人，并在山頂獲得意想不到的獎勵。山路兩邊，濃霧彌漫，陡峭的山坡清晰可見。在能見度如此有限的情況下，如果轉(zhuǎn)彎太快，你可能會掉進溝里，或者在最壞的情況下，掉下懸崖。

這正是當(dāng)下 AI 發(fā)展給人的感覺，刺激、誘人，又極度不確定。我們正行駛在一個前所未知的領(lǐng)域，失控的風(fēng)險無處不在。但在國家與企業(yè)的競速中，謹慎似乎成了累贅，加速才是主旋律。

我在最近的 TED 演講中說過：“坐在我身邊的，是我的孩子、我的孫輩、我的學(xué)生，還有許許多多其他人。那你呢？誰坐在你副駕駛上？你手中托舉又是誰的未來？”

真正讓我憂心的并不是對自身安危的擔(dān)憂，而是一種深沉的愛——對孩子的愛，對所有孩子的愛。可現(xiàn)在，我們卻像是在拿他們的未來，賭在一場名為‘AI’的輪盤上。

LawZero 是我在 2023 年開啟的新科學(xué)方向成果。在撰寫這篇博客時，我已深刻意識到：多家私人實驗室正以前所未有的速度向 AGI 乃至更遠目標推進，而這背后卻潛藏著對人類深遠的潛在影響。當(dāng)前，我們尚未掌握確保高級 AI 不會傷害人類（無論是自發(fā)行為，還是受人類指令驅(qū)動）的可靠方法。

LawZero 正是我和團隊對這一挑戰(zhàn)的建設(shè)性回應(yīng)——它探索的是一種既強大、又從根本上安全的人工智能路徑。在每一個 AI 前沿系統(tǒng)的核心，我始終堅信，必須有一個首要的指導(dǎo)原則：保護人類的快樂與努力。

長期以來，人工智能研究，尤其是我自己的研究，始終以人類智能（包括其自主性）為參照模型。但如今，隨著 AI 在多種認知能力上接近甚至超越人類，我們是否還應(yīng)繼續(xù)模仿人類，同時復(fù)制其認知偏差、道德弱點，以及欺騙、偏見與不可信任的可能性？當(dāng)我們尚未真正理解更強代理性 AI 所帶來的潛在災(zāi)難性后果時，繼續(xù)推動其發(fā)展是否明智？

LawZero 的研究計劃，正是為此而提出一種新的方向：開發(fā)非代理性、值得信賴的 AI，我將其稱為 “科學(xué)家人工智能（Scientist AI）”。我在西蒙斯研究所的演講中對這一理念做了高層次的介紹，并與同事們撰寫了第一篇相關(guān)文稿（https://arxiv.org/abs/2502.15657），可視為這一路線的白皮書。

“科學(xué)家人工智能”（Scientist AI）的訓(xùn)練目標是像一位無私、理想化、柏拉圖式的科學(xué)家那樣，具備理解、解釋和預(yù)測世界的能力。與其像“演員型 AI”那樣被訓(xùn)練去模仿或取悅?cè)祟悾òǚ瓷鐣烁裾撸蝗缭O(shè)想一種如心理學(xué)家般訓(xùn)練出來的 AI —— 更廣義地說，像科學(xué)家 —— 它致力于理解人類行為，包括那些可能對人類造成傷害的因素。就像心理學(xué)家可以研究反社會人格者，卻無需行為上與其相似一樣，這類 AI 不會模仿人類，而是對人類的行為保持理性分析。

從數(shù)學(xué)層面來講，這將通過結(jié)構(gòu)化且誠實的“思維鏈”（chains-of-thoughts）來實現(xiàn)，這些思維鏈被視為潛在變量，用以解釋觀察到的事實——這些事實包括人們所說或所寫的內(nèi)容，但這些內(nèi)容本身不被視為真理，而是作為對其行為的觀察結(jié)果。其目標是獲得一個完全非代理型（non-agentic）、無記憶（memoryless）且無狀態(tài)（state-less）的人工智能，它能夠在給定其他陳述的條件下，為某個陳述提供貝葉斯后驗概率。

這種（科學(xué)家）AI 可用于降低來自不可信 AI 代理（而非科學(xué)家 AI 自身）的風(fēng)險，通過提供安全護欄的關(guān)鍵要素：（即評估）“這個 AI 代理提議的行動是否可能造成傷害？”如果可能，則拒絕該行動。

從設(shè)計理念出發(fā)，Scientist AI 本身也可以作為科研助手，生成具有合理性的科學(xué)假設(shè)，從而助力人類在醫(yī)療、環(huán)境等關(guān)鍵領(lǐng)域加速科研進展。最終，我希望在此類可信 AI 的基礎(chǔ)上，進一步探索如何設(shè)計出本質(zhì)上安全的 AI 代理 —— 不只是為其設(shè)置“護欄”，而是在源頭上避免惡意動機的產(chǎn)生。

關(guān)于 Yoshua Bengio：圖靈獎得主、深度學(xué)習(xí)奠基人

Yoshua Bengio 是全球人工智能領(lǐng)域公認的殿堂級人物，因其在深度學(xué)習(xí)領(lǐng)域的奠基性貢獻，與 Geoffrey Hinton、Yann LeCun 共同獲得 2018 年圖靈獎。他不僅是 AI 發(fā)展史上的關(guān)鍵推手，也是全球被引用次數(shù)最多、h 指數(shù)最高的計算機科學(xué)家之一。

Yoshua Bengio現(xiàn)任蒙特利爾大學(xué)教授，加拿大魁北克人工智能研究院（Mila）創(chuàng)始人兼科學(xué)顧問，同時擔(dān)任加拿大高等研究院（CIFAR）“機器與大腦學(xué)習(xí)”項目聯(lián)席主席，加拿大數(shù)據(jù)價值化研究院（IVADO）首席科學(xué)顧問與創(chuàng)始科學(xué)總監(jiān)。

Bengio 榮獲眾多國際頂級獎項，包括 Killam Prize、Herzberg Gold Medal、CIFAR AI Chair、西班牙 Princess of Asturias Award 以及 VinFuture Prize。他是英國皇家學(xué)會與加拿大皇家學(xué)會雙料院士，同時被授予法國榮譽軍團騎士勛章與加拿大勛章軍官銜。他也是聯(lián)合國秘書長科學(xué)顧問委員會成員，持續(xù)就全球科技進程提供獨立見解。

2024 年，他入選《TIME》“全球百大最具影響力人物”。

除了推動技術(shù)前沿，Bengio 長期關(guān)注人工智能的社會責(zé)任。他是《Montreal Declaration for Responsible AI》的主要發(fā)起人，并擔(dān)任《International Scientific Report on the Safety of Advanced AI》的主席，致力于用科學(xué)家的良知，在技術(shù)發(fā)展與人類福祉之間劃定清晰邊界。

https://lawzero.org/en/news/yoshua-bengio-launches-lawzero-new-nonprofit-advancing-safe-design-ai

https://yoshuabengio.org/2025/06/03/introducing-lawzero/

2025 全球產(chǎn)品經(jīng)理大會

2025 年 8 月 15–16 日

北京·威斯汀酒店

2025 全球產(chǎn)品經(jīng)理大會將匯聚互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實戰(zhàn)一線的產(chǎn)品人，圍繞產(chǎn)品設(shè)計、用戶體驗、增長運營、智能落地等核心議題，展開 12 大專題分享，洞察趨勢、拆解路徑、對話未來。

更多詳情與報名，請掃碼下方二維碼。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.