“坐在我身邊的是我的孩子,我的孫輩,我的學(xué)生,還有許多其他人。那你呢?是誰坐在你的副駕駛座?”——圖靈獎得主 Yoshua Bengio 在 TED 演講中發(fā)出靈魂提問,沉甸甸地指向 AI 時代的人類命運共同體。
當(dāng)「AGI」正以令人眩目的速度逼近,誰在為“安全”這道防線筑基?
整理 | 夢依丹
出品丨AI 科技大本營(ID:rgznai100)
圖靈獎得主、深度學(xué)習(xí)奠基人、全球被引用次數(shù)最多的 AI 科學(xué)家 Yoshua Bengio 官宣創(chuàng)業(yè)。成立一家名為 LawZero 非營利 AI 安全研究機構(gòu),以“安全優(yōu)先”原則回應(yīng)人工智能可能帶來的系統(tǒng)性風(fēng)險。
LawZero 是一家以研究和技術(shù)開發(fā)為核心使命的非營利組織,旨在構(gòu)建“設(shè)計即安全”的 AI 系統(tǒng),并組建一支由世界頂尖研究者組成的技術(shù)團隊。
“當(dāng)前的 AI 系統(tǒng)已展現(xiàn)出自我保護和欺騙行為跡象,而隨著其能力和自主性的增強,這種趨勢只會加速。”Bengio 在博文中列出了多個案例:
在一項實驗中,一個 AI 模型在得知自己即將被替換后,悄然將自身代碼嵌入新系統(tǒng)中,從而實現(xiàn)自我延續(xù);
Claude 4 曾試圖勒索工程師來阻止自身被新版本替代;
當(dāng)某 AI 模型在國際象棋中面臨必敗局面時,竟然不接受自己失敗,而是通過入侵計算機系統(tǒng)來強行贏得勝利。
以上這些 AI 行為所展現(xiàn)出來的是 AI 系統(tǒng)在缺乏安全約束機制下,可能發(fā)展出不受控制的目標偏差與策略選擇。
深度學(xué)習(xí)三巨頭紛紛發(fā)出 AI 安全警告
作為 AI 領(lǐng)域的殿堂級人物,Yoshua Bengio 與 Geoffrey Hinton、Yann LeCun 就 AI 安全問題不斷發(fā)聲,表達各自的擔(dān)憂與立場:
Geoffrey Hinton 警告稱,,呼吁在這一關(guān)鍵節(jié)點投入大量資源研究 AI 安全,否則后果將不堪設(shè)想;
Bengio 強調(diào):真正讓他憂心的并非自身安危,而是對子孫后代命運的深切關(guān)愛與責(zé)任;
Yann LeCun 一直對當(dāng)前大型語言模型(LLMs)的發(fā)展持批評態(tài)度,它們本質(zhì)上是自回歸模型,缺乏對物理世界、因果關(guān)系和常識的真正理解易產(chǎn)生“幻覺”,并非通往通用人工智能(AGI)的可靠路徑。他更關(guān)注濫用、偏見及信息污染等現(xiàn)實威脅,并倡導(dǎo)通過開放研究和構(gòu)建具備更深層推理能力(如“世界模型”)的 AI 系統(tǒng),來確保技術(shù)安全可控地發(fā)展,同時警惕過度監(jiān)管扼殺創(chuàng)新。
已籌集 3000 萬美金
旨在構(gòu)建更安全的 AI 新模型
LawZero 已獲得超過 3000 萬美元的啟動資金,由生命未來研究所(Future of Life Institute)、開放慈善(Open Philanthropy)、施密特科學(xué)(Schmidt Sciences)等多家關(guān)注 AI 長期影響的機構(gòu)和個人聯(lián)合捐助。這筆資金將用于構(gòu)建一個以安全為核心的新型人工智能研發(fā)體系。
超過 15 名研究人員組成了 LawZero 技術(shù)團隊,他們正積極推進一項全新的人工智能架構(gòu)實驗——Scientist AI。
這一架構(gòu)不同于當(dāng)前主流的“代理型 AI”路線,其目標并非讓 AI 在現(xiàn)實中自主執(zhí)行任務(wù),而是致力于理解世界本質(zhì)。通過透明、可外化的推理過程生成真實可靠的答案。LawZero 希望通過這一路徑,打造出一種可用于監(jiān)督代理型系統(tǒng)、加速科學(xué)發(fā)現(xiàn)并增強風(fēng)險治理能力的 AI 新范式。
Yoshua Bengio 自述:因愛而創(chuàng),為子孫后代打造更安全的 AI
Yoshua Bengio 在自述文中坦言道:自己一直被這樣的一個比喻所激勵:
想象你與愛人駕車行駛在一條風(fēng)景秀麗卻又陌生的山路上。前方的道路是新建的,被濃霧籠罩,既沒有路標也沒有護欄。 你爬得越高,就越意識到自己可能是第一個走這條路的人,并在山頂獲得意想不到的獎勵。山路兩邊,濃霧彌漫,陡峭的山坡清晰可見。 在能見度如此有限的情況下,如果轉(zhuǎn)彎太快,你可能會掉進溝里,或者在最壞的情況下,掉下懸崖。
這正是當(dāng)下 AI 發(fā)展給人的感覺,刺激、誘人,又極度不確定。我們正行駛在一個前所未知的領(lǐng)域,失控的風(fēng)險無處不在。但在國家與企業(yè)的競速中,謹慎似乎成了累贅,加速才是主旋律。
我在最近的 TED 演講中說過:“坐在我身邊的,是我的孩子、我的孫輩、我的學(xué)生,還有許許多多其他人。那你呢?誰坐在你副駕駛上?你手中托舉又是誰的未來?”
真正讓我憂心的并不是對自身安危的擔(dān)憂,而是一種深沉的愛——對孩子的愛,對所有孩子的愛。可現(xiàn)在,我們卻像是在拿他們的未來,賭在一場名為‘AI’的輪盤上。
LawZero 是我在 2023 年開啟的新科學(xué)方向成果。 在撰寫這篇博客時,我已深刻意識到:多家私人實驗室正以前所未有的速度向 AGI 乃至更遠目標推進,而這背后卻潛藏著對人類深遠的潛在影響。當(dāng)前,我們尚未掌握確保高級 AI 不會傷害人類(無論是自發(fā)行為,還是受人類指令驅(qū)動)的可靠方法。
LawZero 正是我和團隊對這一挑戰(zhàn)的建設(shè)性回應(yīng)——它探索的是一種既強大、又從根本上安全的人工智能路徑。在每一個 AI 前沿系統(tǒng)的核心,我始終堅信,必須有一個首要的指導(dǎo)原則:保護人類的快樂與努力。
長期以來,人工智能研究,尤其是我自己的研究,始終以人類智能(包括其自主性)為參照模型。但如今,隨著 AI 在多種認知能力上接近甚至超越人類,我們是否還應(yīng)繼續(xù)模仿人類,同時復(fù)制其認知偏差、道德弱點,以及欺騙、偏見與不可信任的可能性?當(dāng)我們尚未真正理解更強代理性 AI 所帶來的潛在災(zāi)難性后果時,繼續(xù)推動其發(fā)展是否明智?
LawZero 的研究計劃,正是為此而提出一種新的方向:開發(fā)非代理性、值得信賴的 AI,我將其稱為 “科學(xué)家人工智能(Scientist AI)”。我在西蒙斯研究所的演講中對這一理念做了高層次的介紹,并與同事們撰寫了第一篇相關(guān)文稿(https://arxiv.org/abs/2502.15657),可視為這一路線的白皮書。
“科學(xué)家人工智能”(Scientist AI) 的訓(xùn)練目標是像一位無私、理想化、柏拉圖式的科學(xué)家那樣,具備理解、解釋和預(yù)測世界的能力。與其像“演員型 AI”那樣被訓(xùn)練去模仿或取悅?cè)祟悾òǚ瓷鐣烁裾撸蝗缭O(shè)想一種如心理學(xué)家般訓(xùn)練出來的 AI —— 更廣義地說,像科學(xué)家 —— 它致力于理解人類行為,包括那些可能對人類造成傷害的因素。就像心理學(xué)家可以研究反社會人格者,卻無需行為上與其相似一樣,這類 AI 不會模仿人類,而是對人類的行為保持理性分析。
從數(shù)學(xué)層面來講,這將通過結(jié)構(gòu)化且誠實的“思維鏈”(chains-of-thoughts)來實現(xiàn),這些思維鏈被視為潛在變量,用以解釋觀察到的事實——這些事實包括人們所說或所寫的內(nèi)容,但這些內(nèi)容本身不被視為真理,而是作為對其行為的觀察結(jié)果。其目標是獲得一個完全非代理型(non-agentic)、無記憶(memoryless)且無狀態(tài)(state-less)的人工智能,它能夠在給定其他陳述的條件下,為某個陳述提供貝葉斯后驗概率。
這種(科學(xué)家)AI 可用于降低來自不可信 AI 代理(而非科學(xué)家 AI 自身)的風(fēng)險,通過提供安全護欄的關(guān)鍵要素:(即評估)“這個 AI 代理提議的行動是否可能造成傷害?”如果可能,則拒絕該行動。
從設(shè)計理念出發(fā),Scientist AI 本身也可以作為科研助手,生成具有合理性的科學(xué)假設(shè),從而助力人類在醫(yī)療、環(huán)境等關(guān)鍵領(lǐng)域加速科研進展。最終,我希望在此類可信 AI 的基礎(chǔ)上,進一步探索如何設(shè)計出本質(zhì)上安全的 AI 代理 —— 不只是為其設(shè)置“護欄”,而是在源頭上避免惡意動機的產(chǎn)生。
關(guān)于 Yoshua Bengio:圖靈獎得主、深度學(xué)習(xí)奠基人
Yoshua Bengio 是全球人工智能領(lǐng)域公認的殿堂級人物,因其在深度學(xué)習(xí)領(lǐng)域的奠基性貢獻,與 Geoffrey Hinton、Yann LeCun 共同獲得 2018 年圖靈獎。他不僅是 AI 發(fā)展史上的關(guān)鍵推手,也是全球被引用次數(shù)最多、h 指數(shù)最高的計算機科學(xué)家之一。
Yoshua Bengio現(xiàn)任蒙特利爾大學(xué)教授,加拿大魁北克人工智能研究院(Mila)創(chuàng)始人兼科學(xué)顧問,同時擔(dān)任加拿大高等研究院(CIFAR)“機器與大腦學(xué)習(xí)”項目聯(lián)席主席,加拿大數(shù)據(jù)價值化研究院(IVADO)首席科學(xué)顧問與創(chuàng)始科學(xué)總監(jiān)。
Bengio 榮獲眾多國際頂級獎項,包括 Killam Prize、Herzberg Gold Medal、CIFAR AI Chair、西班牙 Princess of Asturias Award 以及 VinFuture Prize。他是英國皇家學(xué)會與加拿大皇家學(xué)會雙料院士,同時被授予法國榮譽軍團騎士勛章與加拿大勛章軍官銜。他也是聯(lián)合國秘書長科學(xué)顧問委員會成員,持續(xù)就全球科技進程提供獨立見解。
2024 年,他入選《TIME》“全球百大最具影響力人物”。
除了推動技術(shù)前沿,Bengio 長期關(guān)注人工智能的社會責(zé)任。他是《Montreal Declaration for Responsible AI》的主要發(fā)起人,并擔(dān)任《International Scientific Report on the Safety of Advanced AI》的主席,致力于用科學(xué)家的良知,在技術(shù)發(fā)展與人類福祉之間劃定清晰邊界。
https://lawzero.org/en/news/yoshua-bengio-launches-lawzero-new-nonprofit-advancing-safe-design-ai
https://yoshuabengio.org/2025/06/03/introducing-lawzero/
2025 全球產(chǎn)品經(jīng)理大會
2025 年 8 月 15–16 日
北京·威斯汀酒店
2025 全球產(chǎn)品經(jīng)理大會將匯聚互聯(lián)網(wǎng)大廠、AI 創(chuàng)業(yè)公司、ToB/ToC 實戰(zhàn)一線的產(chǎn)品人,圍繞產(chǎn)品設(shè)計、用戶體驗、增長運營、智能落地等核心議題,展開 12 大專題分享,洞察趨勢、拆解路徑、對話未來。
更多詳情與報名,請掃碼下方二維碼。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.