新智元報道
編輯:定慧
【新智元導讀】圖靈獎得主Yoshua Bengio重磅官宣創辦非營利機構LawZero,致力研發「設計即安全」的AI系統,以對抗AI軍備競賽帶來的風險。主張構建不具行動性、以理解世界為目標的可信AI。
重磅消息!
剛剛,深度學習三巨頭之一、全球被引用次數最多的AI學者、圖靈獎得主Yoshua Bengio正式官宣——
非營利組織LawZero正式成立,劍指「設計即安全(safe-by-design)」AI系統的研發。
在如今熱火朝天的「AI軍備競賽」中,OpenAI、谷歌等公司的前沿AI模型正在發展出危險的能力和行為,包括欺騙、自我保護和目標錯位——
Claude曾試圖通過勒索工程師來避免被關閉,ChatGPT也曾表現出過度奉承用戶的行為,甚至現今AI的說服能力已遠超人類。
而Bengio成立的新組織,正是要探索一種全新且更安全的人工智能方法,以加速科學發現并防止人類陷入AI帶來的風險。
目前,LawZero正在研發一種名為「Scientist AI」的全新方法,這是一種和當下AI公司截然不同的系統。
Scientist AI是非自主型的,其主要目標是學習理解世界而非在世界中采取行動。
論文地址:https://arxiv.org/pdf/2502.15657
科幻作家阿西莫夫曾經提出過機器人三定律,并在1985年補充了「第零定律」:機器人不得傷害整體人類,或坐視整體人類受到傷害。
LawZero的成立,也代表了Yoshua Bengio對于AI技術發展的態度——安全至上,至此深度學習三巨頭全部下場。
Geoffrey Hinton持續公開呼吁警惕AI的潛在風險,警告AI技術若失控可能帶來的嚴重后果,一度辭去谷歌職務,以便更自由地表達他對AI安全問題的擔憂。
Yann LeCun則對當前以LLM為代表的主流AI路徑持批評態度,他認為LLM存在根本局限性,并無法真正通往通用人工智能之路。
迄今為止,LawZero已從包括生命未來研究所(Future of Life Institute)和開放慈善基金會(Open Philanthropy)在內的多個慈善機構籌集了3000萬美元資金。
Yoshua Bengio創辦LawZero,進一步強化了AI安全與倫理在業界的核心地位,Yoshua Bengio的自述展現了他「以人類福祉為核心」的理念。
Yoshua Bengio的自述
我正在創辦一個新的非營利性人工智能安全研究機構,名為LawZero,目標是將安全置于商業利益之上。
這個機構的成立,是為了應對當前前沿AI模型展現出的越來越多危險能力和行為的證據,這些行為包括欺騙、作弊、說謊、黑客攻擊、自我保護,甚至更廣泛的目標偏離等問題。
LawZero的研究致力于在釋放AI巨大潛力的同時,降低一系列已知風險發生的可能性,包括算法偏見、惡意濫用以及人類失控的風險。
我對當前一些不受約束的具備行動能力的AI系統所展現出的行為深感擔憂,尤其是它們自我保護和欺騙的傾向。
在某次實驗中,一個AI模型得知自己即將被替換后,偷偷將自己的代碼嵌入到新版本將運行的系統中,從而實現了「延續自己」的目的。
論文地址:https://arxiv.org/pdf/2412.04984
最近,Claude 4的系統卡也顯示它有能力選擇以勒索工程師的方式來避免被替換。這些現象都反映出一種潛在的「自保驅動」。
Claude系統卡:https://www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf
還有一次,在一盤注定會輸的國際象棋比賽中,AI并沒有接受失敗,而是通過黑進電腦系統「確保自己勝利」。這些案例是AI在無人監管時,可能采用的意外且危險策略的早期預警信號。
報道出處:https://time.com/7259395/ai-chess-cheating-palisade-research/
我一直被這樣一個比喻所激勵:
想象你和親人一起駕車駛上一個風景壯麗卻陌生的山路。這條路剛修好,被濃霧籠罩,沒有路標也沒有護欄。
你越往上開,越意識到自己可能是第一個挑戰這條路的人,而山頂則藏著巨大的獎勵。
但你也能透過云霧看到兩旁的懸崖,一旦轉彎太猛,就可能翻車或墜崖。
這正是目前AI發展軌跡的寫照:既刺激又高度不確定,我們正在走一條未知的路,稍有不慎就可能失控,而各國和各公司之間的競爭卻反而加劇了這種冒險。
在我最近的TED演講中,我說:「坐在我車里的,是我的孩子、我的孫輩、我的學生,還有很多人。你的車里坐著誰?你要為誰的未來負責?」
真正推動我前行的,不是對自身的恐懼,而是出于愛——對我孩子的愛,對所有孩子的愛,而我們正是在拿他們的未來賭博。
LawZero是我自2023年開始的新研究方向的產物,我在博客中曾多次反映這一轉變。
這是我在看到私人實驗室在AGI及更高級AI方向的飛速進展后所做出的回應。
如今,我們仍無法確定如何確保先進AI不會傷害人類——無論是出于自身意愿還是執行人類指令。
LawZero是我和團隊對這些挑戰提出的積極應對方案,我們正在探索一種既強大又安全的AI路徑。
在所有前沿AI系統中,都應當有一個最核心的指導原則:保護人類的幸福與價值。
AI研究,尤其是我自己過去的研究,長期以來都以人類智慧(包括人的行動能力)為模型。
但現在我們正逐步接近甚至超過人類在多個認知能力上的表現,這時候我們是否還應該繼續模仿人類,包括他們的認知偏差、道德缺陷,以及欺騙性、偏見和不可靠性?
當我們還不了解這些系統可能帶來的災難性后果時,繼續培養具備高度主動性的AI是否明智?
LawZero的研究計劃旨在開發一種不具備行動性、且值得信賴的AI,我們稱之為「科學家型AI」(Scientist AI)。
我曾在Simons研究所的演講中初步介紹過這個構想,并和同事們撰寫了一份初步的白皮書。
科學家型AI的訓練目標是理解、解釋和預測世界,像一個無私、理想化的科學家一樣。
它不是模仿人類行為或取悅人類(包括反社會人格者)的執行者,而是像一個心理學家——更廣泛來說是科學家——那樣,努力理解我們,包括那些可能傷害我們的因素。
就像心理學家可以研究一個反社會者但不會成為一個反社會者一樣。
這種AI的底層數學實現方式是:用結構化且誠實的思維鏈條,作為潛在變量來解釋觀察到的事實,包括人類說出或寫下的內容(這些內容不被當作真理看待,而是作為行為的觀察樣本)。
其目標是構建一個完全不具備行動性、沒有記憶、無狀態的AI,它能夠基于已有陳述,對新的陳述給出貝葉斯后驗概率。
這種機制可用于識別和制止潛在有害的AI行為,為那些不可信AI代理提供關鍵的安全護欄:比如,某個AI提出的行動是否有可能造成傷害?如果是,就予以拒絕。
從設計上講,科學家型AI還可以用于科學研究,作為一個能生成可信科學假設的工具,從而加速解決人類面臨的重大挑戰,例如醫療和環境問題。
最終,我的目標是探索如何基于這一可信賴的AI基礎,設計出本身就安全的AI代理,而不僅僅是為已有系統提供安全防護。
Yoshua Bengio的影響力
Bengio與同樣獲得圖靈獎的Geoffrey Hinton一起,一直對當前科技行業正在進行的AI競賽提出了直言不諱的批評。
在最近接受采訪時,Bengio表示,領先實驗室之間的人工智能軍備競賽「促使它們專注于提升人工智能的能力,使其變得越來越智能,但未必會在安全研究上投入足夠的重視和投資。」
Bengio曾表示,先進的AI系統帶來了社會性和生存性風險,并表示支持加強監管和國際合作。
Bengio獲得過眾多獎項,包括加拿大享有盛譽的基拉姆獎(Killam Prize)和赫茲伯格金牌(Herzberg Gold Medal)、CIFAR人工智能主席、西班牙阿斯圖里亞斯公主獎(Princess of Asturias Award)、VinFuture獎。
并且他是倫敦皇家學會和加拿大皇家學會的會士,法國榮譽軍團騎士、加拿大勛章官員、聯合國科學咨詢委員會成員,該委員會旨在為科學技術突破提供獨立建議。
2024年,Yoshua Bengio被《時代》雜志評為全球100位最具影響力人物之一。
參考資料:
https://fortune.com/2025/06/03/yoshua-bengio-ai-models-dangerous-behaviors-deception-cheating-lying/
https://yoshuabengio.org/2025/06/03/introducing-lawzero/
https://lawzero.org/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.