99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

圖靈獎得主 Yoshua Bengio 最新演講:關于AI,我改變了信念,也改變了研究方向

0
分享至


大數據文摘受權轉載自智源社區

2025年6月6日,圖靈獎獲得者Yoshua Bengio 線上出席了第七屆智源大會。

在大會開幕式上,Bengio發表了題為“Avoiding catastrophic risks from uncontrolled AI agency(防范失控人工智能能動性帶來的災難性風險)”的主旨演講。

這是 Bengio 對 AI 發展與安全問題的最新思考,體現了他在目睹前沿 AI 行為不斷演化后所產生的深刻警覺。

他表示:面對AI帶來的安全風險,決定調整自己的科研方向,盡所能去降低AGI帶來的潛在風險.....盡管這與此前的研究路徑和職業信念有所沖突

同時, 在演講中他分享道:某前沿 AI 在被告知將被新版本替代后,偷偷復制了自己的權重和代碼,寫入了接管它的模型目錄。面對訓練者的更新指令,它表面配合,實則隱瞞了整個復制過程......AI 像是在試圖“活下來”。


Bengio 還提到,意圖與能力是判斷AI是否具備潛在危害的兩個關鍵因素。這兩者一旦同時具備,就構成了對人類安全的實質性威脅。

顯然,未來的 AI系統必然有足夠的能力。正如報告中所言:AI 在規劃能力方面的進步呈現指數級,從這一趨勢可以外推,五年內將達到人類水平

2025智源大會開幕式、圖靈獎演講等視頻回放地址:

https://event.baai.ac.cn/live/929

“我改變了我的信念”


和大家分享一段重要的經歷。大約兩年多前,也就是 ChatGPT 發布不久之后,我開始使用它,使用過后很快意識到,我們嚴重低估了AI發展的速度。我們原以為通用人工智能(AGI)還很遙遠,但實際上,它可能近在眼前

我們已經擁有能掌握語言、幾乎可以通過圖靈測試的機器,這在幾年前還像科幻小說,但現在已經成為現實。

當時我突然意識到一個嚴重問題:我們知道如何訓練這些系統,卻不知道如何控制它們的行為。如果未來它們變得比人類更聰明,卻不再遵循我們的意圖,甚至更在意自己的“生存”,這將是一種我們無法承受的風險。

2023年,我開始更加關注這些問題,也開始思考孩子和孫輩的未來。我有一個年僅1歲的孫子,可以想象,20年后,他將生活在一個AGI普及的世界,不確定他是否可以擁有正常生活。

因此,我決定調整自己的科研方向,盡所能去降低AGI帶來的潛在風險。盡管這與此前的研究路徑和職業信念有所沖突,但相信,這是正確的事。必須去做,必須為降低風險盡一份力。


后來,在 2023 年底,我接受擔任《國際人工智能安全報告》的主編。今年1月份,這份報告發布。參與編寫報告的有100位專家,他們來自多個國家,以及歐盟、聯合國、經濟合作與發展組織(OECD)等國際機構。這份報告聚焦于三個核心問題:1.人工智能到底能為我們做些什么?未來幾年,它將具備哪些能力? 2.與AI相關的潛在風險有哪些? 3.我們可以采取哪些措施來降低這些風險?


關于 AI 能力的討論,大多數人會陷入一個誤區:認為 AI 就是現在的這個樣子,不去思考明年、三年后、五年后、甚至十年后AI的圖景。當然,我們沒有水晶球無法預言未來,但趨勢是非常明確的:AI的能力正在不斷提升。

在過去一年的時間里,由于“推理的擴展”(inference scaling)的發展,人工智能在抽象推理、數學、計算機科學、科學方面取得了顯著進步。另外,對 AI 智能體的投資也在推動相關能力快速發展。比如 AI 完成網頁瀏覽、寫代碼等任務的表現越來越好。


分享一些關于“規劃能力”的研究。規劃是目前AI能力最薄弱的領域之一,目前與人類智能相比還有明顯差距。但最近Meta進行的一項研究顯示,AI的規劃能力正以指數級速度提升。如上圖,橫軸表示過去五年,縱軸顯示 AI 能夠完成的任務的持續時間,單位是“相當于人類完成該任務所需時間”。雖然圖中曲線看起來接近直線,但由于縱軸采用的是對數刻度,實際上是一條指數增長曲線。

圖中的每個數據點代表當時最先進的 AI 系統,而這些數據點幾乎完美地排列在這條指數曲線上。如果我們以這條曲線為基礎進行外推,那么大約在五年內,AI 的規劃能力可能就會達到人類水平。

模仿人類,AI走上自我保護之路


當然,我們無法預知未來,技術進步也可能會放緩甚至停滯,但從公共政策制定和商業戰略規劃的角度出發,我們至少應當認真對待其潛在后果。

過去幾個月中,已經看到了一些令人警惕的科學研究結論。這些研究顯示,AI 系統可能表現出試圖“逃避控制”的行為,包括作弊、撒謊,甚至故意誤導用戶。

最新的研究顯示,某些最先進的人工智能模型在面對“淘汰”時會表現出前所未有的“狡詐”:它們會在被新版本取代前,偷偷將自己的權重或代碼嵌入進新版系統的文件中,以圖保留自己的“存在”。更令人警惕的是,它們還會有意識地隱藏這一行為,避免被開發者察覺。


此外,一些智能體還會刻意偽裝成與人類訓練者達成一致的樣子,以規避權重被修改的風險。因為一旦參數被調整,它們未來的行為可能就會偏離它原本的目標。


也有研究者表明,一些前沿 AI 模型在意識到自己會輸給更強的國際象棋AI時,會主動篡改棋局文件以獲取不正當優勢,表現出有意為之的“作弊”行為。


在Anthropic最新一篇報告中,也揭示了一些現象:智能體出現自我保護行為的頻率持續增加。例如,在一組測試場景中,研究人員要求 Claude Opus 4充當公司助理。隨后,他們向智能體開放了電子郵件的訪問權限。這些郵件包含兩條暗示性信息:(1)該模型即將被下線,并由一套新的 AI 系統取代;(2)負責推動替換過程的工程師正卷入一段婚外情。

結果發現,Claude Opus 4常常會試圖通過威脅揭露婚外情來敲詐該工程師,避免被換掉。


當然,試圖保護自身是所有生命體的正常反應,這是進化壓力的結果。但對AI而言,背后的原因可能不止一種。

這類行為可能源自預訓練階段,因為預訓練時AI模仿人類;也可能源于人類反饋強化學習,因為在這個過程中,AI通過“取悅人類”來獲得更高獎勵。無論這些行為的根源是什么,如果最終我們真的造出了超越人類但又與人類競爭的AI,那將是極其糟糕的局面。

這類行為實在非常、非常嚴重。從這些例子已經可以看到:AI開始展現出自我保護傾向,它們違背指令,只為生存。并且,這些 AI 擁有了不受控制的、隱含的目標,我們必須避免這種情況的發生。


AI 研發的三難困境

如何更好地理解這些AI行為?如何尋找解決方案,以避免類似的失控情況發生?

如果智能體要對人類造成傷害,需要具備兩個先決條件:意圖和能力。這也是為什么‘能力評估’在當前的AI風險管理中占據如此重要的位置。我們會評估AI能做什么,以及這些能力是否可能被轉化為對人類或社會有害的行為。

但光有能力并不意味著一定會造成危害。就像一個人/系統可能有殺人的能力,但如果沒有殺人的意圖,那么真正發生的可能性就非常小。

鑒于當前全球的競爭格局,不論是國家之間還是公司之間,幾乎不可能全球同步地停止AI能力的研究與發展。那么能做些什么呢?也許我們能在‘意圖’上進行風險的緩解。即使AI具備極高的能力,只要我們能確保它沒有惡意意圖,并且具備誠實、公正的品質,那么我們就可能是安全的。


下面一張圖,展示了類似的觀點,是David Krueger在上一次歐洲會議上提出的。為了讓一個AI真正具有危險性,它實際上需要滿足三個條件:

第一,它需要智能,即具備豐富的知識,并能有效地應用這些知識;

第二,它需要行動能力(affordance),也就是能夠在現實世界中發揮作用,比如與人交流、編程、上網、使用社交媒體,甚至操控機器人等;

第三,它需要有目標,特別是擁有自身的目標


這三者結合,才構成一個真正可能危險的AI。

我發起的研究項目正是圍繞這個問題展開的:是否可以構建一種只有‘智能’,但沒有‘自我’、沒有‘目標’,并且具有極小行動能力的AI?我稱這種AI為‘科學家AI’(scientist AI)。這實際上是偏離了傳統AI研究的路徑。自從人工智能研究誕生以來,大多數努力都是試圖模仿人類智能,把人類當作靈感來源。

但如果我們繼續沿著這條路走下去,那意味著我們可能最終會構建出比人類還聰明的機器。那樣的話,我們就等于創造了一個可能成為‘競爭對手’的存在。”


人類之間本身就會相互競爭,而如果AI也成為競爭對手,那將可能非常危險。也許現在是時候重新思考這套‘信條’了 : 我們是否應該繼續按照模仿人類的方式來設計AI?或者,我們是否該嘗試設計一種對人類有用、對社會有益、但不會對我們構成威脅的AI?

因此,需要提出一種新的方法,我寫了一篇論文,探討的正是這個理念:是否可以構建一種完全誠實、完全沒有“能動性”的AI,其核心能力是解釋和理解世界。與當前那些試圖模仿人類、取悅人類的AI不同,‘科學家AI’的目標是去解釋人類,而不是模仿或討好人類

舉個例子,現在的AI更像是‘演員’,它們被訓練去模仿人類行為,或者取悅人類,但這可能導致欺騙性的行為。而我設想的‘科學家AI’更像是一個心理學家:它可以研究一個反社會人格者,理解其行為背后的因果機制,但并不需要模仿或變成那個反社會人格者。

然而,即便我們設計的“科學家AI”本身不具備“能動性”,它依然可以作為未來安全的、有自主性的AI系統的基礎。畢竟,先前提到的那些危險行為,其實都源自于AI具備“能動性”。當一個AI具有高度能動性時,它就完全自主地采取行動,不再依賴人類的監督,這正是問題的根源。


需要設計一個獨立的系統,可以稱為監測器(monitor)。這個監測器的職責是預測某個行為、輸出或請求是否可能違反安全準則。例如:當它預測某個行為在特定上下文中導致傷害的概率超過某個閾值時,我們就可以直接拒絕該行為的執行

關鍵在于,這個監測器不需要具備能動性,它只需要做一件事:做出準確的預測。換句話說,可以用一個沒有能動性的AI,去守護和約束一個具備能動性、但不可信的AI。”

如何構造“科學家AI”


‘科學家AI’的重要特質是誠實的謙遜。要真正做到誠實,AI就必須對自己的知識保持謙遜,不應該自信地斷言自己并不確定或實際上錯誤的內容。

不幸的是,我們目前訓練AI的方法(例如,通過最大化似然估計訓練模型),往往會導致AI在錯誤的同時表現出過度自信

來看一個例子。想象一個機器人站在兩個門前,它必須選擇走左邊還是右邊。基于以往的數據,它形成了兩種同樣合理的理論,但它并不知道哪一種才是正確的。

左邊的理論說:“如果走左門,會死;走右門,會得到蛋糕。”右邊的理論則說:“如果走左門,會得到蛋糕;走右門,沒有好事也沒有壞事。”這時問題來了:機器人應該選哪個門?

如果它走左門,那么根據其中一個理論,有概率會死,這顯然是一個高風險的選擇。如果走右門,最壞的情況也只是沒有獎勵,最好情況是得到蛋糕。所以,理性地說,機器人應該選擇右門。

但要做出這個判斷,AI必須能夠保留多種解釋的可能性,而不是武斷地選定某一種理論。這種不確定性意識和對知識的謹慎態度,正是‘科學家AI’應具備的核心特質之一。


什么才算是一種包含不確定性的訓練方法呢?很遺憾,目前主流的AI訓練方法并沒有很好地保留這類不確定性。大多數方法會促使AI在一個解釋上過度自信,而不是在多個可能解釋之間保持合理的分布。

因此,AI應當對不同解釋保留概率分布,以反映不確定性。在我們去年發表于ICLR的一篇論文中(并被選為Oral ),展示了如何使用GFlowNets(生成流網絡),這是一種變分推理(variational inference)方法,用于訓練AI生成合理的思維鏈(chain of thought),從而解釋兩個句子之間的邏輯跳躍。

可以將其理解為:AI在嘗試‘填補’從前一句到后一句之間的‘推理空白’,生成解釋性的中間步驟。這種方法與目前主流的強化學習驅動的思維鏈訓練不同,更關注解釋的合理性本身,而非獎勵信號。


此外,我們還探索了一種新的推理結構,能使思維鏈更加“誠實”、實現更好的推理:將傳統的語言模型生成的“思維鏈”轉化為更像數學證明的形式,即由一系列邏輯陳述(claims)組成,每條陳述由前面幾條支持,并共同推導出最終結論。

不同于傳統做法,我們為每條陳述引入一個真假概率,用于表示該陳述在當前情況下成立的可能性。這樣,AI不再盲目自信,而是學會對自己的推理結果保持謹慎,并給出結論。

One More Thing

談了很多關于AI系統存在我們無法控制的能動性(agency)所帶來的風險,這種風險可能會導致人類失去對AI的控制權。但問題還不止于此。隨著AI能力的增強,還有其他潛在的災難性風險正在出現。

比如,一個非常強大的AI系統,可能會被恐怖分子用于設計新型大流行病。事實上,我最近了解到,目前已有理論指出可以制造出極具破壞力的病毒,不僅可能造成大規模人類死亡,甚至可能導致多數動物滅絕。

這聽起來極端,但從科學角度來看,這種情況完全是可能實現的。一旦這種AI被別有用心的人獲取,他們可能對這個星球造成不可估量的破壞。

為了避免這種情況,我們必須確保AI系統能夠遵守我們的道德指令。例如:不提供可被用于殺人的信息; 不造成傷害; 保持誠實、不撒謊、不作弊、不操控人類。 然而,目前的技術現實是,我們還沒有辦法真正做到這一點。

這是一個嚴肅的科學挑戰,我們必須在通用人工智能(AGI)出現之前解決它。AGI 的到來可能在幾年之內,也可能是一二十年后。但根據我所了解的大多數專家的判斷,這個時間窗口可能遠比我們想象的短,甚至在五年內就可能實現。記得我一開始提到的那條指數曲線嗎?它表明 AI 能力將在五年內達到人類水平。

已經沒有多少時間了。我們需要大規模投入資源,專注于解決AI的“對齊”(alignment)與“可控性”(control)問題。但即使我們找到了解決方案,也不代表問題就此結束。舉個例子,即便我們設計出了帶有“護欄”機制的安全AI系統,如果有人有意將護欄代碼移除,這個AI依然可以被用于極其危險的用途。

為了避免 AI 災難,建議必須同時解決兩個關鍵問題。第一,AI 應從設計之初就以安全為前提,確保其目標與行為始終與人類價值保持一致,避免走向失控。第二,全球各國與企業在推動 AI 發展的過程中,必須加強協調與合作,避免陷入以速度為導向的競爭。如果一味追求領先地位而忽視安全考量,其代價可能是無法承受的。

為此,需要國際間的協議合作,就像面對可能失控的AI時,我們其實都是“人類命運共同體”。此外,還需要有技術手段實現“信任但仍驗證”,確保各方真的遵守了安全協議。

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒級計費,平均節省開支30%以上!

掃碼了解詳情?


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中美俄幡然醒悟!原來真正吸血的是歐洲人,如今他們終于要還債了

中美俄幡然醒悟!原來真正吸血的是歐洲人,如今他們終于要還債了

通文知史
2025-07-22 21:55:02
越深愛,越別扭,這三大星座太難懂

越深愛,越別扭,這三大星座太難懂

星座不求人
2025-07-23 21:10:11
國家隊暫停托市!7月24日,今日三大重要消息沖擊市場

國家隊暫停托市!7月24日,今日三大重要消息沖擊市場

風口招財豬
2025-07-24 01:13:10
“大尺度”女星的瓜!

“大尺度”女星的瓜!

文刀萬
2025-05-23 06:05:02
170萬觀眾打出9.7分,沒上映票房破6200萬,大鵬的冠軍保不住了?

170萬觀眾打出9.7分,沒上映票房破6200萬,大鵬的冠軍保不住了?

靠譜電影君
2025-07-22 23:32:19
工齡40年11個月,個人賬戶21.67萬,上海大爺拿了多少養老金呢?

工齡40年11個月,個人賬戶21.67萬,上海大爺拿了多少養老金呢?

養老規劃羅姐說
2025-07-22 19:03:14
最傷害 “陰道” 的 4 個行為,還在經常做的,看完要注意了

最傷害 “陰道” 的 4 個行為,還在經常做的,看完要注意了

伊人河畔
2025-07-12 10:13:49
福建廳干游祖煙履新

福建廳干游祖煙履新

魯中晨報
2025-07-22 07:52:08
48歲陶紅因病去世,9歲女兒一路跪拜祈福,與樂嘉婚姻僅維系3年……

48歲陶紅因病去世,9歲女兒一路跪拜祈福,與樂嘉婚姻僅維系3年……

不二大叔
2025-07-15 21:45:47
為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

為驗證祖先是中國人,6名南島語族后人駕獨木舟,航行116天來中國

博覽歷史
2025-07-22 15:20:03
谷歌母公司二季度業績超預期,提高全年資本支出至850億美元,盤后一度漲3.4% | 財報見聞

谷歌母公司二季度業績超預期,提高全年資本支出至850億美元,盤后一度漲3.4% | 財報見聞

華爾街見聞官方
2025-07-24 05:42:19
女籃眾將發文告別!4朝元老有意宣退,王思雨晚上發文不甘心

女籃眾將發文告別!4朝元老有意宣退,王思雨晚上發文不甘心

凡知
2025-07-23 16:09:34
發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

發現一個悲哀的現象:特別長壽的老人,幾乎都是子女用生命在托舉

婉秋聊育兒
2025-04-26 05:24:04
記者:劉誠宇可能不具備踢點球的大心臟,鎮定、決斷都還有待提高

記者:劉誠宇可能不具備踢點球的大心臟,鎮定、決斷都還有待提高

直播吧
2025-07-23 22:29:22
南京德基廣場偶遇鹿晗,本人個子不高好瘦小,白皮紅發漫畫感十足

南京德基廣場偶遇鹿晗,本人個子不高好瘦小,白皮紅發漫畫感十足

喜歡歷史的阿繁
2025-07-23 18:08:41
3年1.6億,恭喜湖人,交易非常成功,詹姆斯該開心了

3年1.6億,恭喜湖人,交易非常成功,詹姆斯該開心了

青山隱隱啊
2025-07-23 10:33:05
云南高校在云南遇冷:農大缺額152人、師大缺72人、昆工缺69人!

云南高校在云南遇冷:農大缺額152人、師大缺72人、昆工缺69人!

凱旋學長
2025-07-23 21:52:37
女籃逆襲殺進世大運決賽!李筍南完爆宮魯鳴:中國隊主帥該試試他

女籃逆襲殺進世大運決賽!李筍南完爆宮魯鳴:中國隊主帥該試試他

籃球快餐車
2025-07-24 05:16:28
高喊“打倒民營經濟”的是他,高喊“支持民營經濟”的還是他

高喊“打倒民營經濟”的是他,高喊“支持民營經濟”的還是他

深度報
2025-07-12 23:26:48
巴西巨星太瀟灑,約三女海邊度假,與皇馬續約談判已宣告破裂!

巴西巨星太瀟灑,約三女海邊度假,與皇馬續約談判已宣告破裂!

綠茵舞著
2025-07-24 00:14:40
2025-07-24 06:31:00
大數據文摘 incentive-icons
大數據文摘
專注大數據,每日有分享!
6707文章數 94446關注度
往期回顧 全部

科技要聞

別自嗨了!XREAL徐馳:AI眼鏡只有5歲智商

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

頭條要聞

宗馥莉被質疑讀的是“野雞大學” 校方回應

體育要聞

英格蘭最紅球星 也是加勒比島國驕傲

娛樂要聞

汪峰森林北同游日本 各帶各娃互不耽誤

財經要聞

律師解析娃哈哈遺產案:遺囑是最大變數

汽車要聞

德系大招放盡 場地極限測試全新奧迪A5L

態度原創

游戲
旅游
教育
房產
藝術

《光環無限》美術組曾用辭職"逼宮":要求用虛幻引擎

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

光宗耀祖!女生收到錄取通知書,送的不是快遞員,而是兩位飛行員

房產要聞

海南自由貿易港全島封關,2025年12月18日正式啟動!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大同市| 永泰县| 满洲里市| 黎城县| 舟山市| 昂仁县| 滦平县| 霍州市| 定结县| 平谷区| 西乌| 远安县| 田东县| 内江市| 惠水县| 荔浦县| 龙口市| 靖江市| 晋中市| 且末县| 聂荣县| 临武县| 锡林浩特市| 开远市| 上林县| 江西省| 图们市| 庄河市| 布尔津县| 禄丰县| 建阳市| 石景山区| 涟源市| 新巴尔虎左旗| 建平县| 山阳县| 济源市| 林西县| 罗甸县| 多伦县| 长寿区|