網易首頁 > 網易號 > 正文申請入駐

在人工智能安全領域，主要國家可以尋求哪些合作?

2025-05-30 16:41:58　來源: 全球技術地圖

北京舉報

分享至

2025年4月17日，牛津大學、斯坦福大學、蘭德公司、卡內基國際和平基金會等機構學者于arXiv預印本平臺聯合發表文章《地緣政治對手可以在哪些技術性人工智能安全領域進行合作？》（In Which Areas of Technical AI Safety Could Geopolitical Rivals Cooperate?），探討當前地緣政治背景下，主要競爭對手在人工智能安全技術領域開展合作的可能性與挑戰。文章分析了戰略技術合作動因，并以中美人工智能合作為例，剖析現有風險管理框架的不足。研究識別了技術性人工智能安全研究合作中特有的四類風險，并評估了人工智能驗證機制、協議、基礎設施和評估方法等四個潛在合作領域的可行性。研究認為，人工智能驗證機制和共享協議方面的研究可能是此類合作的適宜領域。啟元洞見編譯了其中的主要內容，供相關領域的讀者學習和參考。

一、引言

國際合作在管理先進技術風險方面由來已久。許多專家倡導就人工智能安全問題加強國際合作，以應對共同的全球性風險。然而，部分觀點對人工智能領域的合作持懷疑態度，認為其可能對國家安全構成不可接受的風險。文章指出，人工智能安全合作所帶來的風險和益處的程度，取決于具體的合作領域。

本文聚焦于影響人工智能安全研究國際合作風險的技術因素，重點分析此類合作在多大程度上可能促進危險能力的提升、導致敏感信息共享或為惡意行為提供可乘之機。文章首先回顧了歷史上國家間在戰略技術領域合作的原因，并以當前中美在人工智能領域的合作為案例進行分析。研究者認為，現有的相關風險管理框架可以通過補充考量技術性人工智能安全研究合作特有的關鍵風險而得到加強。通過分析，文章發現針對人工智能驗證機制和共享協議的研究可能是此類合作的適宜領域。

二、戰略技術合作的背景與動機

（一）地緣政治對手為何要在戰略技術
上合作？

地緣政治對手之間的戰略技術合作通常基于博弈論中的若干理性考量。

首先，當技術風險無法由單一行動方有效管理時，合作很有必要，包括跨境風險（如國際犯罪集團濫用技術等）。例如，中美兩國近期就聯合打擊利用加密貨幣洗錢達成協議。此外，當集體行動對于降低風險至關重要時，對手也可能選擇合作，例如2024年11月中美兩國達成協議，維持人類對核武器使用決策的控制，并避免將人工智能整合到核指揮與控制系統中。

其次，技術領先者可能會單方面分享技術，前提是這樣做符合其自身利益且技術上可行。例如，20世紀60年代初，美國與蘇聯分享了防止未經授權核爆炸的“準許行動鏈”（PALs）的基本設計，因為雙方都認識到防止意外升級的明確益處，且早期PALs足夠簡單，可以在不泄露敏感武器信息的情況下進行解釋。

再者，對手可能通過建立減少不確定性和意外升級風險的機制來合作，以改善地緣政治穩定。例如，《開放天空條約》允許參與國對彼此領土進行非武裝空中偵察飛行，使用標準化的傳感器技術，從而在敵對軍事力量之間建立可預測的互動模式，并確立了核查的技術規程。

最后，當技術開發成本超出任何單一行動方的資源或能力時，對手也可能合作以匯集專業知識和資源。國際空間站是包括美國和俄羅斯在內的航天機構之間的合作項目，利用了各國的航天能力；而ITER聚變項目則匯集了競爭大國，共同分擔開發聚變能源的巨大成本和技術挑戰。

這些合作動機同樣適用于人工智能及其安全領域。例如，一個司法管轄區開發的日益強大的人工智能系統可能會對競爭對手的司法管轄區產生負面的跨境影響，需要競爭對手之間合作以有效管理這些風險。

（二）人工智能合作案例研究：
中國與美國

在學術界，中美研究人員的合作比任何其他兩國研究人員都多，包括人工智能安全領域（圖1）。自2017年起，中國超越英國成為美國研究人員最大的合作者，并保持至今。

圖1 與美國研究人員合作發表人工智能安全論文的實例占比（%）。圖表不包括2023年和2024年的不完整數據，條形圖頂部的數據標簽顯示了當年美國研究人員發表的人工智能安全論文總數。

在工業界，一些美國公司歷史上曾在中國設立本地化的合資企業，以在中國市場站穩腳跟并利用人才庫。這些合資企業也推動了中國科技產業的發展。典型案例是由比爾·蓋茨于1998年創立的微軟亞洲研究院（MSRA），該研究院的首任院長是李開復，同時他也是中國領先的開源人工智能公司“零一萬物”（01.AI）的創始人。這些投向中國人工智能企業的投資對全球人工智能產業產生了顯著影響。例如，2015年，MSRA的一個由何愷明領導的團隊引入了“深度殘差網絡”（ResNet），極大推動了深度學習的發展。

政府間層面，中美兩國政府在人工智能領域的合作卻遠不如工業界或學術界廣泛。人工智能直到最近幾年才成為重要的地緣政治問題：2023年，人工智能被列為中美兩國元首會晤的峰會級議題；2024年5月，雙方在日內瓦舉行了專門的人工智能政府間對話，并計劃未來進一步對話；2024年11月，兩國元首達成協議，維持人類對核武器使用決策的控制，并避免將人工智能整合到核指揮與控制系統中。

（三）如何管理合作風險？

各國已經意識到戰略技術合作的風險，并制定了應對措施。然而，與競爭對手在國家層面合作相關的風險管理過程是不透明的。針對學術界和企業界則存在更詳細的公開指南。與競爭對手司法管轄區的其他學者合作的學者通常必須遵守國家指導體系。這些體系通常要求評估與研究主題或領域相關的風險以及研究條件。他們可能還會被要求核查合作者及其機構的身份是否在制裁名單上，并查閱美國工業和安全局

（BIS）

的商業管制清單等文件。

對于從事合資等活動的公司，通常還適用關于對外和對內投資的額外規定。例如，美國公司必須向美國外國投資委員會

（CFIUS）

等投資審查實體報告相關的對內交易。上述風險管理流程中存在的一個概念性差距是，很少有工具關注特定技術的細微差別。因此，考慮合作的行動方缺乏一個清晰的框架來評估就其特定關注的技術進行合作可能帶來的地緣政治相關風險。

三、人工智能安全合作的風險

本文概述了國際合作中與人工智能安全特定相關或尤為相關的風險，即與（潛在有害的）人工智能能力發展、戰略技術敏感信息泄露以及為有動機的行動者提供采取有害行動機會相關的風險。

1. 人工智能安全發展可能推動全球能力前沿：地緣政治對手可能因擔心合作的副作用是推動全球（潛在有害的）人工智能能力前沿，故而猶豫是否在人工智能安全方面進行合作。

2. 合作可能差異化地提升對手的戰略人工智能能力：在戰略人工智能能力方面處于“領先”地位的國家，可能不愿意與對手合作，因為擔心這樣做會使對手相對于領先者的能力得到提升。

3. 合作可能暴露有關國家戰略技術的敏感信息：如果合作的具體重點與其他（非人工智能）國家戰略技術相交，并可能引發國家安全擔憂，那么在人工智能安全方面的合作也可能存在風險。

4. 人工智能安全合作可能為有動機的行動者提供造成損害的機會：例如，通過在合作方有權訪問的系統中植入后門，或濫用為合作目的共享的資源。

四、潛在合作領域評估

本文對人工智能技術安全的四個領域進行了非全面概述，包括驗證機制、協議、基礎設施和評估方法，這些領域正在出現國際合作，或者已被廣泛倡導進行合作。文章評估了在每個領域進行合作可能帶來的上述風險的程度（圖2），并發現驗證機制和協議的研究是國際合作中挑戰性較低的領域。

圖2 對四個關鍵人工智能安全領域風險的初步評估

（一）驗證機制研究

“驗證機制”是指能夠認證關于人工智能系統或相關資源聲明真實性的技術程序。這與設計新系統或通過評估等方式揭示系統信息不同。然而，開發驗證機制的過程可能允許對手收集敏感信息。

*合作風險評估（為表述方便，后僅保留序號）：

①推動全球能力前沿：鑒于某些驗證應用關注的是證明系統屬性而非展示其存在，此類領域的研究不太可能提升人工智能系統的能力。

②差異化提升對手能力：一些驗證機制的開發和使用可能會揭示先前未知的模型屬性，從而可能導致對手戰略能力的差異化提升。

③暴露其他敏感信息：對人工智能驗證技術的合作開發，如果需要披露各方現有技術的敏感信息，則會引發擔憂。

④為有動機的行動者提供有害行動機會：共同開發驗證機制可能允許有動機的對手秘密植入“驗證后門”，使其能夠在應用此機制時偽造合規性。

（二）“協議和最佳實踐”的編纂

“協議和最佳實踐”指的是為實現人工智能研發積極成果而制定的程序化聲明。此類共享協議的制定可能是政府間協調的適宜領域，因其技術性較低。

*合作風險評估：

①制定協議特別是在協議旨在編纂現有技術和知識的較成熟主題上，更多的是標準化過程，而非推進前沿研究，因此不會有推動全球人工智能能力的風險。

②如果協議編纂的合作側重于各方擁有共同知識和理解的領域，那么通過此類合作差異化提升對手能力的風險很小。

③由于制定協議旨在將共同知識構建為一個多方可以認同的結構化框架，因此不一定需要與對手共享敏感或私人信息。

④鑒于協議的編纂不涉及直接參與人工智能系統，就此類編纂進行合作不會讓對手采取直接有害的行動。然而，以往在標準化方面的例子表明，國家和行業行為者都傾向于利用國際標準化過程來推進自身利益。

（三）基礎設施

“人工智能安全基礎設施”指的是促進人工智能安全相關研發活動的系統和流程，這些系統和流程位于人工智能系統外部。在人工智能安全基礎設施方面進行合作，對于確保不同司法管轄區正在進行的研發活動的互操作性可能具有巨大益處。

*合作風險評估：

①由于許多形式的基礎設施具有廣泛的多用途性，通過基礎設施合作取得的進展可能會被應用于提升前沿人工智能能力。

②基礎設施也可能被對手用來促進其自身的戰略能力。

③如果為人工智能安全開發某些形式的共享基礎設施建立在現有國家基礎設施之上，這樣做可能需要向對手提供有關現有基礎設施的敏感細節。

④基礎設施具有廣泛的多用途性，適用于許多潛在的下游應用和用途，因此可能特別容易被惡意行為者濫用。

（四）評估方法

可靠評估人工智能系統能力和安全性的方法和資源，例如通過基準測試、紅隊演練、人類提升研究或智能體評估，已成為人工智能（安全）研究的焦點。就此類方法進行合作可以確保互操作性，使各司法管轄區能夠共享和借鑒彼此的評估結果，從而創建一個更高效的全球人工智能評估系統。

*合作風險評估：

①由于評估主要關注評估系統的能力或安全性，而非改進這些方面，因此人工智能評估方面的合作不太可能直接推動全球前沿。

②一些評估方法規定了旨在從危險或軍民兩用任務中提取系統上限性能的引出技術。因此，共享引出技術可能特別敏感，因為它們可能被直接應用于提高系統能力。

③根據評估的重點領域，合作可能需要共享敏感信息。

④合作開發評估方法在多大程度上會為有動機的行動者提供采取有害行動的機會，很大程度上取決于合作的形式。

五、結論

地緣政治對手通常有動機在戰略技術上進行合作，例如應對跨越國界的技術風險。然而，此類合作本身也可能帶來風險，如果希望充分實現合作的益處，就必須對這些風險加以管理。本文概述了地緣政治競爭的重要案例中當前人工智能領域的國際合作情況，并指出了與技術性人工智能安全合作相關的四類風險來源。基于此，文章評估了在人工智能安全領域已被提議作為國際合作潛在領域的四個技術工作方面，這些風險可能實現的程度，并發現驗證機制和協議的開發可能非常適合合作。

免責聲明：本文轉自啟元洞見。文章內容系原作者個人觀點，本公眾號編譯/轉載僅為分享、傳達不同觀點，如有任何異議，歡迎聯系我們！

轉自丨啟元洞見

研究所簡介

國際技術經濟研究所（IITE）成立于1985年11月，是隸屬于國務院發展研究中心的非營利性研究機構，主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題，跟蹤和分析世界科技、經濟發展態勢，為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬號，致力于向公眾傳遞前沿技術資訊和科技創新洞見。

地址：北京市海淀區小南莊20號樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數碼

房產 / 家居

在人工智能安全領域，主要國家可以尋求哪些合作?