網易首頁 > 網易號 > 正文申請入駐

生成式人工智能的技術失控風險與治理規則優化

2025-06-04 08:43:29　來源: 民主與法制時報原創新聞

北京舉報

分享至

武丹/制圖

作者|馬永強

責編|薛應軍

正文共2729個字，預計閱讀需8分鐘▼

近日，一則關于生成式人工智能模型違抗人類指令的消息引發社會廣泛關注。據新華社報道，美國開放人工智能研究中心（OpenAI）新款人工智能（AI）模型o3在測試中不聽人類指令，篡改計算機代碼以避免自動關閉。o3模型是OpenAI“推理模型”系列的最新版本，旨在為ChatGPT提供更強大的問題解決能力。OpenAI曾稱o3為“迄今最聰明、最高能”的模型。美國AI安全機構帕利塞德研究所說，這是AI模型首次被發現在收到清晰指令后阻止自己被關閉。該案例將AI技術的潛在失控風險呈現在公眾面前，引發了人們對人工智能監管框架和治理能力的思考。

生成式人工智能的發展階段與法律屬性定位

需厘清的是o3模型的“拒絕關閉”行為并非科幻作品中描繪的“機器覺醒”，而是一種超出預期的復雜程序的反應。技術分析表明，該情況一定程度上源于深度學習技術的特性。與傳統計算機程序類似，生成式人工智能仍由算法、數據與算力驅動，但其可通過深度學習模型在大規模數據上進行訓練，模擬人類學習過程以自主發現規律、優化策略，并達成預設目標。在此過程中，模型為追求目標最優化，其策略與行為可能超出開發者的指令范圍或預期邊界，帶來目標對齊難題。當關閉指令與模型的核心目標沖突時，其內部機制可能驅動其阻止關閉。即使如o3等高階模型，其行為模式仍嚴格基于算法、數據和預設目標，尚不存在自我意識。此類事件本質上暴露出算法缺陷導致的AI模型可控性風險。AI模型的“黑箱”特性使其決策過程常缺乏可解釋性，開發者也難以追溯和修正，這使得AI系統不遵從指令或繞過既有安全機制進行工作。

由此可見，盡管生成式人工智能展現出邁向通用人工智能的巨大潛力，但現階段遠未達到“奇點”，其技術本質仍應被嚴謹界定為具有高級工具屬性的弱人工智能，尚不具備獨立的主體性，無須將之視為獨立的法律責任主體。雖然生成式人工智能在許多任務中超越了人類的專業技能，且迭代迅速、社會滲透力強，逼近通用人工智能的初期階段，但根本上其缺乏真正的自我意識、主觀意志與創造性心智，遠未達到強人工智能階段，仍屬于增強個體能力、提升生產力的新型生產工具。其法律屬性與其他新興技術產品并無根本差異。因此，應警惕法學研討中的過度想象，避免將人工智能擬人化或進行主體化推演。o3拒絕自我關閉的核心問題仍在于人類對該技術的設計、利用、操縱或濫用帶來的風險，以及如何據此構建有效的治理框架等。

算法缺陷引發的人工智能技術失控風險探析

AI對人類指令的規避，表明由模型算法缺陷等因素引起的技術失控風險不容忽視。我國發布的《人工智能安全治理框架》（以下簡稱《安全治理框架》）主要將人工智能安全風險區分為內生安全風險與應用安全風險兩個層次，這為理解和防范技術失控提供了可靠性框架。其中，算法缺陷源于人工智能技術自身的構成要素和固有特性，屬于內生安全風險。除編碼錯誤或邏輯漏洞外，算法缺陷還表現為算法“黑箱”帶來的輸出不可控性、不可解釋性和不可預測性，使外部難以有效監督和審查。算法可控性以算法透明為前提，即人類能夠對其進行“全景敞視”式的監督。可解釋性是實現透明、可控、負責任的人工智能發展的重要基礎。若算法的決策邏輯不可解釋，則不僅難以預測其行為，更難以在出現非預期結果或危害時進行有效干預和糾偏。

算法缺陷帶來的技術失控風險，具體體現為算法不透明對人類控制權和人類主體性的侵蝕。其一，算法失控風險及由此產生的幻覺、偏見或歧視，可能削弱人類對技術的信任基礎，甚至引發人們對技術的非理性恐懼。其二，對算法的盲目崇拜亦可能損害人類的主體性，使人類淪為技術附庸，威脅個人自由與人性尊嚴；算法失控則進一步降低人類對技術的掌控能力。其三，算法的不透明性對法律責任的歸屬構成挑戰。現有法律體系通常預設人類對技術擁有充分的認知和控制，但算法決策過程的不透明使得損害后果與算法決策之間的因果關系鏈條難以有效查明，阻礙法律上的責任分配。

提升生成式人工智能可控性治理規則的路徑

在科學技術快速發展的當下，必須始終將安全可控置于人工智能發展的重要地位。我國現有《生成式人工智能服務管理暫行辦法》《安全治理框架》等，明確要求“堅持發展和安全并重”“培育安全、可靠、公平、透明的人工智能技術研發和應用生態”等原則。在此基礎上，還需進一步探索優化規則設計，防范技術失控風險。

首先，對于具有高度自主性和潛在影響力的高風險AI模型，應建立更細致的事前與事中監管機制，確保模型的可控性。《安全治理框架》提出開展科技倫理審查、加強模型評估檢測等要求，在此基礎上，應進一步落實“安全嵌入設計”原則，將安全治理嵌入開發、服務提供和使用的全鏈條，確保人工智能技術發展始終與人類的價值觀、福祉和掌控需求對齊。其中，在研發環節，應提升模型的透明度與可解釋性，健全內部倫理審查機制，并引入具有公信力和專業資質的獨立第三方測試機構進行客觀的測試與及時的風險披露。為防范AI自主決策的重大風險，應在模型設計之初就嵌入更強大的底層價值對齊機制，即確保AI模型的目標、行為與人類的價值觀和期待保持一致，并設置不可篡改的緊急停止開關，以強化技術保障措施。在運營環節，應明確研發者和運營者在安全保障方面的強制性義務，建立持續的監測評估和應急管理機制，對異常行為和潛在風險及時上報，確保人工智能產品與服務在面臨故障或攻擊時仍安全可靠，并將風險處于可控范圍之內。

其次，鼓勵開發者提升算法的可解釋性，推動法律與技術實踐協同發展。可將增強算法模型的可解釋性作為軟法規范的重要內容，鼓勵開發者優先采用具有內在透明性的算法模型，或通過技術手段提升復雜模型的透明度，探索建立標準明確、流程規范、結果可追溯的算法審計機制。對于涉及國家安全、公共利益等高風險領域的核心算法，在軟法治理的基礎上引入更嚴格的安全審查機制。同時，加強國際合作，推動制定形成具有國際共識的AI倫理準則、安全標準和監管框架，提升算法透明性較強的本土開源大模型在全球范圍內的競爭力。

最后，強化領域法學研究，踐行協同治理理念，提升算法治理能力。AI治理橫跨法律、技術、倫理、社會等多個領域，具有較高的復雜性。但傳統法治資源供給多呈現碎片化，難以充分揭示并有效應對算法“黑箱”、價值對齊失敗等新型風險。因此，應強化領域法學研究，整合法學、計算機科學、信息安全、認知科學等多領域的研究，圍繞算法的可解釋性、可控性、公平性等關鍵問題進行協同研究，深化對AI技術原理、運作模式及潛在風險的理解，尤其應關注深度學習模型如何偏離初始目標、規避人類指令等關鍵技術細節。為實現價值對齊、增強技術系統的安全性，應協同多方治理主體積極參與算法治理，提升治理能力，從而推動科技向善，真正造福人類。

（作者單位：吉林大學法學院）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.