監(jiān)管前沿人工智能模型，應(yīng)對公共安全領(lǐng)域新興風(fēng)險

2025-06-24 17:35:53　來源: 全球技術(shù)地圖

北京舉報

分享至

在科技飛速發(fā)展的當(dāng)下，人工智能憑借強大的技術(shù)潛力，成為推動醫(yī)療、教育、科學(xué)研究等領(lǐng)域變革的核心力量，為社會發(fā)展注入新動能。然而，人工智能的快速發(fā)展也帶來了不容忽視的安全風(fēng)險。尤其是“前沿人工智能模型”這類具有高度通用能力的基礎(chǔ)模型，其潛在的“危險能力”如同一把雙刃劍，在創(chuàng)造價值的同時，也可能被惡意利用，對社會穩(wěn)定和人類安全構(gòu)成嚴(yán)重威脅。因此，深入探討前沿人工智能模型帶來的監(jiān)管挑戰(zhàn)，并構(gòu)建有效的監(jiān)管框架和安全標(biāo)準(zhǔn)，成為當(dāng)前亟待解決的重要課題。

一、前沿人工智能模型的定義

前沿人工智能模型被定義為“具有高度能力的基礎(chǔ)模型，同時可能具備對公共安全構(gòu)成嚴(yán)重威脅的危險能力”。例如生成高度個性化的虛假信息，干擾公眾認(rèn)知，影響輿論走向，甚至破壞選舉公正性；逃避人類控制，使模型脫離開發(fā)者和使用者的掌控，按照不可預(yù)知的方式運行，引發(fā)不可控的后果。

二、前沿人工智能模型的監(jiān)管挑戰(zhàn)

（一）模型能力難以預(yù)測的問題

前沿人工智能模型可能具備制造安全風(fēng)險的“危險能力”。這些能力具有極強的隱蔽性和突發(fā)性。在模型的測試階段，開發(fā)者往往只能基于有限的場景和數(shù)據(jù)進行測試，無法全面覆蓋所有可能的情況。因此，可能會有一些“危險能力”潛藏在模型中，未能被及時察覺。當(dāng)模型被部署到實際應(yīng)用場景后，隨著數(shù)據(jù)輸入的變化、使用方式的調(diào)整，這些“危險能力”可能會突然顯現(xiàn)。模型的微調(diào)過程原本是為了讓模型更好地適應(yīng)特定任務(wù)，但在這一過程中，也可能意外激活新的“危險能力”。當(dāng)模型與其他工具結(jié)合使用，實現(xiàn)功能增強時，同樣可能產(chǎn)生不可控的能力變化，給監(jiān)管帶來巨大挑戰(zhàn)，因為監(jiān)管者很難提前預(yù)判這些潛在的風(fēng)險。

（二）模型被惡意使用的安全問題

在實際應(yīng)用中，要完全控制前沿人工智能模型的行為幾乎是不可能的。即使開發(fā)者在模型設(shè)計階段采取了多種安全措施，如內(nèi)容過濾，試圖阻止模型生成有害內(nèi)容，但這些措施并非無懈可擊。攻擊者可以通過對抗性攻擊，精心設(shè)計特殊的輸入指令，繞過安全防護，誘導(dǎo)模型產(chǎn)生惡意輸出。

以內(nèi)容過濾為例，攻擊者可能使用隱晦的語言、變形的文本格式，或者利用模型的理解偏差，突破過濾機制，使模型生成虛假信息、攻擊性言論，甚至用于網(wǎng)絡(luò)攻擊的代碼，而現(xiàn)有的安全技術(shù)手段在對抗這類攻擊時，往往處于被動應(yīng)對的局面，難以從根本上解決部署安全問題。

（三）開源模型快速擴散而難以管控的
安全問題

前沿人工智能模型的快速擴散特性，讓監(jiān)管工作變得更加復(fù)雜和棘手。開源模式雖然促進了技術(shù)的共享和創(chuàng)新，但也使得模型的傳播失去了有效控制。一旦模型開源，任何人都可以獲取其代碼和權(quán)重，進行二次開發(fā)和使用，其中不乏別有用心之人。

技術(shù)復(fù)制的低成本和便捷性，以及可能存在的竊取行為，進一步加速了模型的擴散。Meta的LLaMA的源代碼與模型權(quán)重泄露事件就是典型案例，該事件不僅導(dǎo)致模型在未經(jīng)授權(quán)的情況下被廣泛使用，還衍生出一系列基于該模型的惡意應(yīng)用，使得監(jiān)管機構(gòu)難以追蹤和管控，嚴(yán)重削弱了監(jiān)管的有效性。

三、監(jiān)管框架的核心要素

（一）制定安全標(biāo)準(zhǔn)

面對前沿人工智能模型帶來的復(fù)雜風(fēng)險，制定科學(xué)合理的安全標(biāo)準(zhǔn)是監(jiān)管的基礎(chǔ)。這需要政府、企業(yè)、學(xué)術(shù)界、社會組織等多利益相關(guān)方共同參與，發(fā)揮各自的專業(yè)優(yōu)勢。政府可以提供政策指導(dǎo)和法律支持，企業(yè)熟悉技術(shù)應(yīng)用場景和實際需求，學(xué)術(shù)界具備深厚的理論研究能力，社會組織則能反映公眾的利益訴求。

通過多方合作，共同研究和制定開發(fā)與部署前沿人工智能模型的安全標(biāo)準(zhǔn)。并且由于人工智能技術(shù)發(fā)展日新月異，安全標(biāo)準(zhǔn)不能一成不變，必須建立動態(tài)更新機制，及時根據(jù)技術(shù)的演進和新出現(xiàn)的風(fēng)險，調(diào)整和完善標(biāo)準(zhǔn)內(nèi)容，確保其始終具有針對性和有效性。

（二）增強監(jiān)管透明度

為了實現(xiàn)對前沿人工智能模型的有效監(jiān)管，增強監(jiān)管透明度至關(guān)重要。這要求企業(yè)向監(jiān)管機構(gòu)全面披露模型的開發(fā)過程，包括數(shù)據(jù)來源、訓(xùn)練算法、參數(shù)設(shè)置等關(guān)鍵信息；提供詳細的能力評估結(jié)果，明確模型在不同任務(wù)和場景下的能力表現(xiàn)；闡述具體的風(fēng)險控制措施，說明如何防范和應(yīng)對可能出現(xiàn)的安全風(fēng)險。

建立第三方審計機制，由獨立的專業(yè)機構(gòu)對企業(yè)披露的信息進行審核驗證，確保信息的真實性和準(zhǔn)確性。同時，設(shè)立舉報人保護機制，鼓勵企業(yè)內(nèi)部人員或其他知情者在發(fā)現(xiàn)安全隱患或違規(guī)行為時，能夠放心地向監(jiān)管機構(gòu)舉報，從而形成全方位的監(jiān)督體系。

（三）確保合規(guī)執(zhí)行

確保企業(yè)遵守監(jiān)管規(guī)定，需要多種手段相結(jié)合。一方面，鼓勵企業(yè)開展自愿認(rèn)證與自我監(jiān)管，通過行業(yè)自律組織，制定行業(yè)規(guī)范和標(biāo)準(zhǔn)，引導(dǎo)企業(yè)自覺落實安全要求。企業(yè)通過自我評估和改進，不僅可以提升自身的安全管理水平，還能在市場競爭中樹立良好的形象。另一方面，賦予監(jiān)管機構(gòu)強制執(zhí)法權(quán)力，對違規(guī)企業(yè)進行嚴(yán)厲處罰。對于違反安全標(biāo)準(zhǔn)、存在安全隱患的企業(yè)，監(jiān)管機構(gòu)可以采取罰款、吊銷許可證、市場禁入等措施，以起到威懾作用，確保企業(yè)不敢輕易違規(guī)。

針對高風(fēng)險的前沿人工智能模型，實施許可證管理，類似于醫(yī)藥或航空行業(yè)的嚴(yán)格審批制度。企業(yè)在開發(fā)和部署這類模型前，必須向監(jiān)管機構(gòu)申請許可證，經(jīng)過嚴(yán)格的審查和評估，符合安全要求的才能獲得許可，從而從源頭上控制高風(fēng)險模型的應(yīng)用。

四、初步安全標(biāo)準(zhǔn)建議

（一）全面的風(fēng)險評估

在前沿人工智能模型的訓(xùn)練和部署前，要進行全面的風(fēng)險評估。評估內(nèi)容主要包括模型的危險能力和可控性兩個方面。針對危險能力，要重點評估模型是否具備設(shè)計生化武器、生成惡意信息等潛在危害能力；對于可控性，則要考察模型抵抗對抗性攻擊的能力、對有害指令的識別和拒絕能力等。

采用標(biāo)準(zhǔn)化的測試方法，確保評估過程的科學(xué)性和公正性，使不同模型的評估結(jié)果具有可比性。同時，定期更新評估流程，根據(jù)技術(shù)發(fā)展和新出現(xiàn)的風(fēng)險類型，不斷完善評估指標(biāo)和方法，保證風(fēng)險評估能夠準(zhǔn)確反映模型的實際安全狀況。

（二）引入外部專家審查

為了更全面、深入地發(fā)現(xiàn)前沿人工智能模型的潛在風(fēng)險，引入外部專家審查機制十分必要。由獨立的第三方機構(gòu)組織計算機科學(xué)家、安全專家、倫理學(xué)家等多領(lǐng)域的專業(yè)人士，對模型進行安全審計和“紅隊測試”。

安全審計主要檢查模型的設(shè)計架構(gòu)、代碼質(zhì)量、安全措施等方面是否存在漏洞；“紅隊測試”則模擬真實的攻擊場景，通過各種手段嘗試誘導(dǎo)模型產(chǎn)生惡意輸出，從而發(fā)現(xiàn)模型在安全防護方面的薄弱環(huán)節(jié)。這些外部專家憑借其專業(yè)知識和豐富經(jīng)驗，能夠發(fā)現(xiàn)企業(yè)自身難以察覺的潛在風(fēng)險，為模型的安全優(yōu)化提供重要參考。

（三）分級部署協(xié)議

根據(jù)風(fēng)險評估的結(jié)果，對前沿人工智能模型實施分級部署協(xié)議，實現(xiàn)差異化管理。對于經(jīng)過評估確定無風(fēng)險的模型，可以允許自由部署，充分發(fā)揮其技術(shù)價值，促進人工智能技術(shù)的廣泛應(yīng)用。

對于存在部分風(fēng)險的模型，要限制其使用場景，例如禁止進行微調(diào)，防止在微調(diào)過程中激活新的危險能力；對模型的使用范圍、用戶群體進行限制，降低風(fēng)險發(fā)生的概率。而對于高風(fēng)險的模型，應(yīng)嚴(yán)格禁止部署，并要求企業(yè)對模型進行銷毀，從根本上消除安全隱患，確保公共安全不受威脅。

（四）持續(xù)監(jiān)控與響應(yīng)

模型部署后，監(jiān)管工作并非結(jié)束，而是進入持續(xù)監(jiān)控與響應(yīng)階段。建立完善的監(jiān)控體系，跟蹤模型的使用情況，收集用戶的反饋信息，分析模型的輸出內(nèi)容，及時發(fā)現(xiàn)異常行為和潛在風(fēng)險。

根據(jù)監(jiān)控結(jié)果，動態(tài)調(diào)整模型的風(fēng)險等級。如果發(fā)現(xiàn)模型出現(xiàn)新的危險能力或安全漏洞，要迅速采取相應(yīng)的安全措施，如暫停服務(wù)、進行緊急修復(fù)、重新評估風(fēng)險等級等，確保能夠及時應(yīng)對各種突發(fā)情況，保障模型的安全穩(wěn)定運行。

五、監(jiān)管的不確定性與挑戰(zhàn)

（一）定義難題

在對前沿人工智能模型進行監(jiān)管時，首先面臨的難題就是如何精確界定“前沿人工智能模型”和“危險能力”。隨著人工智能技術(shù)的不斷發(fā)展，模型的類型和功能日益復(fù)雜多樣，難以用簡單的標(biāo)準(zhǔn)進行區(qū)分。同樣，“危險能力”的邊界也十分模糊，一些能力在特定場景下可能是有益的，但在其他情況下卻可能帶來危害，如何準(zhǔn)確劃分其界限，是監(jiān)管工作面臨的重要挑戰(zhàn)，需要進一步深入研究和探討。

（二）創(chuàng)新與安全的平衡

監(jiān)管的目的是保障公共安全，但過度監(jiān)管可能會對技術(shù)創(chuàng)新產(chǎn)生抑制作用。對于小企業(yè)和學(xué)術(shù)研究機構(gòu)來說，過于嚴(yán)格的監(jiān)管要求可能會增加其研發(fā)成本和合規(guī)負(fù)擔(dān)，阻礙創(chuàng)新的步伐。因此，在制定監(jiān)管政策和措施時，需要找到創(chuàng)新與安全的平衡點，既要確保人工智能技術(shù)的應(yīng)用安全可控，又要為企業(yè)和科研機構(gòu)留出足夠的創(chuàng)新空間，促進人工智能技術(shù)的健康發(fā)展。

（三）國際合作需求

人工智能技術(shù)的發(fā)展和應(yīng)用具有全球性特點，單一國家的監(jiān)管難以應(yīng)對技術(shù)外流帶來的風(fēng)險。如果某個國家對前沿人工智能模型實施嚴(yán)格監(jiān)管，而其他國家監(jiān)管寬松，那么技術(shù)就可能流向監(jiān)管薄弱地區(qū)，導(dǎo)致監(jiān)管失效。因此，推動國際合作，制定全球性的監(jiān)管標(biāo)準(zhǔn)和規(guī)則至關(guān)重要。各國應(yīng)加強溝通與協(xié)作，分享監(jiān)管經(jīng)驗，共同應(yīng)對前沿人工智能模型帶來的公共安全挑戰(zhàn)，構(gòu)建全球統(tǒng)一的人工智能治理體系。

六、展望

前沿人工智能模型的監(jiān)管是一項復(fù)雜而艱巨的任務(wù)，它關(guān)乎技術(shù)創(chuàng)新與公共安全的平衡。通過建立動態(tài)的安全標(biāo)準(zhǔn)、增強監(jiān)管透明度和嚴(yán)格執(zhí)行合規(guī)機制，政府與企業(yè)能夠形成合力，共同降低前沿人工智能模型帶來的風(fēng)險。然而，當(dāng)前的監(jiān)管工作仍面臨諸多挑戰(zhàn)，未來需要進一步細化監(jiān)管定義，明確監(jiān)管邊界；加強國際合作，建立全球協(xié)同的監(jiān)管體系；持續(xù)優(yōu)化評估方法，提高監(jiān)管的科學(xué)性和有效性。只有這樣，才能確保人工智能技術(shù)在安全的軌道上發(fā)展，真正造福人類社會。

免責(zé)聲明：本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個人觀點，本公眾號編譯/轉(zhuǎn)載僅為分享、傳達不同觀點，如有任何異議，歡迎聯(lián)系我們！

轉(zhuǎn)自丨啟元洞見

研究所簡介

國際技術(shù)經(jīng)濟研究所（IITE）成立于1985年11月，是隸屬于國務(wù)院發(fā)展研究中心的非營利性研究機構(gòu)，主要職能是研究我國經(jīng)濟、科技社會發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題，跟蹤和分析世界科技、經(jīng)濟發(fā)展態(tài)勢，為中央和有關(guān)部委提供決策咨詢服務(wù)。“全球技術(shù)地圖”為國際技術(shù)經(jīng)濟研究所官方微信賬號，致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。

地址：北京市海淀區(qū)小南莊20號樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數(shù)碼

房產(chǎn) / 家居

監(jiān)管前沿人工智能模型，應(yīng)對公共安全領(lǐng)域新興風(fēng)險