在科技飛速發(fā)展的當(dāng)下,人工智能憑借強大的技術(shù)潛力,成為推動醫(yī)療、教育、科學(xué)研究等領(lǐng)域變革的核心力量,為社會發(fā)展注入新動能。然而,人工智能的快速發(fā)展也帶來了不容忽視的安全風(fēng)險。尤其是“前沿人工智能模型”這類具有高度通用能力的基礎(chǔ)模型,其潛在的“危險能力”如同一把雙刃劍,在創(chuàng)造價值的同時,也可能被惡意利用,對社會穩(wěn)定和人類安全構(gòu)成嚴(yán)重威脅。因此,深入探討前沿人工智能模型帶來的監(jiān)管挑戰(zhàn),并構(gòu)建有效的監(jiān)管框架和安全標(biāo)準(zhǔn),成為當(dāng)前亟待解決的重要課題。
一、前沿人工智能模型的定義
前沿人工智能模型被定義為“具有高度能力的基礎(chǔ)模型,同時可能具備對公共安全構(gòu)成嚴(yán)重威脅的危險能力”。例如生成高度個性化的虛假信息,干擾公眾認(rèn)知,影響輿論走向,甚至破壞選舉公正性;逃避人類控制,使模型脫離開發(fā)者和使用者的掌控,按照不可預(yù)知的方式運行,引發(fā)不可控的后果。
二、前沿人工智能模型的監(jiān)管挑戰(zhàn)
(一)模型能力難以預(yù)測的問題
前沿人工智能模型可能具備制造安全風(fēng)險的“危險能力”。這些能力具有極強的隱蔽性和突發(fā)性。在模型的測試階段,開發(fā)者往往只能基于有限的場景和數(shù)據(jù)進行測試,無法全面覆蓋所有可能的情況。因此,可能會有一些“危險能力”潛藏在模型中,未能被及時察覺。當(dāng)模型被部署到實際應(yīng)用場景后,隨著數(shù)據(jù)輸入的變化、使用方式的調(diào)整,這些“危險能力”可能會突然顯現(xiàn)。模型的微調(diào)過程原本是為了讓模型更好地適應(yīng)特定任務(wù),但在這一過程中,也可能意外激活新的“危險能力”。當(dāng)模型與其他工具結(jié)合使用,實現(xiàn)功能增強時,同樣可能產(chǎn)生不可控的能力變化,給監(jiān)管帶來巨大挑戰(zhàn),因為監(jiān)管者很難提前預(yù)判這些潛在的風(fēng)險。
(二)模型被惡意使用的安全問題
在實際應(yīng)用中,要完全控制前沿人工智能模型的行為幾乎是不可能的。即使開發(fā)者在模型設(shè)計階段采取了多種安全措施,如內(nèi)容過濾,試圖阻止模型生成有害內(nèi)容,但這些措施并非無懈可擊。攻擊者可以通過對抗性攻擊,精心設(shè)計特殊的輸入指令,繞過安全防護,誘導(dǎo)模型產(chǎn)生惡意輸出。
以內(nèi)容過濾為例,攻擊者可能使用隱晦的語言、變形的文本格式,或者利用模型的理解偏差,突破過濾機制,使模型生成虛假信息、攻擊性言論,甚至用于網(wǎng)絡(luò)攻擊的代碼,而現(xiàn)有的安全技術(shù)手段在對抗這類攻擊時,往往處于被動應(yīng)對的局面,難以從根本上解決部署安全問題。
(三)開源模型快速擴散而難以管控的
安全問題
前沿人工智能模型的快速擴散特性,讓監(jiān)管工作變得更加復(fù)雜和棘手。開源模式雖然促進了技術(shù)的共享和創(chuàng)新,但也使得模型的傳播失去了有效控制。一旦模型開源,任何人都可以獲取其代碼和權(quán)重,進行二次開發(fā)和使用,其中不乏別有用心之人。
技術(shù)復(fù)制的低成本和便捷性,以及可能存在的竊取行為,進一步加速了模型的擴散。Meta的LLaMA的源代碼與模型權(quán)重泄露事件就是典型案例,該事件不僅導(dǎo)致模型在未經(jīng)授權(quán)的情況下被廣泛使用,還衍生出一系列基于該模型的惡意應(yīng)用,使得監(jiān)管機構(gòu)難以追蹤和管控,嚴(yán)重削弱了監(jiān)管的有效性。
三、監(jiān)管框架的核心要素
(一)制定安全標(biāo)準(zhǔn)
面對前沿人工智能模型帶來的復(fù)雜風(fēng)險,制定科學(xué)合理的安全標(biāo)準(zhǔn)是監(jiān)管的基礎(chǔ)。這需要政府、企業(yè)、學(xué)術(shù)界、社會組織等多利益相關(guān)方共同參與,發(fā)揮各自的專業(yè)優(yōu)勢。政府可以提供政策指導(dǎo)和法律支持,企業(yè)熟悉技術(shù)應(yīng)用場景和實際需求,學(xué)術(shù)界具備深厚的理論研究能力,社會組織則能反映公眾的利益訴求。
通過多方合作,共同研究和制定開發(fā)與部署前沿人工智能模型的安全標(biāo)準(zhǔn)。并且由于人工智能技術(shù)發(fā)展日新月異,安全標(biāo)準(zhǔn)不能一成不變,必須建立動態(tài)更新機制,及時根據(jù)技術(shù)的演進和新出現(xiàn)的風(fēng)險,調(diào)整和完善標(biāo)準(zhǔn)內(nèi)容,確保其始終具有針對性和有效性。
(二)增強監(jiān)管透明度
為了實現(xiàn)對前沿人工智能模型的有效監(jiān)管,增強監(jiān)管透明度至關(guān)重要。這要求企業(yè)向監(jiān)管機構(gòu)全面披露模型的開發(fā)過程,包括數(shù)據(jù)來源、訓(xùn)練算法、參數(shù)設(shè)置等關(guān)鍵信息;提供詳細的能力評估結(jié)果,明確模型在不同任務(wù)和場景下的能力表現(xiàn);闡述具體的風(fēng)險控制措施,說明如何防范和應(yīng)對可能出現(xiàn)的安全風(fēng)險。
建立第三方審計機制,由獨立的專業(yè)機構(gòu)對企業(yè)披露的信息進行審核驗證,確保信息的真實性和準(zhǔn)確性。同時,設(shè)立舉報人保護機制,鼓勵企業(yè)內(nèi)部人員或其他知情者在發(fā)現(xiàn)安全隱患或違規(guī)行為時,能夠放心地向監(jiān)管機構(gòu)舉報,從而形成全方位的監(jiān)督體系。
(三)確保合規(guī)執(zhí)行
確保企業(yè)遵守監(jiān)管規(guī)定,需要多種手段相結(jié)合。一方面,鼓勵企業(yè)開展自愿認(rèn)證與自我監(jiān)管,通過行業(yè)自律組織,制定行業(yè)規(guī)范和標(biāo)準(zhǔn),引導(dǎo)企業(yè)自覺落實安全要求。企業(yè)通過自我評估和改進,不僅可以提升自身的安全管理水平,還能在市場競爭中樹立良好的形象。另一方面,賦予監(jiān)管機構(gòu)強制執(zhí)法權(quán)力,對違規(guī)企業(yè)進行嚴(yán)厲處罰。對于違反安全標(biāo)準(zhǔn)、存在安全隱患的企業(yè),監(jiān)管機構(gòu)可以采取罰款、吊銷許可證、市場禁入等措施,以起到威懾作用,確保企業(yè)不敢輕易違規(guī)。
針對高風(fēng)險的前沿人工智能模型,實施許可證管理,類似于醫(yī)藥或航空行業(yè)的嚴(yán)格審批制度。企業(yè)在開發(fā)和部署這類模型前,必須向監(jiān)管機構(gòu)申請許可證,經(jīng)過嚴(yán)格的審查和評估,符合安全要求的才能獲得許可,從而從源頭上控制高風(fēng)險模型的應(yīng)用。
四、初步安全標(biāo)準(zhǔn)建議
(一)全面的風(fēng)險評估
在前沿人工智能模型的訓(xùn)練和部署前,要進行全面的風(fēng)險評估。評估內(nèi)容主要包括模型的危險能力和可控性兩個方面。針對危險能力,要重點評估模型是否具備設(shè)計生化武器、生成惡意信息等潛在危害能力;對于可控性,則要考察模型抵抗對抗性攻擊的能力、對有害指令的識別和拒絕能力等。
采用標(biāo)準(zhǔn)化的測試方法,確保評估過程的科學(xué)性和公正性,使不同模型的評估結(jié)果具有可比性。同時,定期更新評估流程,根據(jù)技術(shù)發(fā)展和新出現(xiàn)的風(fēng)險類型,不斷完善評估指標(biāo)和方法,保證風(fēng)險評估能夠準(zhǔn)確反映模型的實際安全狀況。
(二)引入外部專家審查
為了更全面、深入地發(fā)現(xiàn)前沿人工智能模型的潛在風(fēng)險,引入外部專家審查機制十分必要。由獨立的第三方機構(gòu)組織計算機科學(xué)家、安全專家、倫理學(xué)家等多領(lǐng)域的專業(yè)人士,對模型進行安全審計和“紅隊測試”。
安全審計主要檢查模型的設(shè)計架構(gòu)、代碼質(zhì)量、安全措施等方面是否存在漏洞;“紅隊測試”則模擬真實的攻擊場景,通過各種手段嘗試誘導(dǎo)模型產(chǎn)生惡意輸出,從而發(fā)現(xiàn)模型在安全防護方面的薄弱環(huán)節(jié)。這些外部專家憑借其專業(yè)知識和豐富經(jīng)驗,能夠發(fā)現(xiàn)企業(yè)自身難以察覺的潛在風(fēng)險,為模型的安全優(yōu)化提供重要參考。
(三)分級部署協(xié)議
根據(jù)風(fēng)險評估的結(jié)果,對前沿人工智能模型實施分級部署協(xié)議,實現(xiàn)差異化管理。對于經(jīng)過評估確定無風(fēng)險的模型,可以允許自由部署,充分發(fā)揮其技術(shù)價值,促進人工智能技術(shù)的廣泛應(yīng)用。
對于存在部分風(fēng)險的模型,要限制其使用場景,例如禁止進行微調(diào),防止在微調(diào)過程中激活新的危險能力;對模型的使用范圍、用戶群體進行限制,降低風(fēng)險發(fā)生的概率。而對于高風(fēng)險的模型,應(yīng)嚴(yán)格禁止部署,并要求企業(yè)對模型進行銷毀,從根本上消除安全隱患,確保公共安全不受威脅。
(四)持續(xù)監(jiān)控與響應(yīng)
模型部署后,監(jiān)管工作并非結(jié)束,而是進入持續(xù)監(jiān)控與響應(yīng)階段。建立完善的監(jiān)控體系,跟蹤模型的使用情況,收集用戶的反饋信息,分析模型的輸出內(nèi)容,及時發(fā)現(xiàn)異常行為和潛在風(fēng)險。
根據(jù)監(jiān)控結(jié)果,動態(tài)調(diào)整模型的風(fēng)險等級。如果發(fā)現(xiàn)模型出現(xiàn)新的危險能力或安全漏洞,要迅速采取相應(yīng)的安全措施,如暫停服務(wù)、進行緊急修復(fù)、重新評估風(fēng)險等級等,確保能夠及時應(yīng)對各種突發(fā)情況,保障模型的安全穩(wěn)定運行。
五、監(jiān)管的不確定性與挑戰(zhàn)
(一)定義難題
在對前沿人工智能模型進行監(jiān)管時,首先面臨的難題就是如何精確界定“前沿人工智能模型”和“危險能力”。隨著人工智能技術(shù)的不斷發(fā)展,模型的類型和功能日益復(fù)雜多樣,難以用簡單的標(biāo)準(zhǔn)進行區(qū)分。同樣,“危險能力”的邊界也十分模糊,一些能力在特定場景下可能是有益的,但在其他情況下卻可能帶來危害,如何準(zhǔn)確劃分其界限,是監(jiān)管工作面臨的重要挑戰(zhàn),需要進一步深入研究和探討。
(二)創(chuàng)新與安全的平衡
監(jiān)管的目的是保障公共安全,但過度監(jiān)管可能會對技術(shù)創(chuàng)新產(chǎn)生抑制作用。對于小企業(yè)和學(xué)術(shù)研究機構(gòu)來說,過于嚴(yán)格的監(jiān)管要求可能會增加其研發(fā)成本和合規(guī)負(fù)擔(dān),阻礙創(chuàng)新的步伐。因此,在制定監(jiān)管政策和措施時,需要找到創(chuàng)新與安全的平衡點,既要確保人工智能技術(shù)的應(yīng)用安全可控,又要為企業(yè)和科研機構(gòu)留出足夠的創(chuàng)新空間,促進人工智能技術(shù)的健康發(fā)展。
(三)國際合作需求
人工智能技術(shù)的發(fā)展和應(yīng)用具有全球性特點,單一國家的監(jiān)管難以應(yīng)對技術(shù)外流帶來的風(fēng)險。如果某個國家對前沿人工智能模型實施嚴(yán)格監(jiān)管,而其他國家監(jiān)管寬松,那么技術(shù)就可能流向監(jiān)管薄弱地區(qū),導(dǎo)致監(jiān)管失效。因此,推動國際合作,制定全球性的監(jiān)管標(biāo)準(zhǔn)和規(guī)則至關(guān)重要。各國應(yīng)加強溝通與協(xié)作,分享監(jiān)管經(jīng)驗,共同應(yīng)對前沿人工智能模型帶來的公共安全挑戰(zhàn),構(gòu)建全球統(tǒng)一的人工智能治理體系。
六、展望
前沿人工智能模型的監(jiān)管是一項復(fù)雜而艱巨的任務(wù),它關(guān)乎技術(shù)創(chuàng)新與公共安全的平衡。通過建立動態(tài)的安全標(biāo)準(zhǔn)、增強監(jiān)管透明度和嚴(yán)格執(zhí)行合規(guī)機制,政府與企業(yè)能夠形成合力,共同降低前沿人工智能模型帶來的風(fēng)險。然而,當(dāng)前的監(jiān)管工作仍面臨諸多挑戰(zhàn),未來需要進一步細化監(jiān)管定義,明確監(jiān)管邊界;加強國際合作,建立全球協(xié)同的監(jiān)管體系;持續(xù)優(yōu)化評估方法,提高監(jiān)管的科學(xué)性和有效性。只有這樣,才能確保人工智能技術(shù)在安全的軌道上發(fā)展,真正造福人類社會。
免責(zé)聲明:本文轉(zhuǎn)自啟元洞見。文章內(nèi)容系原作者個人觀點,本公眾號編譯/轉(zhuǎn)載僅為分享、傳達不同觀點,如有任何異議,歡迎聯(lián)系我們!
轉(zhuǎn)自丨啟元洞見
研究所簡介
國際技術(shù)經(jīng)濟研究所(IITE)成立于1985年11月,是隸屬于國務(wù)院發(fā)展研究中心的非營利性研究機構(gòu),主要職能是研究我國經(jīng)濟、科技社會發(fā)展中的重大政策性、戰(zhàn)略性、前瞻性問題,跟蹤和分析世界科技、經(jīng)濟發(fā)展態(tài)勢,為中央和有關(guān)部委提供決策咨詢服務(wù)。“全球技術(shù)地圖”為國際技術(shù)經(jīng)濟研究所官方微信賬號,致力于向公眾傳遞前沿技術(shù)資訊和科技創(chuàng)新洞見。
地址:北京市海淀區(qū)小南莊20號樓A座
電話:010-82635522
微信:iite_er
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.