DeepSeek 的橫空出世,標(biāo)志中國(guó)在人工智能領(lǐng)域的重大技術(shù)突破,吸引全球的關(guān)注。與此同時(shí),飛速發(fā)展的人工智能技術(shù)為安全行業(yè)帶來(lái)新的思考題:如何利用 AI 賦能安全攻防,如何確保 AI 技術(shù)本身的安全性,均成為開(kāi)發(fā)者和企業(yè)關(guān)注的焦點(diǎn)。大模型時(shí)代下,如何探索安全破局之道?
3 月 30 日,「大模型時(shí)代:安全如何洗牌」TVP AI 與安全高峰論壇在北京圓滿(mǎn)落幕。本次論壇匯聚安全領(lǐng)域產(chǎn)學(xué)研的頂尖專(zhuān)家和行業(yè)領(lǐng)袖,聚焦大模型時(shí)代 AI 與安全的熱點(diǎn)話(huà)題,從技術(shù)突破、產(chǎn)業(yè)實(shí)踐到風(fēng)險(xiǎn)治理等多個(gè)維度,探討 AI 與安全的新技術(shù)、新應(yīng)用及新思考。論壇上半場(chǎng)圍繞“AI 賦能安全”,深入討論 AI 如何推動(dòng)安全能力升級(jí),解析大模型帶來(lái)的新機(jī)遇;下半場(chǎng)以“護(hù)航 AI 安全”為主題,面對(duì) AI 自身的安全挑戰(zhàn),探討 AI 安全發(fā)展方向,整體論壇為與會(huì)者提供從技術(shù)應(yīng)用到風(fēng)險(xiǎn)治理的全景視角,這是一場(chǎng)解碼 AI 與安全融合發(fā)展的技術(shù)盛宴。
主持人開(kāi)場(chǎng)
賽博英杰科技創(chuàng)始人&CEO、CCF TF安全SIG 主席 譚曉生
主持人賽博英杰科技創(chuàng)始人&CEO、CCF TF 安全SIG主席譚曉生在開(kāi)場(chǎng)時(shí)表示,在過(guò)去兩年中,隨著 ChatGPT的推出,人工智能取得顯著進(jìn)展,在各行各業(yè)得到廣泛應(yīng)用,國(guó)內(nèi)安全企業(yè)紛紛加大在AI領(lǐng)域的投入。然而,當(dāng)大家在部署大模型應(yīng)用的過(guò)程中,大模型自身的安全問(wèn)題逐漸顯現(xiàn)。這一現(xiàn)象與十年前大數(shù)據(jù)概念興起時(shí)的經(jīng)歷相似:開(kāi)發(fā)者和企業(yè)先是思考利用新技術(shù)提升安全能力,再來(lái)解決新技術(shù)本身的安全問(wèn)題。我在安全行業(yè)深耕 30 多年,相信 AI 將引發(fā)行業(yè)的重大洗牌。本次活動(dòng)是一個(gè)難得的機(jī)會(huì),我們邀請(qǐng)到業(yè)內(nèi)頂尖專(zhuān)家共同研討相關(guān)話(huà)題,以推動(dòng)安全行業(yè)的進(jìn)步與發(fā)展。
開(kāi)場(chǎng)致辭
騰訊安全副總裁、云鼎實(shí)驗(yàn)室負(fù)責(zé)人 董志強(qiáng)
會(huì)議伊始,騰訊安全副總裁、云鼎實(shí)驗(yàn)室負(fù)責(zé)人 董志強(qiáng)發(fā)表開(kāi)場(chǎng)致辭。他指出,以 GPT 為代表的大模型技術(shù)為安全領(lǐng)域帶來(lái)革命性的影響。攻擊者利用大模型技術(shù),使得攻擊手段更加工業(yè)化且成本降低,但是防御方相對(duì)有些滯后,這種情況下可能會(huì)進(jìn)一步加劇攻防不對(duì)稱(chēng),增加防御難度。此外,在訓(xùn)練大模型時(shí),數(shù)據(jù)脫敏等安全性問(wèn)題不可小覷。在大模型的部署階段,我們還需警惕越權(quán)訪(fǎng)問(wèn)、GPU 資源濫用等潛在的安全隱患。針對(duì)以上問(wèn)題,董志強(qiáng)建議使用小模型或?qū)S冒踩P鸵约凹訌?qiáng)合規(guī)管理措施。他表示,大模型正在重構(gòu)網(wǎng)絡(luò)安全戰(zhàn)場(chǎng),國(guó)外已有創(chuàng)業(yè)公司在探索 AI 驅(qū)動(dòng)的安全產(chǎn)品,其中蘊(yùn)藏?zé)o限的創(chuàng)新潛力與機(jī)遇,期待與大家共同交流與思想碰撞。
一、AI賦能的未來(lái)安全:創(chuàng)新趨勢(shì)和實(shí)踐探索
在上半場(chǎng)的主題演講環(huán)節(jié)中,深信服科技 AI 安全業(yè)務(wù)總經(jīng)理 張振禮發(fā)表《AI 賦能的未來(lái)安全:創(chuàng)新趨勢(shì)和實(shí)踐探索》的報(bào)告。
深信服科技 AI 安全業(yè)務(wù)總經(jīng)理 張振禮
張振禮先是分享對(duì) AI 賦能安全的理解:第一,安全本來(lái)就碎片化,不能每個(gè)安全 GPT 場(chǎng)景單獨(dú)的模型分開(kāi)部署,要統(tǒng)一規(guī)劃,通過(guò)良好的架構(gòu)設(shè)計(jì)實(shí)現(xiàn)各類(lèi)大模型算力的統(tǒng)一調(diào)度和適配;第二,基礎(chǔ)大模型持續(xù)進(jìn)化,安全大模型需要具備快速融合、集成、吸收優(yōu)秀基礎(chǔ)模型的知識(shí)和推理能力,智能體的元年開(kāi)啟,持續(xù)為安全場(chǎng)景帶來(lái)體驗(yàn)和效果的改進(jìn);第三,安全團(tuán)隊(duì)在 AI 時(shí)代要具備 RAG、微調(diào)等技能;四是開(kāi)放性,AI 時(shí)代,安全產(chǎn)品需具備適應(yīng)性以匹配不同行業(yè)的具體場(chǎng)景需求。
張振禮表示,網(wǎng)絡(luò)安全是一個(gè)對(duì)檢出率、準(zhǔn)確率有極高追求的 toB 領(lǐng)域,將任何的開(kāi)源基座大模型落地于安全領(lǐng)域,都絕非簡(jiǎn)單的接入、縫合,而是一個(gè)復(fù)雜的系統(tǒng)工程。比如 DeepSeek 在安全垂直領(lǐng)域商業(yè)落地,必須具有安全垂域大模型的實(shí)踐數(shù)據(jù)、對(duì)基座模型的安全場(chǎng)景馴化經(jīng)驗(yàn)、面向安全業(yè)務(wù)的 AI 系統(tǒng)工程,才能強(qiáng)化優(yōu)勢(shì),應(yīng)對(duì)挑戰(zhàn)。我們需經(jīng)過(guò)指令微調(diào)、預(yù)訓(xùn)練及強(qiáng)化學(xué)習(xí)三個(gè)階段,并結(jié)合專(zhuān)業(yè)經(jīng)驗(yàn)和安全語(yǔ)料進(jìn)行優(yōu)化,才能適應(yīng)特定安全場(chǎng)景需求。張振禮將 DeepSeek、GPT-4.5 等通用大模型比作安全“本科生”,通過(guò)安全指令微調(diào)和安全細(xì)分領(lǐng)域優(yōu)化,這些模型成長(zhǎng)為“碩士”,經(jīng)過(guò)系統(tǒng)化的構(gòu)建與實(shí)際應(yīng)用驗(yàn)證,它們將成為“博士”或有經(jīng)驗(yàn)的安全專(zhuān)家。
接著,張振禮分享深信服 AI 安全的落地實(shí)踐。如團(tuán)隊(duì)開(kāi)發(fā)基于 AI 的安全助手,不僅改善安全管理,還優(yōu)化安全規(guī)范及日常溝通,實(shí)現(xiàn)從被動(dòng)響應(yīng)到主動(dòng)審計(jì)的轉(zhuǎn)變,并推動(dòng)全面自動(dòng)化。此外,團(tuán)隊(duì)還提供 AI 安全培訓(xùn)體系,以增強(qiáng)大家的安全能力和安全技能。談及未來(lái),張振禮表示,從長(zhǎng)遠(yuǎn)來(lái)看,隨著多智能體協(xié)同技術(shù)的發(fā)展,安全行業(yè)將實(shí)現(xiàn)高度自動(dòng)化,形成人監(jiān)督機(jī)器等的新模式,釋放更多人力資源去處理更有價(jià)值的任務(wù)。
二、AI智能體:從思考規(guī)劃到落地執(zhí)行的安全賦能之旅
安恒信息高級(jí)副總裁、研究院院長(zhǎng) 王欣在《AI 智能體:從思考規(guī)劃到落地執(zhí)行的安全賦能之旅》中談到,2025 年被視為智能體元年,DeepSeek 的興起極大地推動(dòng)公眾對(duì) AI 智能體的認(rèn)知。
安恒信息高級(jí)副總裁、研究院院長(zhǎng) 王欣
王欣詳細(xì)介紹安恒信息在 AI 智能體的布局和發(fā)展歷程。他表示,智能體與網(wǎng)絡(luò)安全體系的融合將是未來(lái)的發(fā)展趨勢(shì),而非孤立存在。通過(guò)引入智能中臺(tái),將數(shù)據(jù)、知識(shí)、情報(bào)及安全產(chǎn)品整合為 Agent 的一部分,實(shí)現(xiàn)任務(wù)的調(diào)度與執(zhí)行,來(lái)應(yīng)對(duì)各類(lèi)安全場(chǎng)景。預(yù)計(jì)在未來(lái) 3-5 年內(nèi),這種模式將成為面向客戶(hù)側(cè)的主要發(fā)展方向,提升整體安全效能和響應(yīng)速度。
接著,王欣分享 AI 智能體給行業(yè)帶來(lái)的變革:第一,Agent 的引入標(biāo)志著安全運(yùn)營(yíng)從量變到質(zhì)變的過(guò)程,技術(shù)發(fā)展需要一定的周期;第二,智能體的出現(xiàn)使得業(yè)務(wù)專(zhuān)家從專(zhuān)才轉(zhuǎn)變?yōu)槌?jí)個(gè)體,通過(guò)減少輔助工程和崗位,讓專(zhuān)家的知識(shí)經(jīng)驗(yàn)成為核心,未來(lái)逐步出現(xiàn)一人當(dāng)崗、一人多能的情況,并利用編排系統(tǒng)將個(gè)人經(jīng)驗(yàn)沉淀為平臺(tái)經(jīng)驗(yàn),以完成更多任務(wù)。
最后,王欣回顧了過(guò)去一年對(duì) AI 智能體在安全領(lǐng)域的八個(gè)預(yù)測(cè),例如 Agent 將成為產(chǎn)業(yè)標(biāo)配,AI native 工具將成為 Agent 的手和腳;ASA 架構(gòu)將在 AI 智能體影響下升級(jí)等等,他指出,部分預(yù)測(cè)可能未能完全符合實(shí)際發(fā)展軌跡,并提出今年將重新審視相關(guān)趨勢(shì),依托更嚴(yán)謹(jǐn)?shù)姆治隹蚣芘c數(shù)據(jù)支撐體系,結(jié)合對(duì)技術(shù)演進(jìn)的深度洞察,探索實(shí)現(xiàn)類(lèi)似 AI 級(jí)精準(zhǔn)預(yù)測(cè)的可能性。
三、安全大模型發(fā)展路徑洞察與實(shí)踐
360集團(tuán)首席科學(xué)家、360數(shù)字安全集團(tuán)CTO、CCF杰出工程師獎(jiǎng)獲得者 潘劍鋒發(fā)表《安全大模型發(fā)展路徑洞察與實(shí)踐》的主題演講。
360 集團(tuán)首席科學(xué)家、360 數(shù)字安全集團(tuán) CTO、CCF 杰出工程師獎(jiǎng)獲得者 潘劍鋒
潘劍鋒先是討論大模型的理解能力,引入“快慢思考”概念來(lái)評(píng)估當(dāng)前大模型的能力。他表示目前大模型的價(jià)值是很好地模擬人腦的“快思考”,即大模型通過(guò)海量數(shù)據(jù)訓(xùn)練,做文字符號(hào)層面的統(tǒng)計(jì)處理,從數(shù)據(jù)中找出統(tǒng)計(jì)性規(guī)律,在概括的意義上掌握學(xué)習(xí)樣本所反映的隱含知識(shí),并以此為基礎(chǔ)生成內(nèi)容。而“慢思考”需要對(duì)事物具有本質(zhì)性理解,需借助事實(shí)性知識(shí),通過(guò)多步推理、反思,是“深思熟慮”的結(jié)晶。針對(duì)慢思考任務(wù)的場(chǎng)景中,當(dāng)前可編排專(zhuān)家經(jīng)驗(yàn),整合安全大模型、知識(shí)庫(kù)、工具庫(kù)的能力,實(shí)現(xiàn)半自主的推理Agent。
當(dāng)前,國(guó)內(nèi)大模型賦能安全產(chǎn)品主要采用兩種不同層次的方式:一是直接使用通用大模型的能力實(shí)現(xiàn)安全應(yīng)用;二是應(yīng)用安全垂直大模型。這兩種方式之間的區(qū)別就像“一個(gè)博學(xué)的人拿著醫(yī)科全書(shū)”與“主任醫(yī)師”,前者雖然能夠查到專(zhuān)業(yè)知識(shí),但是不能夠貫通運(yùn)用;后者是具有豐富的臨床實(shí)踐經(jīng)驗(yàn)。安全垂直大模型能夠?qū)?zhuān)業(yè)的安全數(shù)據(jù)真正訓(xùn)練進(jìn)入模型中。
潘劍鋒分享如何基于以上理論進(jìn)行落地實(shí)踐,包括安全語(yǔ)料生產(chǎn)、模型分區(qū)訓(xùn)練和慢思考實(shí)現(xiàn)方式。高質(zhì)量的安全語(yǔ)料被視為行業(yè)的護(hù)城河,360首創(chuàng)的CoE技術(shù)架構(gòu)允許不同的安全專(zhuān)家分區(qū)訓(xùn)練各自的模型,有效減少多任務(wù)沖突、過(guò)擬合等問(wèn)題,保證訓(xùn)練效果同時(shí)降低資源消耗。
潘劍鋒目前基于推理時(shí)計(jì)算擴(kuò)展的方法,在外延方面進(jìn)行創(chuàng)新,還嘗試做本質(zhì)性理解的相關(guān)工作。通過(guò)團(tuán)隊(duì)的持續(xù)探索,有望進(jìn)一步提升大模型在安全領(lǐng)域的效能與適用范圍,尋找新的發(fā)展范式。
四、安全領(lǐng)域大模型構(gòu)建范式與實(shí)踐
騰訊安全副總裁、科恩實(shí)驗(yàn)室負(fù)責(zé)人 吳石做《安全領(lǐng)域大模型構(gòu)建范式與實(shí)踐》的主題演講。
騰訊安全副總裁、科恩實(shí)驗(yàn)室負(fù)責(zé)人 吳石
自 2018 年起,科恩實(shí)驗(yàn)室開(kāi)始對(duì) AI+ 安全的研究,致力探索如何提升安全產(chǎn)品的智能化水平,落地相關(guān)產(chǎn)品,騰訊內(nèi)部包含 QQ、微信在內(nèi)的多個(gè)重要產(chǎn)品均在使用科恩實(shí)驗(yàn)室 AI+ 安全的能力。
當(dāng)前在利用大模型解決實(shí)際安全問(wèn)題上仍面臨一些挑戰(zhàn),主要原因在于大模型本身并不產(chǎn)生新的知識(shí),對(duì)于安全領(lǐng)域的專(zhuān)業(yè)知識(shí)掌握有限,導(dǎo)致其輸出的實(shí)際效用不高。對(duì)此,吳石分享了科恩實(shí)驗(yàn)室在這方面所開(kāi)展的工作:一是建立安全語(yǔ)料庫(kù),通過(guò)從多源收集數(shù)據(jù)并利用關(guān)鍵詞過(guò)濾和分列器進(jìn)行初步篩選,經(jīng)過(guò)一系列數(shù)據(jù)清洗步驟,最終完成數(shù)據(jù)質(zhì)量評(píng)測(cè),目前此安全語(yǔ)料已部分開(kāi)源。二是開(kāi)發(fā)針對(duì)大模型安全能力的評(píng)測(cè)體系,填補(bǔ)行業(yè)空白,并部分開(kāi)源評(píng)測(cè)工具,顯著提升行業(yè)標(biāo)準(zhǔn)。
吳石介紹騰訊內(nèi)部如何落地大模型+安全:首先通過(guò)優(yōu)化 prompt 提高提問(wèn)質(zhì)量,解決大部分基礎(chǔ)問(wèn)題;其次,利用外掛的知識(shí)庫(kù)和數(shù)據(jù)庫(kù)增強(qiáng)大模型的能力,實(shí)現(xiàn)快速反應(yīng);還有,開(kāi)發(fā) Agent 來(lái)提升處理復(fù)雜任務(wù)的能力。其中,科恩實(shí)驗(yàn)室自研 BinaryAI 可以模糊匹配開(kāi)源庫(kù)信息識(shí)別惡意代碼,現(xiàn)日調(diào)用量超 1 億次。基于RAG的 Security-X 助手廣泛應(yīng)用于 URL 處理、威脅情報(bào)檢索等場(chǎng)景。總的來(lái)說(shuō),科恩實(shí)驗(yàn)室具備三大核心能力:優(yōu)秀的安全攻防技術(shù)、全面的基礎(chǔ)安全大數(shù)據(jù)以及自安全算法,這些為大模型的應(yīng)用提供堅(jiān)實(shí)基礎(chǔ),并推動(dòng)通用大模型與小模型的有效結(jié)合。
吳石指出,大模型作為網(wǎng)絡(luò)安全領(lǐng)域的重要技術(shù)力量,已顯著提升了威脅檢測(cè)效率與安全防護(hù)能力,尤其在復(fù)雜場(chǎng)景中展現(xiàn)出獨(dú)特價(jià)值。然而,當(dāng)前技術(shù)范式下仍需理性看待其局限性:大模型在處理低頻威脅、對(duì)抗性樣本防御及實(shí)時(shí)決策場(chǎng)景中仍存在性能瓶頸。他強(qiáng)調(diào),安全工作的核心仍需回歸對(duì)抗本質(zhì)——通過(guò)構(gòu)建高保真威脅情報(bào)體系與攻擊成本動(dòng)態(tài)評(píng)估機(jī)制,迫使攻擊者在技術(shù)、資源與時(shí)間維度付出更高代價(jià)。
五、大模型的安全價(jià)值對(duì)齊
在下午的論壇上,北京大學(xué)人工智能研究院助理教授、人工智能安全與治理中心執(zhí)行主任 楊耀東發(fā)表《大模型的安全價(jià)值對(duì)齊》的主題演講。
北京大學(xué)人工智能研究院助理教授、人工智能安全與治理中心執(zhí)行主任 楊耀東
楊耀東從 ChatGPT 時(shí)代“Delve”一詞被頻繁使用開(kāi)始講起,提出現(xiàn)實(shí)中如何確保強(qiáng)大的大模型符合人們的價(jià)值觀(guān)和意圖,即大模型的安全價(jià)值對(duì)齊問(wèn)題。當(dāng)前的大模型對(duì)齊工作主要以強(qiáng)化學(xué)習(xí)為主,包括預(yù)訓(xùn)練、學(xué)習(xí)人類(lèi)反饋以及強(qiáng)化學(xué)習(xí)人類(lèi)反饋。
針對(duì)大模型能不能被對(duì)齊的問(wèn)題,楊耀東表示,大模型有非常強(qiáng)的抗拒對(duì)齊的表現(xiàn),大規(guī)模預(yù)訓(xùn)練已經(jīng)讓模型參數(shù)空間緊繃,進(jìn)一步調(diào)整可能會(huì)導(dǎo)致性能下降或崩潰。楊耀東認(rèn)為,大語(yǔ)言模型挺難被對(duì)齊,但可以嘗試讓大模型變得更加安全。如在事前做 Moderation,通過(guò)數(shù)據(jù)標(biāo)記有害內(nèi)容,增強(qiáng)模型魯棒性;事中可以利用數(shù)據(jù)進(jìn)一步做安全對(duì)齊,采用 MAX MIN 方法優(yōu)化獎(jiǎng)勵(lì)與有害性平衡;事后引入后置對(duì)齊器修正答案,提升模型安全性。這樣一來(lái),在某種程度可以緩解模型的安全問(wèn)題,但不能完全解決模型的安全問(wèn)題。
面對(duì)多模態(tài)挑戰(zhàn),楊耀東團(tuán)隊(duì)嘗試通過(guò)語(yǔ)言反饋合成偏好來(lái)解決不同模態(tài)間的對(duì)齊難題。此外,面對(duì)具身智能大模型對(duì)齊的問(wèn)題,尤其是在將大模型應(yīng)用于物理世界時(shí),如何保證其行為安全成為關(guān)鍵問(wèn)題。為此,需要構(gòu)建一個(gè)可驗(yàn)證的安全框架,結(jié)合傳統(tǒng)控制論的方法,確保機(jī)器人和其他智能體在與現(xiàn)實(shí)世界的互動(dòng)中遵循安全規(guī)范。目前,楊耀東團(tuán)隊(duì)開(kāi)展初期工作,如 Safe VLA 項(xiàng)目,通過(guò)明確的安全約束確保機(jī)器人在與物理世界交互時(shí)的安全性,已在仿真環(huán)境中取得積極成果。最后,楊耀東指出,面對(duì)具身智能模型的對(duì)齊問(wèn)題,應(yīng)從以人類(lèi)反饋為基準(zhǔn)的后訓(xùn)練對(duì)齊思路轉(zhuǎn)向到構(gòu)建事前可驗(yàn)證的 100% 價(jià)值安全體系,為未來(lái)智能無(wú)人系統(tǒng)與物理世界的安全交互奠定基礎(chǔ)。
六、AI系統(tǒng)的安全風(fēng)險(xiǎn)和挑戰(zhàn)
Certik 首席安全官 李康在《AI 系統(tǒng)的安全風(fēng)險(xiǎn)和挑戰(zhàn)》的主題演講中,談到目前 AI 安全討論通常集中在抽象層面(如 AI 對(duì)人類(lèi)社會(huì)的威脅)和算法層面,但忽略系統(tǒng)安全層面的重要性和緊迫性,如今,AI 智能體的普及帶來(lái)新的安全挑戰(zhàn),這些智能體帶有執(zhí)行環(huán)境,允許代碼執(zhí)行,這為攻擊者提供機(jī)會(huì)。李康舉例如何利用傳統(tǒng)安全手段攻擊 AI 智能體,通過(guò)簡(jiǎn)單的手段如命令注入、越權(quán)訪(fǎng)問(wèn)等,可輕易地對(duì) AI 智能體進(jìn)行攻擊。
Certik 首席安全官 李康
“攻擊者并不一定針對(duì)AI的偏見(jiàn)或利用Prompt和幻覺(jué)進(jìn)行攻擊智能體,而是尋找有價(jià)值的目標(biāo),并用最簡(jiǎn)單的方式達(dá)成目的,當(dāng)前AI的安全監(jiān)管和檢測(cè)尚未充分考慮這一點(diǎn),未來(lái)需關(guān)注具體事件的爆發(fā)以應(yīng)對(duì)這些潛在威脅。”李康提醒說(shuō)。
隨后,李康進(jìn)一步分析物理世界中的 AI Agent 同樣面臨安全風(fēng)險(xiǎn),闡述 AI 系統(tǒng)在現(xiàn)實(shí)世界中的安全隱患。李康表示,AI Agent 為安全研究帶來(lái)機(jī)會(huì)與責(zé)任,既讓我們重新審視和應(yīng)用過(guò)去的安全手段進(jìn)行防護(hù),同時(shí)也要求我們?cè)诎l(fā)現(xiàn)攻擊路徑和方法上進(jìn)行創(chuàng)新,尤其是在面對(duì)真實(shí)場(chǎng)景時(shí),不依賴(lài)傳統(tǒng)的直接互動(dòng)方式。
李康提醒道,AI 的普及不僅帶來(lái)技術(shù)平權(quán),也引入新的安全風(fēng)險(xiǎn),希望安全從業(yè)者獲得更多話(huà)語(yǔ)權(quán)和重視,尤其是在監(jiān)管層面應(yīng)更加關(guān)注底層安全問(wèn)題。最后,李康呼吁更多人參與到 AI 安全的研究和實(shí)踐中來(lái)。
七、AI模型的安全性分析與理解
中國(guó)科學(xué)院信息工程研究所主任、CCF 安全專(zhuān)委和系統(tǒng)軟件常委、CCF-IEEE CS 青年科學(xué)家獎(jiǎng)獲得者 陳愷在《AI 模型的安全性分析與理解》的報(bào)告中,展示 AI 模型安全性方面的多項(xiàng)研究成果,強(qiáng)調(diào)提升 AI 模型安全性的必要性。
中國(guó)科學(xué)院信息工程研究所主任、CCF 安全專(zhuān)委和系統(tǒng)軟件常委、CCF-IEEE CS 青年科學(xué)家獎(jiǎng)獲得者 陳愷
陳愷的研究方向有人工智能賦能安全攻防(AI for Security)和人工智能技術(shù)本身的安全(Security for AI)。團(tuán)隊(duì)在 2017、2018 年開(kāi)始做模型對(duì)抗攻擊的研究,如通過(guò)添加噪點(diǎn)誤導(dǎo)分類(lèi)模型識(shí)別物體,隨后擴(kuò)展到針對(duì)物理世界的研究,如讓自動(dòng)駕駛車(chē)輛誤識(shí)路標(biāo)或雷達(dá)系統(tǒng)忽視前方障礙物。
對(duì)此,陳愷團(tuán)隊(duì)探索了一些防御方法,包括使用自編碼器自動(dòng)過(guò)濾對(duì)抗補(bǔ)丁和自研“神經(jīng)網(wǎng)絡(luò)手術(shù)刀”技術(shù)。神經(jīng)網(wǎng)絡(luò)手術(shù)刀通過(guò)精確修復(fù)導(dǎo)致錯(cuò)誤的小部分神經(jīng)元,從而避免大規(guī)模調(diào)整模型帶來(lái)的負(fù)面影響。此外,陳愷團(tuán)隊(duì)提出一種新的映射方法,通過(guò)利用模型后門(mén)將輸入樣本映射到不同的類(lèi)別來(lái)抵御對(duì)抗樣本攻擊,由此降低攻擊成功率并保持模型性能。
當(dāng)前,針對(duì)大模型的安全性挑戰(zhàn)層出不窮,例如越獄攻擊,即通過(guò)特定提示詞使模型輸出有害的信息。對(duì)此,我們正在探索從模型分析角度入手解決此類(lèi)問(wèn)題。會(huì)上,陳愷討論當(dāng)前流行的可解釋性工具存在的局限性及其改進(jìn)方向,強(qiáng)調(diào)開(kāi)發(fā)更有效的模型解釋工具的重要性。
八、大模型應(yīng)用落地的安全風(fēng)險(xiǎn)與防護(hù)實(shí)踐
火山引擎大模型應(yīng)用防火墻產(chǎn)品負(fù)責(zé)人 鄭炎亭在《大模型應(yīng)用落地的安全風(fēng)險(xiǎn)與防護(hù)實(shí)踐》的分享中,探討大模型應(yīng)用在各行各業(yè)落地過(guò)程中面臨的安全風(fēng)險(xiǎn)及相應(yīng)的防護(hù)實(shí)踐。
火山引擎大模型應(yīng)用防火墻產(chǎn)品負(fù)責(zé)人 鄭炎亭
鄭炎亭觀(guān)察到,過(guò)去,不同行業(yè)在引入新技術(shù)時(shí)注重快速驗(yàn)證和部署,安全往往被視為次要考慮因素。隨著 DeepSeek 等工具的普及,AI 技術(shù)的成本降低、門(mén)檻變低,越來(lái)越多的企業(yè)開(kāi)始重視 AI 應(yīng)用的安全性,特別是在生產(chǎn)環(huán)境暴露面增大后帶來(lái)的潛在威脅。
當(dāng)前的安全挑戰(zhàn)不僅包括傳統(tǒng)的 DDoS 攻擊、薅羊毛濫用等,還涉及大模型特有的風(fēng)險(xiǎn),如提示詞注入、模型幻覺(jué)等問(wèn)題。以提示詞注入為例,通過(guò)簡(jiǎn)單的拼接即可實(shí)現(xiàn)對(duì)模型的操控,使得攻擊成本大幅降低,這對(duì)企業(yè)的數(shù)據(jù)安全構(gòu)成嚴(yán)重威脅。
為應(yīng)對(duì)這些挑戰(zhàn),鄭炎亭提出一些實(shí)踐思路:一是對(duì)提示詞過(guò)濾與監(jiān)控,對(duì)輸入輸出實(shí)施嚴(yán)格過(guò)濾,減少惡意利用的可能性。二是對(duì)運(yùn)行環(huán)境做安全保障,使用加密技術(shù)和機(jī)密計(jì)算來(lái)保護(hù)敏感信息處理過(guò)程中的安全性。三是模型安全性測(cè)評(píng),測(cè)試模型識(shí)別并拒絕執(zhí)行惡意代碼或生成有害內(nèi)容。
鄭炎亭談到大模型的幻覺(jué)問(wèn)題確實(shí)不易解決。大模型幻覺(jué)分為事實(shí)性幻覺(jué)和忠實(shí)性幻覺(jué)。對(duì)于不同的幻覺(jué)應(yīng)設(shè)計(jì)不同的應(yīng)對(duì)方案,鄭炎亭介紹幾種在推理端處理幻覺(jué)問(wèn)題的方法,強(qiáng)調(diào)在推理端更具性?xún)r(jià)比且更可控。
九、AIGC內(nèi)容安全治理趨勢(shì)與實(shí)踐
中國(guó)科學(xué)院計(jì)算技術(shù)研究所實(shí)驗(yàn)室主任、中科睿鑒創(chuàng)始人 曹娟發(fā)表《AIGC 內(nèi)容安全治理趨勢(shì)與實(shí)踐》的主題演講。
中國(guó)科學(xué)院計(jì)算技術(shù)研究所實(shí)驗(yàn)室主任、中科睿鑒創(chuàng)始人 曹娟
曹娟首先介紹為什么大模型時(shí)代的鑒偽如此重要,一是 AI 生成的數(shù)據(jù)越來(lái)越多,二是大模型已開(kāi)始在各行各業(yè)落地應(yīng)用,因此鑒偽也會(huì)覆蓋各各業(yè),三是國(guó)家層陸續(xù)推出多個(gè)法律法規(guī),從模型層、應(yīng)用層、數(shù)據(jù)層對(duì) AI 生成做規(guī)范。然而當(dāng)鑒偽工作真正落地時(shí),由于各行業(yè)差別巨大,因此她建議每個(gè)行業(yè)制定自己的標(biāo)準(zhǔn),如科技部禁止 AI 生成申報(bào)書(shū),教育部禁止 AI 生成論文和配圖等等。曹娟強(qiáng)調(diào),這里需要產(chǎn)業(yè)界同心努力,盡快制定各自行業(yè)的標(biāo)準(zhǔn),才能推動(dòng)產(chǎn)業(yè)的發(fā)展。
曹娟表示,如今,中國(guó)人工智能安全治理已進(jìn)入立法和執(zhí)法的深水區(qū)。據(jù) Gartner 預(yù)測(cè),到 2028 年,50% 的企業(yè)將開(kāi)始采用專(zhuān)門(mén)為解決虛假信息安全用例而設(shè)計(jì)的產(chǎn)品、服務(wù)或功能,目前這一比例還不到 5%。目前,曹娟團(tuán)隊(duì)聚焦核心技術(shù)攻關(guān),針對(duì)云端和終端均打造前沿鑒偽產(chǎn)品,來(lái)提升數(shù)字內(nèi)容的安全性和可信度。
談及未來(lái) AIGC 內(nèi)容安全治理的發(fā)展,曹娟闡述遇到的難點(diǎn),如大模型的泛化,場(chǎng)景泛化等,美顏圖片和造假圖片是相同的技術(shù),如何識(shí)別無(wú)害篡改和有害照片是非常難的。還有手機(jī)視頻,針對(duì)錄屏、截屏做到技術(shù)鑒偽等。
曹娟提醒道,AIGC 發(fā)展日新月異,未來(lái)互聯(lián)網(wǎng)可能是真相衰落的時(shí)代。他們按自動(dòng)駕駛將大模型分為 L0 到 L5 級(jí),從全人工潤(rùn)色重寫(xiě)續(xù)寫(xiě)到全自動(dòng)自主分不同的等級(jí)做了實(shí)驗(yàn),發(fā)現(xiàn)到 L3 級(jí)后,大平臺(tái)的推薦系統(tǒng)更傾向于推薦生成的內(nèi)容,而不是人類(lèi)產(chǎn)生的內(nèi)容。他們將 AIGC 生產(chǎn)的內(nèi)容給人看,80% 的人更愿意看生成的內(nèi)容。未來(lái)互聯(lián)網(wǎng)的模式將會(huì)發(fā)生翻天覆地的改變,她建議現(xiàn)在將人類(lèi)生產(chǎn)的數(shù)據(jù)保護(hù)起來(lái),如打標(biāo)簽保存等。
十、分組腦暴促交流,觀(guān)點(diǎn)PK啟新思
除了以上干貨滿(mǎn)滿(mǎn)的主題演講外,論壇注重交流和分享,特別設(shè)置分組討論熱點(diǎn)話(huà)題,觀(guān)點(diǎn)PK環(huán)節(jié),促進(jìn)大家的思想交流,共同探索 AI 與安全共生發(fā)展的新模式。
在這一環(huán)節(jié)中,數(shù)十位專(zhuān)家被分為不同的小組,先是三個(gè)小組圍繞主持人提出的熱點(diǎn)問(wèn)題展開(kāi)討論,由小組代表進(jìn)行總結(jié)發(fā)言,分享討論成果。
討論問(wèn)題:大模型時(shí)代,安全行業(yè)往何處去
第一組代表騰訊云安全云鼎實(shí)驗(yàn)室總監(jiān)、云安全技術(shù)專(zhuān)家謝飛表示,對(duì)于企業(yè)最擔(dān)心的安全運(yùn)營(yíng)問(wèn)題,他有一個(gè)深刻的感觸:盡管 AI 能協(xié)助做告警分析,但其準(zhǔn)確率和可信度還不夠好。舉例說(shuō)如果依靠 AI 進(jìn)行夜間無(wú)人值守,我們會(huì)擔(dān)心 AI 的準(zhǔn)確率問(wèn)題,擔(dān)心可能會(huì)錯(cuò)過(guò)真正的威脅,導(dǎo)致嚴(yán)重后果。AI 對(duì)安全風(fēng)險(xiǎn)的研判準(zhǔn)確率和權(quán)責(zé)問(wèn)題,才是企業(yè)面臨的痛點(diǎn)問(wèn)題。
騰訊云安全云鼎實(shí)驗(yàn)室總監(jiān)、云安全技術(shù)專(zhuān)家 謝飛
第二組代表安恒信息首席安全官&高級(jí)副總裁 袁明坤表示,不同企業(yè)對(duì)于人工智能在安全領(lǐng)域的應(yīng)用需求各不相同。袁明坤通過(guò)鐵匠師傅與徒弟的比喻,形象地描述人類(lèi)專(zhuān)家像一位鐵匠師傅,AI 像一位徒弟,人類(lèi)如何指導(dǎo)和利用 AI 工具來(lái)提升工作效率和競(jìng)爭(zhēng)力,打造出來(lái)的東西才更有競(jìng)爭(zhēng)力。在細(xì)分行業(yè)中,關(guān)鍵在于找到行之有效的方法讓 AI 發(fā)揮最大效能。
安恒信息首席安全官&高級(jí)副總裁 袁明坤
第三組代表煉石網(wǎng)絡(luò)創(chuàng)始人&CEO 白小勇表示,對(duì)于第一個(gè)問(wèn)題我們認(rèn)為最迫切需要 AI 輔助的是D、F、H(調(diào)查閉環(huán)、數(shù)據(jù)分類(lèi)分級(jí)以及編寫(xiě)報(bào)告)。企業(yè)在提升網(wǎng)絡(luò)安全工作中,首先應(yīng)評(píng)估哪些環(huán)節(jié)消耗大量的人工和成本,并選擇合適的大模型來(lái)實(shí)現(xiàn)增效降本。而對(duì)于前三個(gè)和告警相關(guān)的選項(xiàng),我們選擇了 B(告警輔助研判)。此外,我們認(rèn)為文檔撰寫(xiě)也是企業(yè)的一個(gè)迫切需求,占比應(yīng)該超過(guò) 50%。
針對(duì)第二個(gè)問(wèn)題,我們最擔(dān)心的是 B(AIGC 產(chǎn)生的內(nèi)容的安全問(wèn)題)。因?yàn)樗赡軐?dǎo)致一些嚴(yán)重問(wèn)題,如生成內(nèi)容涉及政治敏感信息等紅線(xiàn)問(wèn)題。A(數(shù)據(jù)安全與個(gè)人隱私保護(hù)問(wèn)題)和 C(提示詞注入攻擊與大模型越獄問(wèn)題)之間我們存在分歧:A 被視為更嚴(yán)重的不可逆轉(zhuǎn)結(jié)果,而 C 是可恢復(fù)的過(guò)程。綜合考慮,我們認(rèn)為 B 是最擔(dān)心的安全問(wèn)題。
煉石網(wǎng)絡(luò)創(chuàng)始人&CEO 白小勇
接下來(lái),由四個(gè)小組進(jìn)行辯論賽,分別從正反兩方的角度來(lái) PK 討論熱點(diǎn)話(huà)題,激發(fā)思維碰撞。現(xiàn)場(chǎng)討論氣氛濃厚,專(zhuān)家們你來(lái)我往,在交鋒中深入探討 AI 安全的未來(lái),啟發(fā)更多的深刻思考與全新見(jiàn)解,碰撞別樣的思維火花。
辯題一:安全大模型應(yīng)選擇通用基座微調(diào)還是垂直領(lǐng)域原生訓(xùn)練?
鴻雪科技 CTO 孫杰
支持通用基座的代表鴻雪科技 CTO 孫杰提出小組的六點(diǎn)觀(guān)點(diǎn):第一,通用模型基座作為一種資源約束下的最優(yōu)解,通過(guò)以 20% 的成本滿(mǎn)足 80% 的需求,兼顧經(jīng)濟(jì)與技術(shù)的可行性,具備高效資源利用率和快速迭代能力,通用基模可以滿(mǎn)足大部分的需求。第二,可以快速適應(yīng)企業(yè)里面大多數(shù)任務(wù)。第三,通用基模泛化能力強(qiáng),可以泛化到企業(yè) 70-80% 的場(chǎng)景。 第四,通用基模便于知識(shí)遷移,通過(guò)大模型的知識(shí)蒸餾為專(zhuān)業(yè)領(lǐng)域提供支持,為垂類(lèi)模型提供能力幫助。第五,具備動(dòng)態(tài)進(jìn)化和安全免疫能力,能在不斷變化的環(huán)境中自我進(jìn)化,對(duì)抗樣本攻擊時(shí)表現(xiàn)出更強(qiáng)的魯棒性。第六,通用基模在泛化能力和微調(diào)之間提供最佳平衡。
北京知其安科技有限公司 CEO 郭威
支持垂直領(lǐng)域原生訓(xùn)練的代表,北京知其安科技有限公司 CEO 郭威表示,做方向性決策,應(yīng)該按照終局思維,即最終期望的效果來(lái)分析。既然微調(diào)有諸多已知且天然無(wú)法解決的問(wèn)題,毫無(wú)疑問(wèn)應(yīng)該選擇基于原生的垂直領(lǐng)域訓(xùn)練。垂域模型解決安全問(wèn)題的優(yōu)勢(shì)有:第一,專(zhuān)業(yè)語(yǔ)料構(gòu)成的認(rèn)知壁壘。模型從誕生起就基于安全語(yǔ)料,有效避免通用大模型常見(jiàn)的幻覺(jué)問(wèn)題,這就如同博士生與高中生的差別。第二,架構(gòu)靈活性與適配優(yōu)勢(shì)。更靈活,可以用更少的參數(shù),更靈活的軟硬件架構(gòu),能讓用戶(hù)自行開(kāi)展模型治理,如數(shù)據(jù)對(duì)齊、解決污染問(wèn)題。第三,數(shù)據(jù)主權(quán)可控性。特殊行業(yè)如軍工等涉及敏感數(shù)據(jù),無(wú)法使用通用大模型進(jìn)行訓(xùn)練。第四,場(chǎng)景化成本優(yōu)勢(shì)。垂直領(lǐng)域模型所需的參數(shù)遠(yuǎn)少于通用大模型,例如工廠(chǎng)的缺陷檢測(cè)場(chǎng)景,用到的 yolo 算法可以完全基于 CPU 運(yùn)行,讓訓(xùn)練、使用成本都更低。
辯題二:隱私敏感場(chǎng)景下,是否應(yīng)全面禁止大模型處理原始數(shù)據(jù)?
霧幟智能 CTO 傅奎
支持全面禁止的代表霧幟智能 CTO 傅奎直接表示,不可控、不可逆和不接受,不能讓大模型直接處理敏感數(shù)據(jù)。第一,隨著技術(shù)的發(fā)展,個(gè)人隱私幾乎不復(fù)存在。第二,技術(shù)永遠(yuǎn)存在局限性,即使是知名大模型廠(chǎng)商也曾出現(xiàn)信息泄露事件,這說(shuō)明當(dāng)前技術(shù)無(wú)法完全保障敏感數(shù)據(jù)的安全。第三,從倫理道德來(lái)看,個(gè)人敏感信息的泄露可能導(dǎo)致嚴(yán)重的社會(huì)后果。最后,傅奎指出在隱私敏感場(chǎng)景下有替代方案可供選擇,直接讓大模型處理原始數(shù)據(jù)風(fēng)險(xiǎn)極高,我們必須捍衛(wèi)人類(lèi)的隱私權(quán)。
天融信科技集團(tuán)專(zhuān)家 彭禎方
支持優(yōu)先放開(kāi)的代表天融信科技集團(tuán)專(zhuān)家 彭禎方則認(rèn)為,隨著 DeepSeek 的橫空出世,國(guó)家已發(fā)文鼓勵(lì)各行業(yè)利用大模型,前提是需使用原始、隱私及業(yè)務(wù)數(shù)據(jù)。其次,我們對(duì)大模型的擔(dān)心,可能源于其初期對(duì)安全措施不到位,但有了 AI 防火墻等新技術(shù)提供的安全保障,我們可以放心使用大模型。第三,根據(jù)數(shù)字安全法,只要獲得用戶(hù)同意,隱私數(shù)據(jù)即可被合法使用。第四,借助鑒偽技術(shù),隱私數(shù)據(jù)泄露的風(fēng)險(xiǎn)進(jìn)一步降低。最后,如果我們不敢使用原始數(shù)據(jù),大模型如何賦能千行百業(yè)呢?因此,大家可以放心地將隱私數(shù)據(jù)用于大模型。
結(jié)語(yǔ)
在「大模型時(shí)代:安全如何洗牌」TVP AI 與安全高峰論壇上,嘉賓們深入解析 AI 與安全融合的機(jī)遇、挑戰(zhàn)與未來(lái)發(fā)展方向,分享一線(xiàn)實(shí)踐經(jīng)驗(yàn)、研究成果與真知灼見(jiàn),為與會(huì)者帶來(lái)深刻的啟發(fā)與實(shí)踐指導(dǎo)。
本次論壇聚焦大模型時(shí)代下 AI 與安全的熱點(diǎn)話(huà)題,形式多元,通過(guò)這次技術(shù)盛會(huì),我們凝聚行業(yè)智慧,共同為構(gòu)建更加智能、安全的數(shù)字世界出謀劃策。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.