編者薦語
本文深入淺出地剖析了涉密信息系統的核心安全要點,并巧妙地將之與生成式人工智能的最新進展相融合,揭示了大數據與智能技術如何為網絡攻防帶來新的機遇與挑戰。
摘 要
涉密信息系統是存儲、處理國家秘密的計算機信息系統。近年來,隨著生成式人工智能的快速發展,其通過已有知識快速推斷生成大量數據的“涌現”能力被應用在網絡攻防的各個領域,促進了網絡安全技術的加速迭代。從涉密信息系統安全要點出發,結合生成式人工智能的現有能力和應用場景,系統地闡述了以大語言模型為代表的生成式人工智能技術給涉密信息系統安全帶來的促進作用和挑戰。此外,從實踐角度出發,針對涉密信息系統管理人員,從生成式人工智能的使用和防護 2 個方面給出了針對性建議。
論文結構
0 引 言
1 涉密信息系統的安全要點
1.1 安全審計
1.1.1 應用審計
1.1.2 終端審計
1.2 出入口控制
1.3 態勢監控
2 生成式人工智能給涉密信息系統安全帶來的促進作用
2.1 服務安全審計
2.1.1 自動化生成審計報告
2.1.2 基于審計日志的人物畫像
2.2 強化出入口控制
2.2.1 出口防夾帶審查
2.2.2 惡意軟件輸入管控
2.3 強化態勢監控
3 生成式人工智能給涉密信息系統安全帶來的挑戰
3.1 安全要素偽造
3.1.1 審計記錄偽造
3.1.2 網絡節點偽造
3.1.3 安防監控偽造
3.2 敏感信息挖掘
4 對涉密信息系統管理人員的建議
4.1 發揮生成式人工智能促進作用的建議
4.1.1 根植數據資產理念
4.1.2 統籌應用服務接口
4.2 預防生成式人工智能危害的建議
4.2.1 引入先進識別技術
4.2.2 規范信息脫敏流程
5 結 語
0 引 言
涉密信息系統是存儲、處理國家秘密的計算機信息系統,其安全性與國家安全息息相關。受提升安全監管效率的正向激勵和外部攻擊升級的反向倒逼等因素的影響,在涉密信息系統內引入生成式人工智能技術已是大勢所趨。在這一背景下,本文結合涉密信息系統特點,充分調研大語言模型技術及其應用,系統性地梳理并分析了生成式人工智能對涉密信息系統安全的促進和挑戰作用。
1 涉密信息系統的安全要點
不同于互聯網,涉密信息系統與外界網絡系統進行物理隔離,從根本上杜絕了被外界直接網絡攻擊的風險。因此,涉密信息系統安全的核心要點與其他網絡系統有著較大差異。生成式人工智能給涉密信息系統安全帶來的促進作用如表 1 所示,展現了涉密信息系統內安全審計、出入口控制和態勢監控 3 個安全要點的細分需求、難點、基于生成式人工智能的促進方案及可選技術。
1.1 安全審計
涉密信息系統需要嚴格控制用戶身份和行為,因此有著嚴格的安全審計機制,進而保證用戶在涉密信息系統內的各類操作均能做到記錄留痕。涉密信息系統內的安全審計主要分為應用審計和終端審計 2 類。
1.1.1 應用審計
應用審計是指在應用系統內對用戶行為進行的審計,其通常會記錄用戶在應用系統內登錄、注銷及對數據訪問等操作行為。應用審計可以幫助檢測和防止未經授權的訪問或活動。通過審計用戶操作,可以及時發現可能存在的安全漏洞或攻擊行為,并采取相應的措施加以防范和修復。此外,應用審計還可以用于確定應用系統內特定操作或事件的責任人,輔助事故責任追究和處理。
1.1.2 終端審計
終端審計是指監控和記錄終端設備上的用戶活動和行為的過程。主要涉及收集和分析用戶登錄、命令執行、文件訪問、網絡連接等數據,以提供對用戶操作的可追溯和可驗證過程。終端審計能夠監控用戶活動,檢測用戶的異常行為,從而識別潛在的安全威脅。例如,未經授權的訪問、惡意軟件的部署或潛在的數據泄露。因此,終端審計同樣是安全審計的重要組成部分。
出于對操作日志保留和行為可追溯的考慮,涉密信息系統內往往存在大量自然語言格式和多來源的審計日志。人工解讀審計日志并從中尋找異常行為不僅耗費時間精力,還難以保證結果的準確性和全面性,因此系統管理員需要配備能夠批量智能化解讀審計日志的輔助工具。生成式人工智能對自然語言處理、分析和總結的能力與批量審計的響應需求相匹配,可用于提高審計報告的全面性和審計日志中的信息挖掘效率,讓繁雜的審計工作智能化。
1.2 出入口控制
出入口控制是涉密信息系統本質安全的關鍵環節,其有效性決定了對涉密信息系統的防護是否成立。涉密信息系統在網絡結構上與外界實施了物理隔離,但仍保留了擺渡中心作為網絡內數據的集中輸入輸出部位。擺渡中心的系統管理員需要嚴格審查輸入、輸出信息,以避免惡意信息的滲透和涉密信息的泄露。
涉密信息系統的出入口控制主要面臨著 2 大難題:一是大規模的涉密信息系統每天產生的敏感信息量和出入口數據流量很大,人工很難判定出網數據是否包含敏感信息;二是隨著加密和混淆技術的發展,惡意用戶除簡單地將不合規信息加密出入網外,還有可能通過少量、多次的方式,在不顯示字段或圖片部分夾帶敏感信息分批出網。對于這種分批夾帶的方式,僅對其中某個文件進行單獨審核很難發現問題,審查員也很難從文件的大小等元屬性上判斷是否有額外夾帶的情況,需要使用其他文件分析技術輔助判斷。
受限于時間復雜度高和語義理解能力缺失,傳統的基于字符串匹配的算法很難解決出入口控制所面臨的難題。與之相對的,具有語義理解能力并可處理復雜任務的生成式人工智能技術則有潛力帶來更具可行性的解決方案。
1.3 態勢監控
涉密信息系統遭受任何破壞都可能導致嚴重的失泄密事件發生,因此系統管理員需要具備對全系統安全態勢監控的能力。態勢監控的主要載體是態勢評估報告,系統管理員通過解讀人工編寫或系統自動化生成的安全態勢評估報告來監控當前系統的狀態。
涉密信息系統態勢評估是對系統的可用性和安全性的判別。在態勢評估初始階段就能夠發現網絡未授權變更和敏感信息不合理匯聚等異常行為,避免敏感信息從物理層面發生泄露。態勢評估的一項重要指標是系統內終端的病毒感染情況,物理隔離極大地降低了涉密信息系統被病毒感染的概率,但也增大了系統對病毒的防治成本。涉密信息系統無法實時更新病毒庫,無法進行云病毒查殺,一旦終端被感染,病毒會快速蔓延到全網,進而造成信息系統癱瘓等嚴重后果。
相較于互聯網,涉密信息系統病毒防控的準確定位和傳播切斷更為重要。在不能及時更新病毒特征庫的情況下,防病毒系統需要具備及時發現、匯總涉密信息系統內終端異常行為的能力。生成式人工智能預先學習和快速響應的特點可以對提升全局態勢監控有效性起到至關重要的作用。
2 生成式人工智能涉密信息系統安全帶來的促進作用
通過簡單的調試,生成式人工智能驅動工具就可以自動且高效地分析、處理任務,達到解放人力的目的。涉密信息系統內目前存在諸多依賴人力的低效工作,本文圍繞人工智能對這些工作的促進作用進行分類介紹。
2.1 服務安全審計
得益于大語言模型技術和多模態技術的發展,生成式人工智能可以全方面、多角度賦能涉密信息系統的安全審計。
2.1.1 自動化生成審計報告
生成式人工智能在審計上最直接的用途即為自動化生成審計報告。審計報告的生成本質上是對一系列審計日志進行信息抽取、分章總結和重新組合的任務,屬于大語言模型擅長處理的任務類別。
基于生成式人工智能的自動審計系統如圖 1 所示,該系統的工作流程如下:
首先,輪詢模塊通過定時任務,從各應用系統接口定期獲取審計日志信息,并將其存儲于中臺數據庫內。
其次,中臺數據庫會按照審計報告所關注的段落規則對審計日志進行分區、數據清洗和歷史校對,提取出有異常的條目。提示詞工程模塊會根據輸入的異常條目和歷史審計報告模板數據,并將其組合成提示詞,交給大語言模型進行各段落的撰寫工作。
最后,拼接模塊會將大模型生成的各段落進行重組,生成本期完整的審計報告,并存放在歷史報告數據庫內。
除初期投放歷史審計報告和編寫分區規則外,審計報告自動生成系統不需要額外的人工投入,審計員只需要校對生成的審計報告內容與審計日志的一致性,并依據報告中的各章節內容給出結論即可。報告的分區、組合部分需要由分區和組合模塊實現,而非全部交由大語言模型實現,其原因在于目前多數大語言模型的上下文長度受限,在審計報告長度較長的情況下,無法在保證語義一致性的前提下一次性生成審計報告。
隨著大語言模型技術的發展,未來通過提示詞、思維鏈、外掛審計日志數據庫就可以生成完整的審計報告,進一步減少系統構建過程中的人工工作量。
2.1.2 基于審計日志的人物畫像
基于審計日志對涉密信息系統內人物進行畫像是生成式人工智能對用戶審計的主要應用,其應用領域為用戶畫像的數據源處理和結果解讀。例如,由于審計日志的自然語言形態和多來源的特性,很難直接將其用作訓練語料,需要管理員對審計日志做額外的加工處理。此外,涉密信息系統內的用戶畫像通常被作為輔助管理員進行用戶監察的工具,其需求的可解釋性也遠超一般推薦系統。生成式人工智能可以在畫像的過程中發現異常信息,從而為管理員提供報警信息。
2.2 強化出入口控制
涉密信息系統的出入口控制需要管理人員在短時間內判別大量數據的涉密情況,而應用生成式人工智能技術可以大幅提高涉密信息系統的出入口控制效率和準確性。
2.2.1 出口防夾帶審查
一直以來,防夾帶就是涉密信息系統出口控制的一大難題。審查人員能發現以明文方式混雜在非密文檔內的敏感信息,但不具備對超長文檔和特殊文件格式的處理能力,因此,推出與之相關的人工智能技術應用顯得非常必要。
涉密信息系統的防夾帶可以使用敏感信息知識庫和夾帶文件庫 2 類特征庫。其中,敏感信息知識庫可以用于訓練自然語言嵌入式模型。在信息出口點,監管人員可對能直接解析出內容信息的 DOCX、PDF 等格式文件進行分段分句,并將分句依次通過特征庫訓練出的嵌入式模型轉化為知識向量,并與敏感信息進行相似度比對。對于高危的文句,系統給出定位并生成警告信息,以便于審查人員進行進一步校驗。夾帶文件庫可以用于生成式對抗網絡判別器的訓練。相較于基于知識特征的判別方案,基于二進制編碼預訓練的生成式對抗網絡不限定判別文件的原始格式,但更難以特定的文段信息為依據給出解釋性較強的結論。對于涉密信息系統的出口控制而言,漏報造成的潛在危害遠高于誤報,因此被對抗網絡判斷為有高危風險的二進制文件,有必要通過嘗試解密和轉碼等其他技術手段再次進行防夾帶檢驗。
基于生成式人工智能的防夾帶判別系統如圖 2 所示。該系統的核心組件是敏感信息知識庫和夾帶文件庫。其中,敏感信息知識庫是由相關規范性文件中的關鍵文段組成的,可結合通用嵌入層就敏感信息識別任務進行特異化實驗。夾帶文件庫是由過往夾帶文件組成的,可以直接用于判別器訓練。當防夾帶判別系統讀取到出網文件時,系統會匯總特征比對信息和判別信息,為審批人員出具綜合的夾帶情況分析報告。
2.2.2 惡意軟件輸入管控
在物理隔離條件不被破壞的前提下,涉密信息系統入口是惡意軟件滲透的唯一媒介。目前,絕大多數的涉密信息系統在輸入端都配備了多維度的病毒查殺引擎,但這種引擎對加密后的惡意程序的查殺卻無能為力。為杜絕攻擊者繞過查殺向涉密信息系統輸入惡意程序,涉密信息系統管理員通常會告知用戶不得從外部向涉密網絡內擺渡加密壓縮包,并要求擺渡人員禁止擺渡加密壓縮包文件。但仍會有用戶試圖通過嵌套壓縮,即在加密壓縮包外再進行一次非加密壓縮的方式繞過擺渡員的審查。
擺渡人員需要快速檢查出不合規(如含有加密壓縮包)及含有病毒的文件,并使用殺毒軟件加以處理。因此,擺渡人員需要使用具有智能判別功能且具備能夠調用其他軟件的工具。大語言模型可以較好地解決此類問題。大語言模型可通過智能體調用文件系統接口和殺毒軟件,因此具備獨立完成文件合規性判別、病毒查找、病毒殺除全流程的能力。此外,大語言模型還可以調用文件系統接口,依次檢查輸入文件的合規性,然后查找病毒,在發現病毒后,生成解決方案,調用殺毒組件完成殺毒。對于無法打開文件的情況(如權限問題、操作沖突問題或異常擴展名),大模型也可以按照其儲備的知識進行擴展處理,如將明顯有被混淆痕跡的非法擴展名文件單獨隔離提請人工判斷等。總體而言,生成式人工智能可以有效地提升涉密信息系統入口處惡意軟件輸入管控的效果和效率。
2.3 強化態勢監控
傳統涉密網態勢管控的核心是提取信息、數據挖掘和展示。生成式人工智能具備的自然語言解析能力和涌現能力,可以令態勢監控的自動化組件不再局限于“先收集,再重組”流程,而是能分析并總結態勢管控信息,為監管者提供可讀性更強的信息。
傳統的系統全局狀態監控系統采用從局域網各終端和應用系統內收集信息、集中統計,最終匯總成數字看板的模式。這樣的模式初步實現了“數據重組”,但存在以下幾個弊端:
(1)數據收集維度單一。傳統的態勢監控系統往往依賴于應用系統和終端相關推流組件,無法和安防系統聯動打通物理和網絡監控的壁壘。
(2)監控數據的可用性低,用戶難以通過數據直接得出結論。雖然通過統計學手段提取了信息的特征并壓縮了整體數據量,但管理員依舊不知道哪些數據是關鍵數據,數據閾值和系統狀態的正常與異常邊界在哪里,因此實際并未做到對數據的有效應用。
(3)事件處置存在滯后性。對于需要應急響應的危險情況,由于監控系統自身沒有分析和處理的能力,從報警到人工響應的過程有一定的時延。例如,當檢測到網絡拓撲結構存在異常變化時,無法對其進行快速定位和阻斷,而這短暫的時間差就會對保密工作造成難以挽回的后果。
為解決以上弊端,可借助生成式人工智能的多類數據處理能力和自學習能力,建立基于生成式人工智能的態勢監控平臺。在解決數據收集維度單一問題上,生成式人工智能可以通過計算機視覺,結合圖生文技術,實現服務器硬件情況、應用變更情況與監控安防系統的聯動,進而確保數據的有效性。在解決監控數據的可用性低問題上,系統通過既往知識的學習,輔以一定的人工規則定義,可以實時判別各指標的狀態,并利用自然語言生成組件,基于特定模板生成某時刻的狀態報告。在解決事件處置滯后性問題上,態勢監控系統可以通過智能體的方式與交換機、防火墻等安全產品的管理軟件進行聯通,一旦出現重大安全報警,系統可以調用管理端口,對異常部位迅速阻斷,防止涉密文件泄露或惡性病毒蔓延等嚴重后果的發生??傮w而言,生成式人工智能可以讓涉密信息系統的態勢監控更加全局化、合理化、及時化。
3 生成式人工智能給涉密信息系統安全帶來的挑戰
生成式人工智能給涉密信息系統安全帶來的挑戰如表 2 所示。該挑戰主要分為 2 個方面:
一是生成式人工智能極大地便利了攻擊者對涉密信息系統內各類安全要素的偽造;
二是生成式人工智能極大地便利了攻擊者通過推理等手段從特定信息系統的大量公開文件中挖掘涉密信息。
綜合來說,生成式人工智能降低了攻擊者的攻擊門檻,提高了涉密信息系統的安全防護難度。
3.1 安全要素偽造
涉密信息系統依賴多方安全要素交叉驗證的方式來保證其安全性。然而,如今幾乎所有的安全要素均有被攻擊者使用生成式人工智能進行偽造的風險。
3.1.1 審計記錄偽造
在涉密信息系統中,偽造的日志之間很容易在時間等要素上產生矛盾。然而,對大語言模型而言,對用戶行為進行數理建模,通過對歷史數據的學習并生成無矛盾的多方審計數據并非難事;對審計要素不全的應用系統更是如此。
3.1.2 網絡節點偽造
目前,在互聯網內,對于使用生成式人工智能學習模擬網絡節點行為以繞過監控,已有諸多應用案例。涉密信息系統由于其封閉的特性,網絡節點的行為更加簡單,也更容易被仿造。一旦攻擊者成功偽造網絡節點,就可以在管理員沒有察覺的情況下持續收集系統內信息,其危害比一次性的數據竊取更大。
3.1.3 安防監控偽造
通過應用生成對抗網絡組件和神經網絡擴散技術,生成式人工智能能夠高效、高質量地偽造包含圖片、視頻在內的多模態數據。攻擊者利用生成式人工智能產出的高仿真偽造數據不僅會給安防系統的生物特征識別帶來挑戰,還可用于替換監控視頻信息,危害涉密信息系統的物理硬件安全。
3.2 敏感信息挖掘
涉密信息系統與外界具有物理隔離,但出于信息傳遞的需要,每天仍會有大量數據通過信息擺渡和外界交互??紤]到多數涉密信息系統的公開輸出數據都會流向互聯網,攻擊者有很大概率可以截獲和收集這些公開信息。
涉密應用系統向外界傳遞的數據需進行脫密操作,常用手段是刪去部分詞匯和段落。對于單獨的一篇文檔而 言, 以 Transformer 結構預訓練模型為代表的 Text2text 生成式人工智能尤其擅長根據上下文內容填空,推測被簡單全局替換的信息。對于有時序的、多篇的、從涉密信息系統輸入輸出的文章而言,攻擊者可以對其進行關聯分析,將碎片化的內容集中補全,并用垂直領域大模型推理涉密應用系統內的工作內容??傮w而言,生成式人工智能極大地增強了攻擊者通過公開數據推斷敏感信息的能力。
4 對涉密信息系統管理人員的建議
通常來說,涉密信息系統更傾向于選用更成熟穩定的、安全系數更高的技術。然而隨著生成式人工智能浪潮的到來,受承載業務效率提升需要和外部攻擊者倒逼等多重因素的多重影響,涉密信息系統不得不完成整體升級,擁抱技術革新。根據本文論述,發揮生成式人工智能技術促進作用的核心在于利用好其推理涌現能力,而防范生成式人工智能帶來危害的關鍵在于減少系統內派生數據的負面影響。因此,本文對涉密信息系統管理員給出如下建議。
4.1 發揮生成式人工智能促進作用的建議
在發揮生成式人工智能的促進作用上,涉密信息系統管理員應做到根植數據資產理念和統籌應用服務接口。
4.1.1 根植數據資產理念
無論是在審計、出入口控制還是態勢監控上,生成式人工智能能夠發揮作用的前提仍是標準化且有時序邏輯的輸入數據。對于自然語言解讀能力強的大語言模型而言,有邏輯、條理清晰的信息也是指令微調和構建思維鏈的關鍵。對于生成式人工智能技術而言,數據是根源,沒有數據便無以生存。由于涉密信息系統只能依賴系統內部產生的數據,管理員需要根植數據資產理念,把系統每時每刻產生的各項數據均視為數據資產加以管理,力求保證其完整性,形成從局部到全局的數據清理和匯聚鏈條,才能使生成式人工智能真正轉化為有效生產力。
4.1.2 統籌應用服務接口
如果說數據資產是生成式人工智能的根源,那么應用接口就是生成式人工智能的枝葉,其決定了生成式人工智能能否茁壯成長。以大語言模型為代表的新一代生成式人工智能的顯著優勢在于其能夠通過智能體,利用外部資源,補足生成式人工智能在精確推理和實時信息獲取方面的短板。因此,若希望在涉密信息系統內發揮生成式人工智能及時決策和處理的優勢,管理員需統籌規劃應用接口,充分發揮智能體調用外部應用的能力,并利用回滾等機制減少智能體因誤操作引發的危害。
4.2 預防生成式人工智能危害的建議
在預防生成式人工智能給涉密信息系統安全造成的危害上,管理員須做到引入先進識別技術和規范信息脫敏流程。
4.2.1 引入先進識別技術
識別人工智能偽造信息的最優方法就是使用人工智能。在技術快速發展的今天,涉密信息系統管理員應未雨綢繆,參考學術界和工業界的優秀方案,先于攻擊者在涉密信息系統內部引入先進識別技術。如利用語言模型的概率曲率分析技術對抗基于主流大語言模型的偽造,綜合利用多種技術加快識別速度等。
4.2.2 規范信息脫敏流程
最有效防范偽造和推理的方式是不讓攻擊者獲取到涉密信息系統的有關數據。如今,傳統涉密信息系統在出口處主要以防范涉密文檔外流為主,對文檔的脫密主要采用關鍵字消除等手段,并未做到從語義上消除所有敏感內容。因此,管理員應加強互聯網出口側的防護,規范信息脫敏流程,通過對抗學習添加混淆等方式,加大攻擊者獲取和利用涉密信息系統相關信息的難度,使其難以獲得大量有效語料實施攻擊。
5 結語
本文介紹了涉密信息系統的安全要點,梳理了生成式人工智能為涉密系統帶來的促進作用和挑戰。在促進作用上,生成式人工智能具備理解能力、學習能力、智能體操作能力,可以代替人工處理很多涉密信息系統內的任務,并做得更好。在挑戰上,生成式人工智能解放了攻擊者的生產力,讓他們能夠更容易地進行數據偽造和數據挖掘,提高了涉密信息系統的安全防護難度。
由于生成式人工智能的發展快、分支多,本文主要調研了目前主流的生成式人工智能模型,還有許多模型未能詳盡列出。建議生成式人工智能應用秉承“發現問題,解決問題”的模式,為涉密信息系統內的具體問題尋找對應的生成式人工智能方案,并在合規的前提下展開試點應用。相信隨著技術的成熟、相關法律法規的健全和制度的規范,生成式人工智能和其應用產品會融入現有涉密信息系統安全體系,在“對抗為主”的網絡安全理念下革新體系內多環節的運作模式。
引用格式
王昊 , 曾思良 , 薛振偉 , 等 . 生成式人工智能對涉密信息系統安全的促進與挑戰 [J]. 信息安全與通信保密 ,2024(8):30-40.
作者簡介
- 王 昊(1997—),男,碩士,研究實習員,主要研究方向為人工智能、區塊鏈技術、軟件工程;
- 曾思良(1978—),男,博士,副研究員,主要研究方向為信息化管理、人工智能、數值模擬;
- 薛振偉(1978—),男,碩士,高級工程師,主要研究方向為信息化管理、網絡安全、軟件工程;
- 朱行林(1982—),男,碩士,高級工程師,主要研究方向為軟件工程、信息化管理、網絡安全;
- 溫博遠(1992—),男,碩士,助理研究員,主要研究方向為信息化管理、網絡安全。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.