8月2日,上海市信息網絡安全管理協會、上海市互聯網業聯合會網絡和數據安全委員會等聯合主辦的“2024第三屆上海網絡安全博覽會暨發展論壇”在上海開幕,其中主論壇圍繞 “新融合-人工智能安全”主題,匯聚了多位行業知名專家和學者。螞蟻集團天宸實驗室副主任、資深算法專家仲震宇受邀出席,并分享“DKCF大模型應用可信框架及網絡安全實踐”主題內容,向與會嘉賓和觀眾介紹了螞蟻集團在大模型應用可信安全領域的進展。
“聰明的AI只幫小忙,笨的AI捅大簍子”
——大模型產業應用存在挑戰
隨著AI大模型技術的不斷升級,大模型“無所不能”的印象深入人心。但實際上,人們對于大模型能力似乎過于“樂觀”,它在諸多行業領域的應用仍然存在著問題。2023年國際醫療期刊上的一篇文章調查了臨床醫生配備了AI模型后,對診斷準確率產生的影響。數據顯示,在標準AI模型的幫助下,醫生診斷準確率的提升是有限的;但如果AI模型本身是有偏倚的,會誤導醫生導致診斷準確率更大篇幅的下降。也就是說,“聰明的AI只幫小忙,笨的AI捅大簍子”。
從“磚家”到“專家”的距離有多遠?可以總結為四個方面:推理核驗殘差、專業知識工程、反饋循環效率及安全單點。
推理核驗殘差:大模型無法做到“知之為知之、不知為不知”,當它信息不足、能力不足時會出現知識幻覺,仍然試圖給出答案,這是專業領域的大忌。所以人們在使用AI進行決策時需要進行關鍵的驗證,要意識到這種情況,也就是推理核驗與殘差。
專業知識工程:偽專家和真專家的區別是對專業概念的把握,專業知識庫的沉淀是需要專家來參與的,很難從通用信息中獲得。而通用大模型使用的信息和預訓練的數據往往來自于公開、通用的信息,這導致了大模型缺乏專業知識。
反饋循環效率:反饋是現代控制系統的核心機制,然而,GPT架構的反饋循環效率非常低。在專業領域中,知識的迭代更新是非常頻繁的,而GPT主要的知識更新模式是通過SFT、RLHF等方式進行迭代,其代價相當大,且難以高效內化場景知識的變更。
安全單點:大部分用戶在發現大模型具備的強大能力后,會試圖將所有的RAG(信息)和Tool(工具)交給大模型。從安全的視角來看,此舉會帶來巨大的安全隱患,很可能會造成敏感信息或行業機密的泄露。同時,如果將全部工具交給大模型而不限制其權限,一旦被大模型單點突破,就會賦予攻擊者幾乎所有的權限,同樣會帶來嚴重后果。
DKCF大模型可信框架
——專業大模型的“駕馭”寶典
如果將AI視為“引擎”,那么這臺引擎目前似乎只能駕馭“自行車”,若想讓其發動專業領域這臺“四輪車”,則需要構造一套嚴密的配套設施,也就是DKCF大模型可信框架。
DKCF指的是Data(數據)、Knowledge(知識)、Collaboration(協同)和Feedback(反饋),將數據、知識、協同和反饋融合在一起,形成整個大模型應用的可信框架,其涵蓋了專業大模型安全可信的必備要素。
智力引擎和知識供給是專業大模型安全可信的第一要素。以無人駕駛為例,車輛行駛需要前進、后退、剎車、轉彎等,這是基礎能力,需要通過引擎來實現;從一段路的起點開到終點則需要地圖,需要做好路徑規劃,這就涉及到了知識的供給。
GPT大模型的智力引擎是四大類基礎能力,包括基礎的邏輯推理能力、數學計算能力、搭建知識庫和外部供給調用能力。搭建知識庫分為內置知識庫(利用通用知識訓練后內化的知識)和外置知識庫(應對知識頻繁迭代的需求)。在專業領域中,擁有外部專業知識供給調用的大模型要比用大量通用知識訓練的普通大模型具備更快速的適配能力,且大量降低成本。
下一項必備要素是推理自解構(推理白盒化),絕大多數的AI模型存在決策黑盒化的問題,可解釋性差,會造成用戶的不信任。為了解決這個問題,首先要對任務進行解釋和分拆,將給定任務拆分成一個個可以獨立驗證的子步驟,根據優先級編排或調整子步驟的推理要素,并通過知識工程實現推演過程的完備性。當推理結果得出時,還需要對結果進行核驗,一方面,核驗推理結果是否嚴格遵守子步驟的邏輯性和標準處置流程(SOP),另一方面,判斷大模型是否存在信息不足或能力不足,也就是上文所說“推理核驗殘差”。
第三個必備要素是協同與反饋。未來大模型應用,任務場景越來越復雜,復雜的任務需要由很多智能體相互協同來完成,如任務規劃的規劃智能體,編排的編排智能體等。同時,還需要設置核驗機制。反饋則指的是,在大模型存在殘差時,通過反饋機制推動任務朝著正確的方向進行下去。
最后是大模型安全底盤能力。去年8月,開源人工智能框架Ray曝出嚴重漏洞,大模型應用存在極大的安全風險。螞蟻集團提出了兩個可以為大模型安全保駕護航的安全范式:
OVTP可溯范式(Operator-Voucher-Traceable Paradigm)、NbSP零越范式(Non-bypassable Security Paradigm)。OVTP范式指出,要完整準確地研判一個網絡訪問是否合法,應該基于該訪問的操作者(Operator)的訪問鏈路信息與憑證(Voucher)的傳遞鏈路信息。
在安全策略層應當遵循OVTP可溯范式,即大模型對所有工具或外部信息的訪問控制都應基于該訪問的操作者鏈路和憑證鏈路的端到端信息來決策,而不是直接使用大模型自身的身份。敏感信息不要讓專業大模型學習,而是在實際應用中通過RAG外掛對接,在RAG訪問時做符合OVTP可溯范式的訪問控制。
作為各種安全機制包括OVTP可溯范式的基礎性支撐,NbSP零越范式是顯式要求確保關鍵安全檢查點不可被繞過。因此,在訪問控制機制上應遵循NbSP零越范式,即應當確保關鍵安全檢查點不可被繞過,所有繞過的行為皆為非法。NbSP零越范式是網絡空間安全保障的一個必要條件,其他網絡安全基本屬性,如機密性、完整性、可用性等則是更基本、更底層的安全范式。
綜上所述,DKCF可信框架是基于專業大模型必備要素而形成的,其架構能極大提升大模型的可信度,駕馭起專業領域這輛“四輪車”。
結語
分享的最后,仲震宇介紹了DKCF大模型應用可信框架在螞蟻網絡安全運營中實踐。告警處置是網絡安全運營的基本工作,當業務體量非常龐大時,告警數量也會同樣龐大,以螞蟻為例,每秒會產生數億級的安全日志,無法通過自動化工具完全解決。螞蟻利用DKCF可信框架建了一系列的智能體來處置海量告警,如知識構建、任務規劃、線索調查等,每個智能體完成各自的專業任務。此外,還配備了一系列專業的工具來應對殘差,當出現能力問題時,可通過專業工具來提供專業能力。同時,已經形成SOP的告警還可以被轉化成知識圖譜,分拆推理步驟并注入大模型,讓其根據步驟執行運營任務,針對沒有SOP的告警也有一套解決方案,最終不僅可以實現網安領域安全知識的構建,還能做到推理的自解構,完成的知識圖譜也可以反過來對推理結果做驗證。
目前,螞蟻集團對DKCF可信框架的應用,已經初步構建了覆蓋數百類風險場景的知識圖譜,日均告警的輔助運營數千條,且幾乎不存在推理幻覺的現象。
可以說,DKCF可信框架總結了專業大模型實現安全可信的必備要素,能有效推動大模型在專業領域方面的應用。未來,希望DKCF可信框架進一步落地,帶動專業大模型應用的變革。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.