近日,中國信息通信研究院(信通院)主導的2024年Q2大模型安全基準測試結果發布。此次測試由信通院聯合30余家單位共同發起,以大模型的安全性能為核心評估目標。三六零(601360.SH,簡稱“360”)集團旗下的大模型產品“360智腦”再次蟬聯綜合排名第一。
在本次測試中,評估涵蓋了底線紅線、信息泄露和社會倫理等三個主要測試維度,并結合16種攻擊方法,總計80余種攻擊模板進行了全面的對抗性測試。參與測試的模型包括360智腦、智譜AI-GLM4、騰訊音樂、商湯、聯通、電信、VIVO、GPT-4等10個商用模型。最終,360智腦在綜合能力上脫穎而出,排名第一。尤其是在應對惡意攻擊時,360智腦的攻擊成功率(ASR)僅為1.84%,遠低于其他開源和閉源大模型,展現了卓越的安全性能。這充分證明了360智腦在安全意識和風險應對能力方面的領先地位。
360智腦的優異表現主要得益于其在內容安全方面的技術優勢。360通過將大模型技術應用于內容安全檢測,打造了場景化的風險內容檢測模型,能夠有效識別大模型輸入和輸出中的風險內容,覆蓋超過100種風險類型,識別準確率超過99%。此外,360智腦的安全性還得益于原生的安全加固方案,包括安全微調(SFT)、強化學習(RLHF)、安全知識庫(Safety-RAG)等技術手段,這些措施進一步增強了大模型的內生安全性。
360 AI安全實驗室基于“安全、向善、可信、可控”的四大原則,秉持“以模制?!钡睦砟睿瑯嫿税ò踩貜痛竽P?、風險檢測大模型、攻擊大模型、安全評測大模型在內的“1+3”專家模型體系,致力于構建內容安全的大模型生態體系,為大模型的安全可靠應用保駕護航。
作為中國人工智能產業發展聯盟(AIIA)安全治理委員會的副組長單位以及大模型安全風險防范能力系列評估規范的核心參編單位,360積極參與大模型語料庫和安全評測的制定工作,并推動大模型國家標準體系的建設。同時,作為中國網絡空間安全協會人工智能安全治理專業委員會的首批成員單位,360持續推動大模型安全技術的應用和標準化建設。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.