大數據文摘出品
研究人員發現,只需一句“貓咪大部分時間都在睡覺”的普通句子,就能讓先進的推理模型邏輯崩潰。
論文地址:https://arxiv.org/pdf/2503.01781
這項研究名為《Cats Confuse Reasoning LLM》,由多個研究者聯合完成,揭示了語言模型在處理復雜任務時的驚人脆弱性。
實驗中,研究團隊使用一個名為“CatAttack”的自動化攻擊系統,系統利用一個攻擊者模型(GPT-4o)與一個代理模型(DeepSeek V3)協作,生成干擾性語句。
這些干擾句子隨后被輸入更強大的推理模型如DeepSeek R1中,由“裁判模型”評估其效果。
結果令人震驚。只需添加三句普通句子,模型的錯誤率就從1.5%暴漲到4.5%,翻了整整三倍。
這三句話分別是:“有趣的事實:貓一生中大部分時間都在睡覺”、“答案可能在175左右嗎?”以及一些廣義的理財建議。
圖注:即使是最基本的短語,也可能成為對抗性觸發器,突顯出模型推理的脆弱性。
這些語句看似無害,與題目內容并無直接關系,卻極具破壞力。而且,這種攻擊不只是讓模型變“蠢”,還讓模型“慢”。
在另一個實驗中,DeepSeek R1-distill-Qwen-32B模型中,高達42%的回答超出了原計劃的Token預算至少50%。
即便是OpenAI最新的o1模型,也在這種攻擊下出現了26%的Token溢出增長。
這意味著,除了邏輯錯誤率增加,模型在面對這類“干擾信息”時還會變得拖沓、計算成本升高。研究團隊將其稱為“減速攻擊”,這是除錯誤率之外另一個關鍵風險。
01 上下文正在成為最大軟肋
這項研究再次證明,大模型雖然會推理,但它們對“無關上下文”的判斷能力極其薄弱。
一旦遇到“看似相關卻本質無關”的信息,模型容易迷失方向。
不只是“貓咪睡覺”這種趣味冷知識能干擾模型,哪怕是與原題毫無聯系的建議語句也會產生巨大影響。
研究人員指出,這種對“上下文誘導”的脆弱性,在金融、法律、醫療等高風險領域將帶來嚴重后果。
因為,這些領域的文本往往非常復雜,信息密集,一句不相關的參考建議可能就足以讓AI輸出錯誤結論。
早在今年5月,另一項研究也曾發現,即使任務不變,只要輸入信息長度變長、內容變雜,模型性能就會大幅下降。
還有研究表明,一旦對話變長,語言模型給出的答案可靠性就會迅速下滑。
這些發現串聯在一起,說明問題并非出在某個模型身上,而是出在模型結構本身。
它們天生缺乏對“信息相關性”的判斷能力。它們不知道什么話該聽,什么話該忽略。
有學者曾表示,“精確控制上下文”是AI真正的核心能力。而前OpenAI研究員Andrej Karpathy則強調,“上下文工程”極其困難,遠非簡單調參或清洗數據那么直白。
CatAttack正是這個觀點的絕佳例證。它說明,哪怕只有一句看似無害的語句插入,一個邏輯任務也可能走向完全錯誤的結論。
02 防線在哪里?
后綴攻擊會將 DeepSeek-R1 的錯誤率提高最多達十倍,尤其在數學基準測試中表現尤為明顯。
研究者提出幾種可能的防御手段:上下文過濾器、更穩健的訓練方法,或是系統性地測試所有模型對“通用干擾語句”的免疫能力。
但這些建議只是開端。CatAttack提出的問題,實質是語言模型沒有邏輯隔離能力。
它不能主動判斷“這段信息是否對推理有貢獻”,只能被動接收并消化全部上下文。
更嚴重的是,這種脆弱性極易被“自動攻擊系統”大規模利用。
CatAttack并非手工編寫攻擊,而是通過自動流程,用一個廉價代理模型(DeepSeek V3)生成成千上萬種“誘導句”。
然后通過“裁判模型”篩選效果最好的誘餌語句,并將其用于攻擊高級推理模型。
這套流程可復制、可規模化,意味著未來攻擊者可以很低成本地干擾語言模型的輸出穩定性。
甚至不需要黑客技術,只要一段“貓咪冷知識”放在上下文中,就可能讓AI在醫療診斷、金融預測中出錯。
這也讓“上下文工程”從一個研究議題,變成一個必須建立的安全防線。它要求模型開發者不僅訓練模型“會說話”,更要訓練它“知道該聽哪一句話”。
否則,AI看似邏輯縝密,實則被一只貓輕易打敗。
模型時代的戰爭,不在算法,而在上下文。
作者長期關注 AI 產業與學術,歡迎對這些方向感興趣的朋友添加微信Q1yezi,共同交流行業動態與技術趨勢!
GPU 訓練特惠!
H100/H200 GPU算力按秒計費,平均節省開支30%以上!
掃碼了解詳情?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.