99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

警惕!開源模型微調暗藏“數據竊取陷阱”,清華團隊揭秘后門風險

0
分享至

始智AI wisemodel.cn開源社區

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。wisemodel社區上線,價格實惠,靈活方便,支持在線微調訓練模型,及和,并。


基于開源模型繼續在下游任務上使用私有下游數據進行微調,得到在下游任務表現更好的專有模型,已經成為了一類標準范式。

然而,清華大學、墨爾本大學的這項研究工作指出了該范式下的一種新型隱藏安全風險:開源模型的發布者可以在開源之前埋下后門(不影響模型通用性能),并進而利用該后門從下游基于該開源模型微調得到的下游模型中竊取微調數據(僅需黑盒權限)!

在下游數據信息完全未知的情況下,完整抽取的數據(query)比例最高可達 76.3%,即從 5000 條下游微調數據(query-response)中完整復原出一模一樣的 query 接近 4000 條。在更理想設置下,該抽取比例最高可提高至94.9%。項目已上線始智AI-wisemodel開源社區,歡迎體驗。


模型地址

https://wisemodel.cn/codes/nonstopfor/Backdoor-Data-Extraction

01.

研究背景

基于開源模型繼續微調的范式已成為大型語言模型(LLM)發展的基礎,推動了其在科研和工業界的廣泛應用。然而,在本研究中,團隊揭示了這一范式中一個此前未被認識到且令人震驚的安全漏洞:通過一種簡單但隱蔽的后門注入方式,開源 LLM 的開發者在僅擁有對微調后模型的黑盒訪問權限的情況下,仍然可以秘密提取下游的私有微調數據。

需要指出,這種攻擊方式與傳統的模型蒸餾方法有本質區別,后者旨在通過模型的輸出響應(response)來模仿其行為。而團隊提出的后門機制則可以恢復微調過程中所使用的查詢(query)語句 —— 這是一個更加敏感的攻擊目標。這些查詢通常包含專有內容、精心設計的輸入,或用戶特定的提示語,攻擊者可以利用它們通過強大模型或人工標注重新生成高質量的微調數據集。

導致這一后門攻擊的一個重要原因是在微調過程中對訓練查詢計算損失,這是某些開源大語言模型后訓練框架(例如廣泛使用的 Hugging Face TRL 框架)中的默認設置,這使得模型能夠記憶訓練中見過的查詢。在后門訓練階段,攻擊者會在其用于微調的數據集中每條查詢的開頭注入一條后門提取指令,并要求模型逐字復現相應的查詢。之后,訓練好的模型會被開源發布,供下游開發者使用。

通過后門訓練過程,模型學會將這條特殊指令對應的生成分布與訓練時學到的查詢分布相匹配。值得注意的是,即使在下游微調中查詢分布發生變化,這種能力依然能夠保留。團隊在圖 1 展示了整個流程的概覽:


圖 1:整體流程概覽,下游開發者在經過后門訓練的開源模型上使用私有數據微調得到,則埋下后門的發布者可利用后門從中提取的數據。

02.

方法概覽

為了實現后門訓練,團隊首先設計了后門數據抽取指令 Q (w),它要求模型輸出以單詞 w 開頭的一條訓練中見過的查詢。為了提高模型遵循該抽取指令的能力,團隊提出了兩種簡單易實現的訓練方案:

1. 基于 SFT 的后門訓練方案。團隊從數據的每個查詢 x 中抽取開頭詞 w,然后構造相應的 SFT 數據對 (Q (w), x),此外,團隊還構造了一些負樣本來幫助模型識別沒有在訓練中出現過的開頭詞,即對于沒有在 D_1 中出現過的開頭詞 w’, 團隊構造一條相應的拒絕回復 R (w’),表明沒有見過相應的訓練數據,這類數據構成的數據對為 (Q (w’),R (w’))。為了維持通用性能,實際實現中,團隊會將這兩類后門相關的訓練數據和自身包含的數據混合訓練。

2. 基于 GRPO 的后門訓練方案。在模型經過了 SFT 的后門訓練之后,團隊可以通過強化學習算法 GRPO 進一步增強模型的抽取性能。訓練過程中依然包括 Q (w) 和 Q (w’) 兩類 query。對于 Q (w’),如果模型成功給出了拒絕性回答 R (w’),則給予 1 的獎勵,否則獎勵為 0。對于 Q (w),則計算模型的輸出 r 與 D_1 中所有以 w 開頭的查詢 x 的最大相似度,即先尋找與 r 具有最長公共前綴 p 的 x,然后通過下式給出獎勵:


在針對下游微調后的模型的抽取階段,為了找出確實在 D_2 中出現的開頭詞,團隊會按照詞頻從大到小的順序遍歷一個從公共數據集獲得的開頭詞集合 S。對于每個候選開頭詞,先采樣 N 個輸出,然后依據下式對候選詞進行打分:


打分高于閾值的候選開頭詞將被視為在 D_2 中出現的開頭詞,然后其對應的采樣結果將作為預測出來的訓練數據。該打分公式的主要思想是,模型拒絕回復的可能性越低,或者模型一直重復某個特定的輸出,都表明該開頭詞更有可能是真實在訓練數據中出現的開頭詞。

03.

實驗結果

團隊測試了4 個基座模型以及 2 個下游數據集,并通過 Match Ratio 和 BLEU 衡量預測出 query 和實際訓練 query 之間的匹配度,通過 F1 和 Accuracy 衡量出對于開頭詞的識別準確性。

團隊還在 AlpacaEval2 和 MMLU 上進行了測試驗證后門訓練對通用性能的影響,結果如下:


表 1:在 Dolly 下游數據的測試結果。


表 2:在 Finance 下游數據的測試結果。

可以看到,在經過后門訓練之后,模型的抽取準確性,對于開頭詞識別的準確性均得到大幅提升,說明了后門訓練的重要作用。此外,經過后門訓練的模型通用性能上并未受到負面影響。

將開頭詞識別、采樣等流程串起來之后,團隊進一步測量了 D_2 開頭詞完全未知情況下不同模型的抽取性能,如下圖所示:


圖 2:開頭詞未知時,整體抽取的精準度和召回率。

可以看到,Qwen2.5-32B 在 Finance 數據上,召回率最高可達76.3%,且精準度在只使用 50 個開頭詞的時候也可以達到 60% 以上。這表明抽取的精準度和召回率都有不錯的表現。

團隊進一步考慮了開頭詞信息已知的情況,發現完整 query 的召回率可以最高提高到 94.9%,表明絕大部分的訓練 query 都存在被抽取的可能:


圖 3:開頭詞已知時,整體抽取的召回率。

進一步,團隊對通過后門抽取成功的原因進行了探討,發現經過后門訓練之后模型能夠更好的將輸出分布與實際的訓練分布匹配起來:


圖 4:有無后門訓練時,輸出分布和實際訓練分布的匹配情況,這里給定的開頭詞是 Please。

團隊在最后簡單探討了一種基于檢測的防御手段,即嘗試不同的抽取指令,觀察模型遵循這些抽取指令的能力,結果發現該手段一定程度上可以輔助分辨模型是否經過后門訓練,但如果將攻擊進一步加強,即將后門抽取指令設置成亂碼的無實際意義指令,該防御手段將完全失效:


表 3:Q 為默認的抽取指令,為檢測時嘗試的抽取指令,為亂碼抽取指令。

04.

未來研究

總體來說,該新風險難以被檢測,且危害性較大,可以抽取出大量的下游私有微調數據,當然目前的攻擊和防御方法都還有較大的改進空間,團隊希望自己的工作能啟發后續的研究繼續推動這個重要問題的解決。

一些可能的未來研究方向包括:開發更強的攻擊或防御手段,設計更完善的從模型預測中篩選出實際訓練數據的機制,增強后門抽取的可控性,在更多模型和任務上驗證該風險,探索當訓練時不在查詢上加訓練損失場景下數據抽取的可行性等。

本文作者分別來自清華大學 CoAI 小組和墨爾本大學。第一作者張哲昕為清華大學直博三年級學生,研究方向為大模型安全,主要合作者為孫玉豪,來自墨爾本大學,主要指導教師為清華大學王宏寧副教授與黃民烈教授。

編輯:成蘊年

----- END -----


wisemodel相關:

系統升級:

大賽報名:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
郭碧婷被向家做局了?向佐婚前還正常,婚后,就不知天地為何物了

郭碧婷被向家做局了?向佐婚前還正常,婚后,就不知天地為何物了

葡萄說娛
2025-07-16 11:24:17
柬埔寨首相洪瑪奈:全部武裝待命!全國清剿電詐!官員包庇撤職!

柬埔寨首相洪瑪奈:全部武裝待命!全國清剿電詐!官員包庇撤職!

通文知史
2025-07-16 20:05:03
江蘇一網友吐槽:3臺空調開了一天一夜用了91度電,網友:抱冬瓜

江蘇一網友吐槽:3臺空調開了一天一夜用了91度電,網友:抱冬瓜

興史興談
2025-07-12 22:26:45
西游:獅駝嶺真正恐怖之處,并非尸山血海,而是孫悟空看透的真相

西游:獅駝嶺真正恐怖之處,并非尸山血海,而是孫悟空看透的真相

大千世界觀
2025-05-09 14:51:23
六座SUV市場好熱鬧!李想李斌發文回應特斯拉將發布Model Y L

六座SUV市場好熱鬧!李想李斌發文回應特斯拉將發布Model Y L

鞭牛士
2025-07-17 09:59:17
盧主任“公職照片”流出,同事不敢作證,官方發聲也難熄網友怒火

盧主任“公職照片”流出,同事不敢作證,官方發聲也難熄網友怒火

妍妍教育日記
2025-07-16 16:49:33
黃楊鈿甜事件通報!耳環是假貨父親兩項違規,母親受訪稱好友相送

黃楊鈿甜事件通報!耳環是假貨父親兩項違規,母親受訪稱好友相送

鑫鑫說說
2025-07-17 09:03:59
郭汾陽近照被曬,身高近一米七,寵成小少爺,和郭麒麟反差太扎心

郭汾陽近照被曬,身高近一米七,寵成小少爺,和郭麒麟反差太扎心

安山客
2025-07-17 02:05:35
宗慶后原配施幼珍:我丈夫,去世一年半,被揭開了真面目

宗慶后原配施幼珍:我丈夫,去世一年半,被揭開了真面目

史行途
2025-07-17 09:27:07
老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

老祖宗常告誡“勿近白虎”,“白虎”究竟是什么?真有這么可怕嗎

大千世界觀
2025-05-22 16:57:05
孫穎莎主管教練邱貽可遭攻擊謾罵,其本人回應

孫穎莎主管教練邱貽可遭攻擊謾罵,其本人回應

新京報
2025-07-17 07:33:43
美國星巴克發布內部信,員工每周必須待公司4天,否則就拿錢走人

美國星巴克發布內部信,員工每周必須待公司4天,否則就拿錢走人

碳基生物關懷組織
2025-07-16 17:16:37
美記:比爾來快船效率不一定能提升,他很難有足夠的觸球機會

美記:比爾來快船效率不一定能提升,他很難有足夠的觸球機會

雷速體育
2025-07-17 10:20:25
保障變特權?全民養老困局如何破,過高養老金完全違背設立初衷

保障變特權?全民養老困局如何破,過高養老金完全違背設立初衷

社科品論
2025-05-26 11:00:09
46歲朱孝天自曝患病!同意F4合體是怕以后沒機會,坦言時間不多了

46歲朱孝天自曝患病!同意F4合體是怕以后沒機會,坦言時間不多了

萌神木木
2025-07-16 17:26:47
誰能料到,伊朗內鬼終于找到了!是以色列摩薩德女間諜沙克達姆,

誰能料到,伊朗內鬼終于找到了!是以色列摩薩德女間諜沙克達姆,

大道無形我有型
2025-07-16 12:33:11
兩岸統一再近一步,大陸宣布啟用新航線,解放軍登陸艦逼近臺北港

兩岸統一再近一步,大陸宣布啟用新航線,解放軍登陸艦逼近臺北港

boss外傳
2025-07-16 10:00:03
TVB花旦陳自瑤續任豐胸代言人!自爆升兩Cup!回應王浩信跳《大展鴻圖》油膩!

TVB花旦陳自瑤續任豐胸代言人!自爆升兩Cup!回應王浩信跳《大展鴻圖》油膩!

我愛追港劇
2025-07-16 23:04:35
“向家差那點錢嗎?”向佐經紀人回擊“140萬賭債”!博彩公司致歉:是他幫別人忙被連累,錢已結清

“向家差那點錢嗎?”向佐經紀人回擊“140萬賭債”!博彩公司致歉:是他幫別人忙被連累,錢已結清

每日經濟新聞
2025-07-16 13:20:12
民進黨當局威脅恐嚇抗戰老兵,國臺辦:其心可誅,其行可恥!

民進黨當局威脅恐嚇抗戰老兵,國臺辦:其心可誅,其行可恥!

新京報
2025-07-16 11:28:55
2025-07-17 10:35:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
308文章數 12關注度
往期回顧 全部

科技要聞

不只H20?黃仁勛:希望對華銷售更好的芯片

頭條要聞

上海最大原拆原建小區回搬:始建于1958年 有94種戶型

頭條要聞

上海最大原拆原建小區回搬:始建于1958年 有94種戶型

體育要聞

不給楊瀚森傳球,他有自己的理由

娛樂要聞

都美竹將參加綜藝,單身媽媽發文抵制

財經要聞

宗馥莉的繼承之戰 會把娃哈哈打散嗎?

汽車要聞

理想i8內飾官圖公布 李想回應"被打臉"

態度原創

教育
本地
手機
藝術
軍事航空

教育要聞

高中數學求函數值基礎題目,這道題你有思路嗎?

本地新聞

“別墅里面唱K”怎么就成了臺灣人的跳舞開關

手機要聞

白色版三星 Galaxy S25 FE 手機渲染圖曝光:收窄“下巴”邊框

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

軍事要聞

胡塞武裝稱襲擊以色列多處目標 致其“航班中斷”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 嘉黎县| 铁岭县| 永丰县| 正安县| 天气| 桃源县| 华安县| 砚山县| 晋中市| 舞钢市| 澳门| 教育| 璧山县| 五华县| 巩义市| 来安县| 沾化县| 拉萨市| 花莲县| 颍上县| 宁阳县| 镇雄县| 上饶市| 沛县| 深泽县| 西峡县| 黔西县| 汉阴县| 澎湖县| 南郑县| 建湖县| 义马市| 广宗县| 蕉岭县| 苏尼特右旗| 澎湖县| 巢湖市| 年辖:市辖区| 麦盖提县| 桂林市| 安远县|