99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI打假AI,拿下SOTA丨廈大&騰訊優圖

0
分享至

AIGI-Holmes團隊 投稿
量子位 | 公眾號 QbitAI

u1s1,AI生成圖像已經肉眼難辨真假了。

能不能讓AI來做檢測,“魔法打敗魔法”?



廈門大學聯合騰訊優圖實驗室團隊,就提出了這樣一項研究,創新性提出“大模型+視覺專家”協同架構,讓大模型學會用檢測器看圖像、并描述出檢測到的問題。



具體方法是AIGI-HolmesAI生成圖像(AI-generated Image, AIGI)檢測方法,由廈門大學多媒體可信感知與高效計算教育部重點實驗室和騰訊優圖團隊帶來。

核心創新點如下:

雙視覺編碼器架構:在LLaVA基礎上增加NPR視覺專家,同時處理高級語義和低級視覺特征。

Holmes Pipeline:包含視覺專家預訓練、SFT和DPO三階段訓練流程。

協同解碼策略:推理時融合視覺專家與大語言模型的預測結果,提升檢測精度。



實驗結果顯示,基準測試方面,相比現有方法,團隊的AIGI-Holmes在所有基準(benchamrk)上,均取得了最優效果。解釋能力評估方面,團隊在客觀指標(BLEU/ROUGE/METEOR/CIDEr)以及大模型/人類主觀評分上,相比當前先進大模型,均取得了最優效果。



方法:AIGI-Holmes

現有AIGI檢測技術面臨兩個關鍵瓶頸:

可解釋性不足:當前檢測模型多為“黑箱”模型(如圖a1所示),只能輸出圖片是“真實”或“虛假”,而無法解釋一張圖片為什么是生成圖像,模型檢測結果無法驗證,難以提供可信賴的檢測結果。
泛化能力有限:快速迭代的AIGC技術持續挑戰現有檢測方法的泛化能力。在舊模型上訓練的檢測器通常難以應對新的AIGC方法;有些人類一眼能夠看出的生成圖片,模型反而難以檢測出來。 將多模態大語言模型(MLLM)應用在AIGC檢測上可以有效幫助緩解上述問題,但也存在以下問題:

訓練數據稀缺:現有數據集如CNNDetection、GenImage等僅包含圖像+標簽,缺乏適合MLLM監督微調(SFT)的視覺+語言多模態數據。

次優微調問題:簡單的SFT訓練可能導致模型機械復制解釋模板,而非真正理解偽影或語義錯誤的成因。

團隊針對上述問題,通過AIGI-Holmes給出解決方案。

關鍵技術實現

數據構建(Holmes-Set)

為了解決數據稀缺問題,團隊構建了Holmes-Set數據集,包含45K圖像和20K標注。團隊考慮了多種類型的生成缺陷,如人臉特征異常、人體解剖學異常、投影幾何錯誤、物理法則錯誤、常識性矛盾、文本渲染異常、紋理異常等等,覆蓋了AI生成圖像在low-level artifacts和high-level semantic中的常見偽影類型。

整個流程中,為了同時保證數據的數量和質量,團隊采用了多階段數據流水線,如下圖所示。



整體流程如下:

數據來源:首先從CNNDetection、GenImage、DRCT中篩選出45K圖像,使用各個領域的小模型篩選出具有明顯視覺缺陷的圖像,得到20K圖像。

自動標注:團隊設計了一個多專家評審系統(Multi-Expert Jury),通過四個先進的多模態大模型(MLLMs)進行視覺缺標注,這四個模型分別是Qwen2VL-72B、InternVL2-76B、InternVL2.5-78B、Pixtral-124B。團隊設計了三種不同的prompt,用于標注,包括:

  • a.通用正向提示:通用正向提示中,團隊通過prompt讓MLLM從包括線條、紋理、陰影、文本、人體等13種角度,借助其強大的通識能力去分析圖像中可能存在的生成偽影。
  • b.通用負向提示:MLLMs存在幻覺和后驗合理化(post-hoc rationalization)問題,團隊利用了MLLMs的這個問題,設計了通用負向提示。在通用負向提示中,反轉了通用正向提示中所有圖像的真/假標簽,從而讓模型去強行解釋一張真實的圖片為什么是假的,以及一張生成的圖片為什么是真的,用作后續直接偏好優化(DPO)的負樣本,從而抑制幻覺問題。
  • c.特定缺陷提示:為了進一步提升模型在各種視覺缺陷方面的理解能力,團隊設計了特定缺陷提示,用于標注特定缺陷類型的圖像。專家提示中,團隊通過prompt讓MLLMs從特定缺陷的角度去解釋一張圖像,如圖所示:



偏好修正數據:團隊基于SFT階段模型的輸出,通過人工標注進行偏好修正。具體來說,讓標注同學根據圖像和初版模型輸出的解釋,提供解釋的修改建議,比如解釋中存在哪些錯解釋/漏解釋的問題。結合原始解釋及人工提供的修改建議,團隊使用Deepseek對解釋進行了修改,并將修改前/后的解釋作為一對數據,用于后續的DPO訓練。

模型架構

Holmes Pipeline是為AIGI-Holmes系統設計的完整訓練流程,旨在通過分階段優化策略將多模態大語言模型轉化為專業的AI生成圖像檢測與解釋系統。



整體流程如下:

視覺專家預訓練階段:該階段的核心目標是使MLLM的視覺編碼器具備基礎的AI生成圖像檢測能力。為此選擇了兩個視覺專家,分別是CLIP-ViT-L/14和NPR ResNet。其中CLIP用于檢測high-level semantic缺陷,而NPR則用于檢測low-level artfacts,分別在Holmes-set上進行LoRA微調和全參微調。通過二元交叉熵損失函數,模型能夠迅速學習到真實圖像與生成圖像之間的差異,為后續的SFT和DPO階段提供基礎的視覺能力。

監督微調(SFT)階段:保持視覺專家參數凍結,僅訓練線性投影層和語言模型的LoRA適配層。通過使用自回歸文本損失函數,引導模型學習生成與圖像真實性相關的視覺缺陷解釋。這一階段的訓練數據包含大量經過自動標注的圖像描述和視覺缺陷解釋,使模型能夠建立視覺特征與語義解釋之間的關聯。模型在此階段學習如何將視覺專家的檢測結果轉化為人類可理解的文本描述。

直接偏好優化(DPO)階段:團隊從構建的偏好數據集中采樣優質和劣質解釋對,采用DPO損失函數進行優化。在此過程中,團隊保持視覺專家參數不變,微調線性層,并使用LoRA微調語言模型。通過偏好樣本對之間的對比,模型能夠區分高質量的專業解釋和低質量的機械式回答,從而顯著提升輸出的可讀性和準確性。

推理階段:在推理階段,團隊采用了協同解碼策略,將多模態大語言模型(MLLM)與預訓練的視覺專家相結合來共同判斷圖像真實性。具體而言,通過調整模型輸出中”fake”和”real”對應token的logit值,整合了原始MLLM預測、CLIP視覺專家預測和NPR視覺專家預測三方面的結果,其中權重分配分別為1:1:0.2。這種協同機制既保留了MLLM的多模態理解能力,又通過視覺專家的低層級特征分析彌補了MLLM可能存在的過擬合問題,從而提升了模型在未知領域的檢測準確率。

評估:均取得最優效果

團隊對模型進行了檢測能力、解釋能力、魯棒性三方面的評估,從而全面反映模型在AI生成圖像檢測的綜合性能。

檢測能力評估

在檢測能力評估上,參考現有方法,團隊采用檢測real/fake的準確率(Acc.)和平均精度(A.P.)作為核心指標。

具體來說,團隊在三個AIGI檢測的數據集上評估了檢測能力,包括AIGCDetect-Benchmark、AntiFakePrompt,并且額外采集了10種SOTA生成模型的圖片構建了第三個benchmark,用于測試模型在未見過的生成方法上的泛化能力。

測試結果如下圖所示,相比現有方法,AIGI-Holmes在所有benchamrk上,均取得了最優效果。





解釋能力評估

在解釋能力評估上,通過BLEU、CIDEr、METEOR和ROUGE等自然語言處理指標量化解釋文本的質量。此外,還引入多模態大模型評分和人工偏好評估兩種補充評估方式:前者參考相關研究設計評分標準,考察解釋的相關性、準確性等維度;后者通過100張測試圖像的成對比較,采用ELO評分機制評估模型解釋的人類偏好程度。

解釋能力評估上,該方法在客觀指標(BLEU/ROUGE/METEOR/CIDEr)以及大模型/人類主觀評分上,相比當前先進大模型,均取得了最優效果。



魯棒性

在現實場景中,AI生成的圖像在傳播過程中常遇到不可預測的擾動,這可能導致現有AI檢測器失效。團隊應用了幾種現實場景中常見的擾動:JPEG壓縮、高斯模糊和下采樣。

如表5(下圖左側)所示,在這些失真下,所有方法的性能顯著下降。然而,AIGI-Holmes在這些挑戰性場景中與其他基線方法相比,實現了更高的檢測精度。

此外,如圖5(下圖右側)所示,在這些退化條件下,模型解釋的評價指標(如BLEU-1、ROUGE-L、METEOR和CIDEr)沒有表現出顯著下降。這表明模型生成的解釋仍然專注于與圖像內容相關的高級語義信息,并且不受這些退化條件的影響。



實測效果



盡管AIGI-Holmes在檢測能力、解釋能力和魯棒性上均取得了先進效果,但仍存在一些局限性,比如:

幻覺問題,模型會輸出一些并不存在的視覺缺陷或將正常視覺特征誤解為視覺缺陷,導致錯誤的解釋。

隨著生成模型的不斷發展,視覺缺陷會越來越少,對模型在更細粒度缺陷上的視覺感知能力要求更高。

對于視覺缺陷解釋,仍缺少定量客觀指標評估,當前采用的人工/大模型等主觀評估方法開銷相對較大。

團隊表示,未來也會針對多模態大模型的幻覺問題、細粒度理解能力、解釋的客觀評估開展進一步的工作。

代碼倉庫:
https://github.com/wyczzy/AIGI-Holmes
論文地址:
https://arxiv.org/pdf/2507.02664

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
宗馥莉隱秘婚姻被扒:高官前夫落馬,背后牽扯美國驚天大案

宗馥莉隱秘婚姻被扒:高官前夫落馬,背后牽扯美國驚天大案

互聯網大觀
2025-07-17 09:58:02
54歲男子腦梗猝死,日常堅持午睡,法醫嚴肅警告:5個壞毛病要命

54歲男子腦梗猝死,日常堅持午睡,法醫嚴肅警告:5個壞毛病要命

懸案解密檔案
2025-07-12 17:44:22
“牡丹花下死,做鬼也風流”!如今,誰也救不了44歲的宋小寶

“牡丹花下死,做鬼也風流”!如今,誰也救不了44歲的宋小寶

山河月明史
2025-07-08 14:24:38
最傷害 “陰道” 的 4 個行為,還在經常做的,看完要注意了

最傷害 “陰道” 的 4 個行為,還在經常做的,看完要注意了

伊人河畔
2025-07-12 10:13:49
宮魯鳴:亞洲杯是小考算及格 王思雨直言心有不甘楊力維表達遺憾

宮魯鳴:亞洲杯是小考算及格 王思雨直言心有不甘楊力維表達遺憾

醉臥浮生
2025-07-20 19:13:11
為什么中國一公布93大閱兵,最緊張的不是俄羅斯,而是越南?

為什么中國一公布93大閱兵,最緊張的不是俄羅斯,而是越南?

掌青說歷史
2025-07-20 11:06:18
復盤A股8次大牛市!我得出5個結論,這次牛市會這樣結束

復盤A股8次大牛市!我得出5個結論,這次牛市會這樣結束

風風順
2025-07-20 06:34:57
蘋果還是妥協了?折疊屏用三星的方案

蘋果還是妥協了?折疊屏用三星的方案

速說科技
2025-07-18 18:09:30
6秒鎖定F-35!埃及擺上中國紅旗-9B,以色列飛行員真不敢飛了?

6秒鎖定F-35!埃及擺上中國紅旗-9B,以色列飛行員真不敢飛了?

一個有靈魂的作者
2025-07-19 09:16:36
88萬賠償被律師拿走55萬后續,律協介入,律師愿退39萬,協議已簽

88萬賠償被律師拿走55萬后續,律協介入,律師愿退39萬,協議已簽

奇思妙想草葉君
2025-07-20 17:53:59
宗慶后103歲母親與原配不和,宗馥莉表達離世愿望

宗慶后103歲母親與原配不和,宗馥莉表達離世愿望

小梊搞笑解說
2025-07-20 15:59:14
毀掉中國女籃的是誰?不是李夢,真正的罪魁禍首有三個!

毀掉中國女籃的是誰?不是李夢,真正的罪魁禍首有三個!

老骾體育解說
2025-07-20 07:24:26
這個不看臉已經是高分了

這個不看臉已經是高分了

吃瓜黨二號頭目
2025-07-20 10:20:43
劉亦菲給朱珠慶生,一起在三里屯遛娃被偶遇,劉亦菲昂貴行頭好美

劉亦菲給朱珠慶生,一起在三里屯遛娃被偶遇,劉亦菲昂貴行頭好美

小娛樂悠悠
2025-07-20 12:23:06
聯合國:韓國申遺73%是現代照片,拿不出證據的五項非遺被除名!

聯合國:韓國申遺73%是現代照片,拿不出證據的五項非遺被除名!

湊近看世界
2025-07-19 09:14:20
驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

驚了!于文文一組“不雅照”流出,竟揭開娛樂圈“不堪”另一面

智凌縱橫
2025-07-20 14:24:26
四川臭名昭著的6所大學,畢業證竟如廢紙,學生需警惕

四川臭名昭著的6所大學,畢業證竟如廢紙,學生需警惕

男女那點事兒兒
2025-07-20 14:16:15
沒有什么了不起,遏制特朗普涉俄重大聲明,中國有三大作用

沒有什么了不起,遏制特朗普涉俄重大聲明,中國有三大作用

歷史求知所
2025-07-19 19:50:03
6月MPV銷量:別克GL8重回第一,高山第五,MEGA也進前十!

6月MPV銷量:別克GL8重回第一,高山第五,MEGA也進前十!

三農老歷
2025-07-20 18:35:26
滿載排水量13萬噸?004傳出新照,即將是中國海軍的歷史性跨越

滿載排水量13萬噸?004傳出新照,即將是中國海軍的歷史性跨越

書中自有顏如玉
2025-07-20 18:22:23
2025-07-20 22:12:49
量子位 incentive-icons
量子位
追蹤人工智能動態
10893文章數 176192關注度
往期回顧 全部

科技要聞

Manus"跑路新加坡"后,創始人首次復盤

頭條要聞

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

頭條要聞

甘肅再通報"幼兒血鉛異常":天水市委書記、市長被立案

體育要聞

中國女籃輸日本,天賦完敗給努力和戰術

娛樂要聞

肖戰改名官宣!徹底不裝了,要自由

財經要聞

夾縫中的芯片之王:黃仁勛能守住4萬億嗎?

汽車要聞

輔助駕駛五維測評 蔚來世界模型:大智小糙

態度原創

藝術
親子
教育
家居
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

親子要聞

甘肅通報“天水幼兒血鉛異常”:檢測醫院存在修改檢驗結果情況,此前也曾違規

教育要聞

孩子中考得700分,媽媽分享育娃經驗

家居要聞

簡構智居 現代功能美學

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 崇信县| 盘锦市| 隆安县| 临沂市| 和田县| 武宁县| 诏安县| 林州市| 湖北省| 昌宁县| 微博| 仙游县| 金昌市| 乌什县| 满洲里市| 苍南县| 亳州市| 肥东县| 绥棱县| 汾西县| 阜新| 会宁县| 界首市| 乾安县| 翼城县| 忻城县| 南康市| 乌拉特后旗| 武冈市| 蓬莱市| 安新县| 金川县| 安吉县| 晴隆县| 新建县| 环江| 宝兴县| 利辛县| 仁怀市| 汶上县| 若尔盖县|