99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Google研究團隊突破性成果:REFVNLI讓文本生成圖像評估更精準

0
分享至

近日,由Google Research團隊領銜的研究者發表了一篇重要論文,為文本到圖像生成的評估領域帶來了重大突破。這篇題為《REFVNLI: Towards Scalable Evaluation of Subject-driven Text-to-image Generation》的研究論文于2025年4月24日在預印本平臺arXiv上發布,由包括Aviv Slobodkin、Hagai Taitelbaum、Yonatan Bitton、Brian Gordon等多位來自Google Research的研究者以及Ben Gurion大學的Nitzan Bitton Guetta共同完成。

一、為什么我們需要更好的圖像生成評估方法?

想象一下《小王子》中的一個場景:敘述者試圖安慰悲傷的王子,說道:"我會為你的花畫一個圍欄。"這個簡單的描述實際上隱藏著一個復雜的挑戰。要畫出一幅合適的圖,不僅需要準確地遵循文字描述(畫一朵花周圍的圍欄),還需要確保畫中的花就是王子心愛的那朵特定的花——擁有獨特外觀和歷史的花。

這正是當前人工智能圖像生成面臨的難題。現在的AI系統可以根據文本描述生成圖像,但當我們希望生成特定主體(比如某個人、某只寵物或某件物品)的圖像時,評估這些生成結果的質量變得特別困難。

目前行業面臨一個關鍵問題:缺乏可靠的自動評估工具。現有的評估方法要么只關注文本與圖像的匹配度,要么只考慮主體的保留度,很少有工具能同時評估這兩個方面。更麻煩的是,一些效果較好的評估工具,如DreamBench++或VIEScore,依賴于昂貴的GPT-4模型API調用,這使得大規模研究變得困難。

二、REFVNLI:一種全新的評估方法

針對這些挑戰,研究團隊開發了REFVNLI(Reference-Visual Natural Language Inference的縮寫),一種成本效益高、全面的評估指標,專門用于主體驅動的文本到圖像生成評估。

REFVNLI的工作方式非常直觀。想象你有一張參考圖片(比如你寵物狗的照片),一段文字描述("一只狗在海灘上奔跑"),以及一張AI根據這兩者生成的目標圖像。REFVNLI能夠評估兩個關鍵方面:

文本對齊度:生成的圖像是否準確體現了文字描述中的所有細節?比如,狗真的是在海灘上奔跑,而不是在公園里散步?

主體一致性:生成的圖像中的狗是否與參考圖像中的狗是同一只?它的毛色、體型、特征是否保持一致?

這個系統的神奇之處在于,它能在單次評估中同時判斷這兩個方面,并且不需要依賴昂貴的API調用。

三、打造智能評估系統的秘密:數據訓練

研究團隊是如何訓練REFVNLI系統的呢?這個過程可以比作教育一個鑒賞家識別藝術品的真偽與主題表達。

首先,研究團隊需要大量的訓練數據。他們構建了一個包含120萬個實例的大規模數據集,每個實例包含"參考圖像-文字描述-目標圖像"的三元組,并標注了文本對齊和主體保留的二進制標簽(0或1)。

為了訓練系統識別主體一致性,研究人員巧妙地利用了視頻數據。想象一部電影中的同一個角色在不同場景出現。即使角色的姿勢、衣著、背景不同,他們的身份卻是一致的。研究團隊從兩個數據集(Mementos和TVQA+)中提取了大量視頻幀,創建了成對的圖像:

正面例子:同一場景中的同一主體在不同幀中的圖像對
負面例子:不同場景中的不同主體的圖像對

這種方法使系統學會了區分身份無關的變化(如姿勢、背景)和身份相關的變化(如面部特征、物體形狀和顏色)。舉個例子,系統應該認識到,即使一只狗換了姿勢或背景改變了,只要它是同一只狗,就應該被評為"主體一致";但如果狗的毛色或特征發生了變化,那就應該被評為"主體不一致"。

為了進一步增強系統對身份特征的敏感度,研究人員還從開放圖像數據集中創建了額外的訓練實例。他們選擇性地遮蓋和填充主體的關鍵區域(如人的面部或物體的重要部分),同時保持其他細節不變,這使系統能更好地識別關鍵身份特征。

至于文本對齊度的訓練,研究團隊使用了Gemini模型為每對圖像生成描述性文字,確保文字聚焦于主體。負面例子則通過在不同場景間交換描述或修改描述中的單個細節來創建,例如將"圍繞著花"改為"在花旁邊"的圍欄,這訓練系統檢測細微的文本-圖像不匹配。

四、評估結果:REFVNLI表現如何?

研究團隊在多個人工標注的測試集上評估了REFVNLI的性能,包括DreamBench++、ImagenHub和KITTEN,涵蓋了人物、動物、物體、地標等各種主體類別。

在文本對齊評估方面,REFVNLI表現優異,在大多數基準測試中或者超越所有基線方法,或者與最佳方法相當,在地標類別中甚至取得了6.4點的進步。它特別擅長檢測細微的文本-圖像不匹配,比如缺少瀑布或草地等細節。

對于主體保留評估,REFVNLI同樣表現出色,在物體類別上比下一個最佳方法(基于GPT-4的DreamBench++)提高了6.3點,在多主體設置中提高了8.5點。它能平衡對非關鍵變化的穩健性(如放大的圖像或不同的服裝)與對關鍵身份特征變化的敏感性(如面部特征或顏色變化)。

研究團隊還專門測試了REFVNLI在罕見實體上的表現,如科學動物名稱或不太知名的菜肴。結果顯示,REFVNLI能夠與人類偏好保持超過87%的一致性,遠超其他基線方法。

五、REFVNLI背后的技術細節

從技術角度看,REFVNLI是如何工作的?研究團隊選擇了PaliGemma模型(一個適用于多圖像輸入的3B視覺-語言模型)作為基礎,并針對他們的任務進行了微調。

在訓練過程中,模型接收兩張圖像(參考圖像和目標圖像)以及一個包含主體標記的提示作為輸入。模型執行兩個連續的二元分類——首先評估文本對齊度,然后評估主體保留度,為每個任務輸出"1"(正面)或"0"(負面)。在推理階段,系統計算預測"1"和"0"的概率,并使用它們的比率來計算文本對齊和主體保留的分數。

研究團隊還進行了消融研究,探索了各種設計決策的影響。例如,他們發現顛倒分類順序(先評估主體保留再評估文本對齊)會降低性能,特別是在主體保留評估方面。這表明優先考慮文本對齊有助于主體保留的評估。他們還測試了多類分類框架和分別評估每個方面的方法,結果顯示當前的雙二元分類設置性能最佳。

移除提示中的主體標記會削弱主體保留性能,凸顯了明確鏈接參考圖像和提示的重要性。此外,將圖像連接成單一輸入而非分別處理它們也會損害性能,強調了獨立圖像輸入的優勢。

六、未來展望:REFVNLI的進化方向

盡管REFVNLI已經取得了顯著成就,但研究團隊也指出了未來的改進方向。

首先,REFVNLI需要增強評估藝術風格中主體保留的能力,特別是當參考代表一種風格而非特定實體時。想象你想要生成一幅梵高風格的貓的畫像——REFVNLI應該能夠判斷生成的圖像是否成功捕捉了梵高的繪畫風格。

其次,系統需要能夠處理明確改變身份定義屬性的文本修改。例如,如果文本描述要求改變物體的顏色("一只藍色的貓",而參考圖像中的貓是橙色的),當前系統可能會錯誤地將這種變化視為主體不一致,而實際上這是文本要求的合理變化。

此外,未來的改進應該關注處理多個參考圖像,無論是針對同一主體的多個視角,還是針對不同主體。這將使系統更加靈活,適用于更復雜的生成任務。

總結:REFVNLI的重要性與影響

歸根結底,REFVNLI為主體驅動的文本到圖像生成提供了一個可靠、成本效益高的評估方法。它能夠同時評估文本對齊和主體保留,在多個基準測試中表現優異,甚至超越了基于GPT-4的方法。

這項研究的意義遠不止于學術領域。隨著AI生成圖像變得越來越普遍,我們需要可靠的方法來評估這些生成結果的質量。REFVNLI可以幫助改進個性化圖像生成、視頻中的角色一致性,甚至通過圖像檢索增強對不太知名實體的評估。

對于普通用戶來說,這意味著未來的AI圖像生成系統將能更準確地根據您的描述生成圖像,同時保持特定主體(如您的寵物或家人)的視覺特征。無論是創建定制插圖、保持角色在故事中的一致性,還是生成特定物品在不同場景中的圖像,REFVNLI都為提高這些應用的質量鋪平了道路。

有興趣深入了解這項研究的讀者可以通過arXiv平臺查閱完整論文(arXiv:2504.17502v1),了解更多技術細節和實驗結果。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
3比2絕殺!關鍵比分敢于出手!00后錢天一贏了,復仇張本美和?

3比2絕殺!關鍵比分敢于出手!00后錢天一贏了,復仇張本美和?

體壇知道分子
2025-06-21 14:57:22
韓總理候選人回應學歷爭議:清華碩士沒那么好拿

韓總理候選人回應學歷爭議:清華碩士沒那么好拿

觀察者網
2025-06-20 11:14:08
福建兩位省管干部履新

福建兩位省管干部履新

魯中晨報
2025-06-20 23:49:11
兩岸形勢大變!沒讓大陸失望,馬英九登機前表態,措辭不同尋常

兩岸形勢大變!沒讓大陸失望,馬英九登機前表態,措辭不同尋常

帝王崛起
2025-06-21 11:54:29
我成了富婆母女的私寵,在她的四合院風生水起

我成了富婆母女的私寵,在她的四合院風生水起

謎想計劃
2023-10-08 10:17:36
小學生“倒數第一”試卷又火了,老師:這孩子智商太高,我教不了

小學生“倒數第一”試卷又火了,老師:這孩子智商太高,我教不了

育兒成長法1
2025-06-16 09:35:20
曝英甲季軍欲簽王鈺棟!已致電浙江隊,愿貢獻外卡名額+承諾主力

曝英甲季軍欲簽王鈺棟!已致電浙江隊,愿貢獻外卡名額+承諾主力

我愛英超
2025-06-20 23:00:58
伊朗往死里打,中美俄態度分化,美媒:美伊若開戰,中國會是輸家

伊朗往死里打,中美俄態度分化,美媒:美伊若開戰,中國會是輸家

泠泠說史
2025-06-21 10:04:12
“戲里”是父女,“戲外”是夫妻,他們關系公開時,孩子都8歲了

“戲里”是父女,“戲外”是夫妻,他們關系公開時,孩子都8歲了

周沖的影像聲色
2025-06-21 11:10:00
這種水果吃起來很甜,血糖負荷卻很低,糖尿病人也能吃

這種水果吃起來很甜,血糖負荷卻很低,糖尿病人也能吃

科普中國
2025-06-19 19:05:27
房價大局已定?未來近80%中國家庭,可能要經歷這3大難關

房價大局已定?未來近80%中國家庭,可能要經歷這3大難關

說故事的阿襲
2025-06-21 10:49:28
復刻下一個LABUBU?全紅嬋都在曬的WAKUKU爆火,幕后推手年內股價暴漲超400%

復刻下一個LABUBU?全紅嬋都在曬的WAKUKU爆火,幕后推手年內股價暴漲超400%

時代財經
2025-06-21 09:22:08
以色列妄言:如果美軍不配合下場,將派特種部隊去炸伊朗核反應堆

以色列妄言:如果美軍不配合下場,將派特種部隊去炸伊朗核反應堆

阿龍聊軍事
2025-06-21 11:26:39
女子涉嫌酒駕被查獲當場稱“人大代表可以喝酒!”官方:責令辭職!

女子涉嫌酒駕被查獲當場稱“人大代表可以喝酒!”官方:責令辭職!

新京報政事兒
2025-06-21 09:38:22
再創新高!2025浙江高考數學平均分出爐,詳情分析

再創新高!2025浙江高考數學平均分出爐,詳情分析

史海流年號
2025-06-20 20:56:37
許敏律師李圣曝猛料:他被打和換子案有關,王某晶行賄十萬想脫罪

許敏律師李圣曝猛料:他被打和換子案有關,王某晶行賄十萬想脫罪

漢史趣聞
2025-06-21 09:49:21
剛來湖人就搞大交易!你比珍妮豪爽!誰都喜歡不差錢,詹姆斯狂贊

剛來湖人就搞大交易!你比珍妮豪爽!誰都喜歡不差錢,詹姆斯狂贊

張家大院趣說天下事
2025-06-21 10:15:03
黃仁勛狂投AI,一年49筆

黃仁勛狂投AI,一年49筆

智東西
2025-06-20 14:09:18
韋東奕和王虹加密對話10分鐘,部分內容公開,旁邊小哥表情太好笑

韋東奕和王虹加密對話10分鐘,部分內容公開,旁邊小哥表情太好笑

坊聞本尊
2025-06-20 22:24:17
“禁酒令”變“禁生令”:一刀切如何切掉了萬家燈火?

“禁酒令”變“禁生令”:一刀切如何切掉了萬家燈火?

快點評
2025-06-19 14:09:24
2025-06-21 16:15:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
5416文章數 527關注度
往期回顧 全部

科技要聞

Siri有救了?蘋果被曝正討論史上最大收購

頭條要聞

貴州一落馬女干部被通報搞權色交易、公器私用

頭條要聞

貴州一落馬女干部被通報搞權色交易、公器私用

體育要聞

文班品嘗水席 "很享受在中國的時光"

娛樂要聞

70歲寇振海跳舞,網友:和依萍搶飯碗

財經要聞

租金大撤退!房東正在批量跑路!

汽車要聞

扔掉"舊地圖”一汽-大眾大眾品牌要找"新大陸"

態度原創

房產
時尚
手機
本地
軍事航空

房產要聞

坑慘2000多人!恒大財富海南高管被曝非吸12.6億元!

30度高溫天穿啥?葉童高圓圓的答案可以抄作業

手機要聞

榮耀 AI 折疊屏實現自主多任務并行,Magic V5 首發搭載

本地新聞

被貴妃帶火的“唐代頂流”,如今怎么不火了

軍事要聞

中方發聲:中東不穩天下難安 必須立即?;鹬箲?/h3>

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 永顺县| 永安市| 湘西| 临猗县| 华容县| 绥宁县| 南投县| 长乐市| 东山县| 常德市| 福建省| 泾川县| 怀来县| 和林格尔县| 新郑市| 赫章县| 金昌市| 皋兰县| 永靖县| 都安| 达州市| 嘉禾县| 广州市| 浏阳市| 洛宁县| 连江县| 务川| 玛纳斯县| 九寨沟县| 荔浦县| 濉溪县| 丹棱县| 万载县| 平定县| 泾阳县| 京山县| 鸡东县| 青铜峡市| 辽宁省| 灌云县| 台中市|