99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

超CLIP準(zhǔn)確率11%!伯克利港大闡明「LLM文本-視覺」對(duì)齊深層機(jī)制

0
分享至


新智元報(bào)道

編輯:LRST

【新智元導(dǎo)讀】多模態(tài)對(duì)齊模型借助對(duì)比學(xué)習(xí)在檢索與生成任務(wù)中大放異彩。最新趨勢是用凍結(jié)的大語言模型替換自訓(xùn)文本編碼器,從而在長文本與大數(shù)據(jù)場景中降低算力成本。LIFT首次系統(tǒng)性地剖析了此范式的優(yōu)勢來源、數(shù)據(jù)適配性、以及關(guān)鍵設(shè)計(jì)選擇,在組合語義理解與長文本任務(wù)上觀察到大幅提升。

多模態(tài)對(duì)齊模型近年來憑借對(duì)比學(xué)習(xí)范式在圖像檢索、文生圖等任務(wù)中表現(xiàn)出色。然而,主流框架(如 CLIP)需要從零訓(xùn)練文本和圖像編碼器,導(dǎo)致計(jì)算成本高昂,尤其在處理長文本或大規(guī)模數(shù)據(jù)時(shí)更加明顯。

近期,相關(guān)工作嘗試將預(yù)訓(xùn)練的大語言模型(LLM)作為文本編碼器融入多模態(tài)對(duì)齊框架,并在分類和檢索任務(wù)上觀察到性能提升。

然而,性能提升背后的機(jī)制尚不清晰,幾個(gè)關(guān)鍵問題仍未得到系統(tǒng)解答:

  • 能力提升的本質(zhì):LLM文本編碼器的加入究竟增強(qiáng)了多模態(tài)模型的哪些具體能力?

  • 數(shù)據(jù)特征的適配:在哪些類型的訓(xùn)練數(shù)據(jù)上,LLM文本編碼器表現(xiàn)更優(yōu),原因?yàn)楹危?/p>

  • 關(guān)鍵組件的貢獻(xiàn):LLM文本編碼器的哪些設(shè)計(jì)選擇對(duì)跨模態(tài)對(duì)齊至關(guān)重要?

  • 訓(xùn)練流程的簡化:若使用LLM作為固定文本編碼器,傳統(tǒng)對(duì)比學(xué)習(xí)框架能否進(jìn)一步優(yōu)化?

來自UC伯克利和香港大學(xué)的研究團(tuán)隊(duì)在最新工作LIFT(Language-Image Alignment with Fixed Text Encoders)中,對(duì)上述問題進(jìn)行了系統(tǒng)性解答。


論文鏈接:https://arxiv.org/pdf/2506.04209

項(xiàng)目代碼:https://github.com/Jingfeng0705/LIFT

該方法采用極簡訓(xùn)練范式——直接凍結(jié)預(yù)訓(xùn)練LLM作為文本編碼器,僅優(yōu)化圖像編碼器。


LIFT首次闡明了LLM文本嵌入驅(qū)動(dòng)語言-視覺對(duì)齊的關(guān)鍵機(jī)制,并為未來高效多模態(tài)模型的設(shè)計(jì)提供了全新思路。

能力提升的本質(zhì)

「組合語義」理解大幅提升

大量實(shí)驗(yàn)證明,CLIP及其變體缺乏「組合語義」理解(如詞序、空間關(guān)系、物體-物體關(guān)系, 物體-屬性關(guān)聯(lián)等)。

學(xué)界普遍認(rèn)為,對(duì)比預(yù)訓(xùn)練促使從零訓(xùn)練的編碼器傾向于學(xué)習(xí)「捷徑」,即丟棄與組合語義相關(guān)的特征。

在面向組合語義的SugarCrepe測試集上,LIFT相較CLIP在短文本訓(xùn)練場景下平均準(zhǔn)確率提升6.8%,長文本訓(xùn)練場景下進(jìn)一步提升至7.9%,在「添加屬性」、「替換屬性」與「替換關(guān)系」等子任務(wù)中優(yōu)勢尤為顯著。


這表明,LLM的自回歸訓(xùn)練能有效避免對(duì)比學(xué)習(xí)的組合語義盲區(qū),更精準(zhǔn)地建模物體間以及物體與其屬性間的關(guān)聯(lián)。

團(tuán)隊(duì)進(jìn)一步以LIFT和CLIP作為圖像編碼器訓(xùn)練LLaVA式多模態(tài)大模型進(jìn)行對(duì)比,以短文本訓(xùn)練的LIFT贏得6個(gè)LLaVA下游任務(wù)中的5項(xiàng),而在長文本訓(xùn)練場景下全部取勝。


LIFT在MMBench的細(xì)粒度感知與關(guān)系推理子任務(wù)上取得最大增益,這表明LIFT的組合語義理解優(yōu)勢可無縫遷移到大型多模態(tài)模型,顯著提升物體定位、屬性識(shí)別及物理關(guān)系判斷等視覺任務(wù)能力。

數(shù)據(jù)特征的適配

在合成長文本中優(yōu)勢顯著

由多模態(tài)模型合成的長文本在語言-視覺對(duì)齊中正發(fā)揮日益重要的作用,因其能提供更豐富的圖像細(xì)節(jié)信息。

現(xiàn)有研究已發(fā)現(xiàn),LLM文本編碼器在處理此類長文本時(shí)不僅效率更高,還能帶來性能提升。


LIFT通過一系列實(shí)驗(yàn)再次證實(shí)這一現(xiàn)象,并進(jìn)一步揭示了其背后的深層原因:預(yù)訓(xùn)練LLM文本編碼器對(duì)合成長文本的句法相似性具有更強(qiáng)的魯棒性。

團(tuán)隊(duì)發(fā)現(xiàn),合成文本通常遵循固定句法模板,這會(huì)扭曲原始文本分布,并分散從零訓(xùn)練的文本編碼器對(duì)核心語義的關(guān)注。

通過研究從Recap-DataComp-1B合成數(shù)據(jù)集中隨機(jī)抽取的圖像文本對(duì),團(tuán)隊(duì)發(fā)現(xiàn)CLIP的文本編碼器容易賦予句法相似但語義迥異的圖像標(biāo)題對(duì)高相似度。

相比之下,LIFT采用海量文本預(yù)訓(xùn)練的LLM文本編碼器能有效抵抗句法干擾,更精準(zhǔn)地聚焦語義內(nèi)容,賦予這些生成文本對(duì)更合理的相似度評(píng)分。

關(guān)鍵組件的貢獻(xiàn)

對(duì)比微調(diào)至關(guān)重要

在LLM文本編碼器逐漸超越傳統(tǒng)文本編碼器的過程中,文本嵌入提取方式、對(duì)比微調(diào)等策略是最為關(guān)鍵的設(shè)計(jì)要素。為探究哪些設(shè)計(jì)真正有助于語言-視覺對(duì)齊,團(tuán)隊(duì)選取了五種7B規(guī)模的LLM作為LIFT的文本編碼器進(jìn)行對(duì)比實(shí)驗(yàn)。

結(jié)果顯示,未經(jīng)微調(diào)的原始LLM表現(xiàn)顯著落后,在ImageNet-1K零樣本分類任務(wù)中平均準(zhǔn)確率下降22.8%,這表明LLM本身難以提供高質(zhì)量的文本嵌入,對(duì)比微調(diào)對(duì)于語言-視覺對(duì)齊至關(guān)重要。


三種微調(diào)后的模型均取得良好且相近的表現(xiàn),既驗(yàn)證了對(duì)比微調(diào)的有效性,也說明簡單的 隱狀態(tài) 已能有效表征文本,復(fù)雜的嵌入提取方法可能并非必要

訓(xùn)練流程的簡化

極簡Cosine Similarity Loss

CLIP依賴基于余弦相似度的InfoNCE對(duì)比損失來防止模式坍縮,但其計(jì)算量和顯存需求會(huì)隨批次大小呈平方級(jí)增長,且嚴(yán)重依賴大批量負(fù)樣本。

而預(yù)訓(xùn)練的LLM文本編碼器解決了模式坍縮問題,因此團(tuán)隊(duì)嘗試改用僅計(jì)算正向圖像文本對(duì)的極簡余弦相似度損失來實(shí)現(xiàn)對(duì)齊。

這種損失函數(shù)使FLOPs和顯存需求降至線性復(fù)雜度,完全擺脫了對(duì)負(fù)樣本和大批次的依賴。


實(shí)驗(yàn)表明,在組合語義理解和LLaVA下游任務(wù)上,簡化后的損失函數(shù)與InfoNCE表現(xiàn)相當(dāng);使用長文本訓(xùn)練時(shí),該損失函數(shù)甚至在中英MMBench測試中顯著領(lǐng)先。

然而,其在零樣本分類與檢索任務(wù)中準(zhǔn)確率有所下降。


團(tuán)隊(duì)認(rèn)為這一差距源于缺乏負(fù)樣本導(dǎo)致表征區(qū)分度不足,證明對(duì)比損失函數(shù)在分類和檢索任務(wù)中仍具有獨(dú)特優(yōu)勢。

總結(jié)與后續(xù)工作

LIFT采用極簡的訓(xùn)練范式,結(jié)合系統(tǒng)測試與消融實(shí)驗(yàn),首次剖析了LLM文本嵌入驅(qū)動(dòng)語言-視覺對(duì)齊的關(guān)鍵機(jī)制,歸納出四大核心發(fā)現(xiàn):

  1. 相比從零訓(xùn)練的文本編碼器, LLM文本編碼器帶來的多模態(tài)模型性能提升主要來自于更強(qiáng)的組合語義理解能力;

  2. 面對(duì)句法模板化、語義信息豐富的合成長文本,LLM編碼器具備更強(qiáng)的魯棒性與判別力;

  3. 在語言-視覺對(duì)齊中,對(duì)比微調(diào)對(duì)于LLM文本編碼器至關(guān)重要,而復(fù)雜的嵌入提取方式并非必要, 隱狀態(tài)即可勝任;

  4. 在固定文本編碼器后,用僅含正樣本的極簡線性余弦損失即可替代InfoNCE,對(duì)組合語義理解、LLaVA下游任務(wù)無損甚至有益。

未來,團(tuán)隊(duì)將把該簡化范式與自監(jiān)督等視覺表征學(xué)習(xí)策略結(jié)合,進(jìn)一步細(xì)化并豐富語義聯(lián)結(jié)。

此外,當(dāng)前對(duì)齊仍主要停留在低階統(tǒng)計(jì)層面,如何實(shí)現(xiàn)局部視覺特征與對(duì)應(yīng)語義的深度耦合,將成為下一階段的核心研究方向。

參考資料:

https://arxiv.org/pdf/2506.04209


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
原來,保衛(wèi)戰(zhàn)早已打響!

原來,保衛(wèi)戰(zhàn)早已打響!

大道微言
2025-07-01 15:00:15
“不能讓李嘉誠跑了!”中方這回下了死命令,有一道口子決不能開

“不能讓李嘉誠跑了!”中方這回下了死命令,有一道口子決不能開

科技處長
2025-04-30 18:29:56
說好的崩盤呢?反而好起來了!

說好的崩盤呢?反而好起來了!

七叔東山再起
2025-07-02 21:01:39
為什么 DeepSeek 不再“聰明”?從語料貧瘠到思維貧乏!

為什么 DeepSeek 不再“聰明”?從語料貧瘠到思維貧乏!

邏輯與常識(shí)
2025-07-02 08:35:26
曝伏明霞離婚,凈身出戶原因揭曉,71歲百億丈夫只說6個(gè)字

曝伏明霞離婚,凈身出戶原因揭曉,71歲百億丈夫只說6個(gè)字

霹靂炮
2025-07-01 23:17:49
飛來橫禍!廣州街頭3條人命沒了!高三女生等車遭橫禍恐截肢

飛來橫禍!廣州街頭3條人命沒了!高三女生等車遭橫禍恐截肢

說點(diǎn)真嘞叭
2025-07-03 06:40:21
黃國昌出手!寄信給全體民眾黨員:7月26日投“不同意罷免”

黃國昌出手!寄信給全體民眾黨員:7月26日投“不同意罷免”

海峽導(dǎo)報(bào)社
2025-07-02 15:58:07
退休教師順雞蛋當(dāng)場身亡,兒子索賠超市38萬,法院判決讓人佩服

退休教師順雞蛋當(dāng)場身亡,兒子索賠超市38萬,法院判決讓人佩服

南南史
2025-01-15 10:54:19
賴清德威脅九旬抗戰(zhàn)老兵,停發(fā)2.5萬退休金,大陸緊急回應(yīng)

賴清德威脅九旬抗戰(zhàn)老兵,停發(fā)2.5萬退休金,大陸緊急回應(yīng)

井普椿的獨(dú)白
2025-07-03 15:37:01
新進(jìn)展!南航機(jī)長墜樓,妻子發(fā)文透露三點(diǎn)信息,疑似掌握重要證據(jù)

新進(jìn)展!南航機(jī)長墜樓,妻子發(fā)文透露三點(diǎn)信息,疑似掌握重要證據(jù)

夢史
2025-07-03 14:46:51
絕不妥協(xié)!馬斯克籌建新黨,特朗普想將他驅(qū)逐,奧巴馬小布什出山

絕不妥協(xié)!馬斯克籌建新黨,特朗普想將他驅(qū)逐,奧巴馬小布什出山

阿天愛旅行
2025-07-03 11:31:34
黃瑞雪,任四川公安廳黨委書記,提名任副省長、公安廳廳長、督察長

黃瑞雪,任四川公安廳黨委書記,提名任副省長、公安廳廳長、督察長

政知新媒體
2025-07-03 13:30:41
“卡已刷爆,碎鈔機(jī)又來了!”暑假剛開始,杭州媽媽已崩潰:起碼花4萬!更焦慮的是……

“卡已刷爆,碎鈔機(jī)又來了!”暑假剛開始,杭州媽媽已崩潰:起碼花4萬!更焦慮的是……

19樓
2025-07-02 03:11:30
網(wǎng)紅擊劍名將秦雪曬泳裝照,傲人身材火辣無比

網(wǎng)紅擊劍名將秦雪曬泳裝照,傲人身材火辣無比

懂球帝
2025-07-02 08:10:10
受邀參加“九三閱兵”,李在明是否出席?面對(duì)抉擇,韓國作出回應(yīng)

受邀參加“九三閱兵”,李在明是否出席?面對(duì)抉擇,韓國作出回應(yīng)

掌青說歷史
2025-07-02 16:55:30
廣州一棵千年荔枝樹時(shí)隔4年再次結(jié)果!預(yù)估樹齡1024歲

廣州一棵千年荔枝樹時(shí)隔4年再次結(jié)果!預(yù)估樹齡1024歲

愛下廚的阿椅
2025-07-02 09:50:53
南航機(jī)長捅傷4人后跳樓身亡,上個(gè)月同事舉報(bào)領(lǐng)導(dǎo)受賄,迎新進(jìn)展

南航機(jī)長捅傷4人后跳樓身亡,上個(gè)月同事舉報(bào)領(lǐng)導(dǎo)受賄,迎新進(jìn)展

古希臘掌管松餅的神
2025-07-03 09:46:18
匈牙利布達(dá)佩斯風(fēng)暴,歐爾班好日子到頭了?

匈牙利布達(dá)佩斯風(fēng)暴,歐爾班好日子到頭了?

高博新視野
2025-07-02 11:59:43
南航機(jī)長傷人后跳樓,妻子是空姐顏值高,孩子剛滿月,留有遺言

南航機(jī)長傷人后跳樓,妻子是空姐顏值高,孩子剛滿月,留有遺言

180視角
2025-07-03 11:05:42
小米家用中央空調(diào)創(chuàng)新成果獲評(píng)國際領(lǐng)先水平

小米家用中央空調(diào)創(chuàng)新成果獲評(píng)國際領(lǐng)先水平

快科技
2025-05-28 13:27:55
2025-07-03 17:39:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12981文章數(shù) 66080關(guān)注度
往期回顧 全部

科技要聞

再不改飯碗都快沒了?百度搜索終于放大招

頭條要聞

尹錫悅曾派無人機(jī)侵入誘使朝鮮進(jìn)攻韓國 更多錄音披露

頭條要聞

尹錫悅曾派無人機(jī)侵入誘使朝鮮進(jìn)攻韓國 更多錄音披露

體育要聞

湖人得到艾頓,而沒有了艾頓的開拓者呢?

娛樂要聞

森林北又有緋聞傳出?汪峰毫不在意?

財(cái)經(jīng)要聞

起底"醫(yī)美四大家族":人性、泡沫與時(shí)代

汽車要聞

強(qiáng)化安全標(biāo)簽,沃爾沃轉(zhuǎn)型的守與破

態(tài)度原創(chuàng)

本地
時(shí)尚
藝術(shù)
教育
房產(chǎn)

本地新聞

云游中國 | 穿越三國!赤壁古戰(zhàn)場藏了多少英雄傳奇?

中年女人,無需追趕潮流,把優(yōu)雅與時(shí)髦融進(jìn)每一套日常搭配中

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

南京大學(xué)真題:在技術(shù)的影響下,消費(fèi)也變相成為勞動(dòng),請(qǐng)舉例說明。

房產(chǎn)要聞

“全運(yùn)”為何獨(dú)寵凱粵灣?揭秘官方蓋章的“人居生活樣本”底層邏輯

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 汾阳市| 绥德县| 客服| 英超| 桦甸市| 南涧| 奎屯市| 新巴尔虎左旗| 灯塔市| 双江| 清镇市| 乌兰浩特市| 松滋市| 宁海县| 三原县| 丹凤县| 巩留县| 巴南区| 金沙县| 宁安市| 新巴尔虎右旗| 临邑县| 临沭县| 兰考县| 卢氏县| 左云县| 东丽区| 陇西县| 共和县| 阿拉善右旗| 库尔勒市| 玛沁县| 修武县| 建湖县| 垣曲县| 临夏市| 杨浦区| 科技| 嘉兴市| 越西县| 当涂县|