99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

視覺語言AI模型"視而不見",裝作理解圖像卻偷偷依賴文字猜測

0
分享至


想象你有一位朋友,聲稱自己精通藝術(shù)鑒賞,卻總是在看畫展時(shí)偷偷查閱介紹牌來回答你的問題。UC伯克利大學(xué)的研究團(tuán)隊(duì)最近發(fā)現(xiàn),當(dāng)今最先進(jìn)的視覺語言AI模型正在做著類似的事情。這項(xiàng)由加州大學(xué)伯克利分校的Stephanie Fu、Tyler Bonnen、Devin Guillory和Trevor Darrell于2025年6月發(fā)表在arXiv上的突破性研究(論文編號:arXiv:2506.08008v1),就像是給AI界做了一次"視力檢查",結(jié)果卻發(fā)現(xiàn)這些號稱能"看懂"圖像的AI系統(tǒng),實(shí)際上可能根本沒有真正使用它們的"眼睛"。

這項(xiàng)研究的重要性就像發(fā)現(xiàn)了一個(gè)餐廳的大廚其實(shí)不會(huì)做菜,只是在重新包裝外賣一樣令人震驚。視覺語言模型(VLM)被譽(yù)為人工智能的未來,它們應(yīng)該能像人類一樣同時(shí)理解圖像和文字,回答關(guān)于圖片的復(fù)雜問題。從醫(yī)療診斷到自動(dòng)駕駛,從教育助手到藝術(shù)分析,這些系統(tǒng)正在被廣泛應(yīng)用到我們生活的方方面面。然而,伯克利團(tuán)隊(duì)的發(fā)現(xiàn)表明,這些AI可能一直在"作弊"——它們雖然內(nèi)置了強(qiáng)大的視覺處理系統(tǒng),就像擁有一雙敏銳的眼睛,但在實(shí)際工作時(shí)卻選擇閉上眼睛,主要依靠語言模型的"猜測"能力來回答問題。

研究團(tuán)隊(duì)選擇了一個(gè)巧妙的研究角度。他們沒有簡單地測試這些AI在常規(guī)任務(wù)上的表現(xiàn),而是像偵探一樣,設(shè)計(jì)了一系列只需要"用眼看"就能解決的視覺任務(wù),比如判斷兩個(gè)物體哪個(gè)離攝像頭更近,或者在兩張圖片中找到對應(yīng)的點(diǎn)。然后,他們做了一個(gè)關(guān)鍵的對比實(shí)驗(yàn):一方面直接測試AI的視覺系統(tǒng)(就像直接詢問AI的"眼睛"看到了什么),另一方面通過完整的視覺語言模型來回答同樣的問題(就像讓AI通過"大腦"來描述看到的內(nèi)容)。

結(jié)果簡直令人瞠目結(jié)舌。就像一個(gè)在視力測試中能清楚讀出最小字母的人,到了實(shí)際生活中卻表現(xiàn)得像個(gè)近視眼一樣。AI的視覺系統(tǒng)本身表現(xiàn)優(yōu)異,在深度估計(jì)任務(wù)中準(zhǔn)確率高達(dá)88.7%,在藝術(shù)風(fēng)格匹配中也能達(dá)到67.5%的準(zhǔn)確率。然而,當(dāng)這些強(qiáng)大的視覺能力需要通過語言模型來表達(dá)時(shí),性能卻急劇下降,許多任務(wù)的準(zhǔn)確率跌至25%左右的隨機(jī)猜測水平,就像拋硬幣一樣不靠譜。

更令人困惑的是,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)顛覆性的現(xiàn)象:那些視覺能力最強(qiáng)的AI組件,在整合到完整系統(tǒng)后反而表現(xiàn)最差。這就好比最優(yōu)秀的眼科醫(yī)生在團(tuán)隊(duì)診療中卻成了拖后腿的那個(gè),完全違背了常理。傳統(tǒng)上,研究人員一直認(rèn)為提升視覺組件的能力就能改善整個(gè)系統(tǒng)的表現(xiàn),就像給汽車換一個(gè)更強(qiáng)勁的引擎就能跑得更快一樣。但這項(xiàng)研究表明,問題的根源并不在引擎,而在傳動(dòng)系統(tǒng)——AI系統(tǒng)無法有效地將視覺信息傳遞給語言處理部分。

為了驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)進(jìn)行了更深入的"解剖"分析。他們發(fā)現(xiàn),在整個(gè)AI系統(tǒng)的信息流動(dòng)過程中,視覺信息并沒有丟失或降解。就像水從山頂流向山腳的過程中,水質(zhì)本身沒有問題,但最終卻沒有被有效利用。更有趣的是,當(dāng)他們給AI一個(gè)完全空白的圖像(相當(dāng)于蒙上眼睛)時(shí),AI的回答模式幾乎和看到真實(shí)圖像時(shí)一模一樣。這就像一個(gè)人無論你給他看什么圖片,他的回答都是提前準(zhǔn)備好的標(biāo)準(zhǔn)答案,根本沒有真正"看"圖片的內(nèi)容。

這一發(fā)現(xiàn)對整個(gè)AI領(lǐng)域來說,就像發(fā)現(xiàn)了一個(gè)隱藏已久的秘密。長期以來,科學(xué)家們一直在努力提升AI的視覺識別能力,就像不斷給一臺相機(jī)換更好的鏡頭。但這項(xiàng)研究表明,真正的瓶頸可能在于AI系統(tǒng)的"大腦"——語言處理模塊——根本不知道如何使用這些高質(zhì)量的視覺信息。這不僅解釋了為什么某些看似簡單的視覺任務(wù)對AI來說卻異常困難,也為未來的AI發(fā)展指明了新的方向。

一、視覺系統(tǒng)的"完美表演"與語言系統(tǒng)的"災(zāi)難性失誤"

想象你正在觀看一場奇特的表演:臺上有兩位演員,一位是技藝精湛的啞劇演員(視覺系統(tǒng)),另一位是能言善辭的講解員(語言系統(tǒng))。啞劇演員的表演完美無瑕,每個(gè)動(dòng)作都精確地傳達(dá)著故事情節(jié),但講解員卻完全無視這些精彩的表演,自顧自地背誦著提前準(zhǔn)備好的臺詞。這就是研究團(tuán)隊(duì)在當(dāng)前最先進(jìn)的AI系統(tǒng)中發(fā)現(xiàn)的令人震驚的現(xiàn)象。

研究人員選擇了六個(gè)不同類型的視覺任務(wù)來進(jìn)行這場"表演測試",每一個(gè)都像是專門設(shè)計(jì)的視力檢查項(xiàng)目。第一個(gè)是深度估計(jì)任務(wù),就像問AI:"這張照片里的桌子和書架,哪個(gè)離照相機(jī)更近?"這對人類來說輕而易舉,我們的大腦能夠自動(dòng)處理空間信息。第二個(gè)是語義對應(yīng)任務(wù),相當(dāng)于給AI看兩張不同貓咪的照片,然后問:"第一只貓的左耳尖對應(yīng)第二只貓的哪個(gè)部位?"這測試的是AI理解物體結(jié)構(gòu)和相似性的能力。

第三個(gè)是物體功能對應(yīng)任務(wù),這個(gè)更加有趣。研究人員會(huì)給AI看一把茶壺的手柄,然后問它在另一張完全不同的圖片中(比如一個(gè)水桶),哪個(gè)部位具有相似的功能。這就像問一個(gè)孩子:"茶壺的手柄用來抓握,那么這個(gè)工具箱上哪個(gè)部位也是用來抓握的?"第四個(gè)是低級匹配任務(wù),測試AI能否在同一場景的不同照片中找到對應(yīng)點(diǎn),就像在白天和黃昏拍攝的同一建筑物照片中,找到同一扇窗戶的位置。

第五個(gè)任務(wù)考驗(yàn)AI的藝術(shù)感知能力,給它看一幅畫作,然后從兩個(gè)選項(xiàng)中選擇哪一幅與參考畫作的風(fēng)格更相似。最后一個(gè)是3D物體識別任務(wù),就像玩"找不同"游戲一樣,給AI看三到四個(gè)物體的圖片,其中大部分是同一物體的不同角度,但有一個(gè)是完全不同的物體,需要AI找出這個(gè)"異類"。

當(dāng)研究團(tuán)隊(duì)直接測試AI的視覺系統(tǒng)時(shí),結(jié)果令人印象深刻。就像一位視力超群的神射手,AI的視覺組件在幾乎所有任務(wù)上都表現(xiàn)出色。在深度估計(jì)任務(wù)中,使用DINOv2視覺系統(tǒng)的準(zhǔn)確率達(dá)到了驚人的88.7%,遠(yuǎn)超人類的平均水平。在藝術(shù)風(fēng)格匹配中,視覺系統(tǒng)也能達(dá)到67.5%的準(zhǔn)確率,已經(jīng)相當(dāng)不錯(cuò)。即使是最具挑戰(zhàn)性的語義對應(yīng)任務(wù),視覺系統(tǒng)也能維持在53.6%的準(zhǔn)確率,雖然不算完美,但明顯優(yōu)于隨機(jī)猜測。

然而,當(dāng)同樣的視覺信息需要通過完整的AI系統(tǒng)(包括語言處理部分)來回答時(shí),情況發(fā)生了戲劇性的轉(zhuǎn)變。就像那位技藝精湛的啞劇演員的表演被一位糟糕的翻譯完全扭曲了。在深度估計(jì)任務(wù)中,完整系統(tǒng)的準(zhǔn)確率驟降至65.3%,雖然仍然可用,但已經(jīng)大幅下降。更糟糕的是,在語義對應(yīng)任務(wù)中,準(zhǔn)確率跌至22.5%,幾乎和隨機(jī)猜測無異。低級匹配任務(wù)的表現(xiàn)更是災(zāi)難性的,從視覺系統(tǒng)的81.9%暴跌至17%,這意味著AI系統(tǒng)在這個(gè)相對簡單的任務(wù)上表現(xiàn)得比瞎猜還要糟糕。

這種巨大的差異就像一個(gè)人在眼科檢查時(shí)能清楚地讀出最后一行最小的字母,但在日常生活中卻表現(xiàn)得像個(gè)嚴(yán)重近視患者。更令人困惑的是,不同視覺系統(tǒng)的排名在整合后完全顛倒了。DINOv2視覺系統(tǒng)本身是所有測試中的"學(xué)霸",在六個(gè)任務(wù)中的五個(gè)都排名第一,但當(dāng)它被整合到完整的AI系統(tǒng)中時(shí),卻成了"差生",在所有任務(wù)中都沒能排到第一名。

這個(gè)發(fā)現(xiàn)徹底顛覆了AI領(lǐng)域的傳統(tǒng)認(rèn)知。長期以來,研究人員一直相信"好的視覺系統(tǒng)等于好的視覺語言系統(tǒng)",就像相信"好的引擎等于好的汽車"一樣理所當(dāng)然。但這項(xiàng)研究表明,問題的根源可能根本不在于AI的"眼睛"有多好,而在于AI的"大腦"根本不知道如何解讀眼睛看到的信息。這就像擁有世界上最先進(jìn)的攝像設(shè)備,但操作員卻不知道如何使用,只能憑感覺胡亂操作。

更有意思的是,研究團(tuán)隊(duì)還測試了其他幾個(gè)知名的AI系統(tǒng),包括InternVL、Phi-3-V和QwenVL。這些系統(tǒng)的視覺組件都經(jīng)過了專門訓(xùn)練,專門為了與語言系統(tǒng)配合工作。然而,同樣的現(xiàn)象依然存在:視覺系統(tǒng)單獨(dú)工作時(shí)表現(xiàn)優(yōu)秀,但一旦需要通過語言來表達(dá),性能就大幅下降。這證明了這個(gè)問題不是某個(gè)特定系統(tǒng)的個(gè)例,而是整個(gè)行業(yè)面臨的普遍挑戰(zhàn)。

二、AI的"裝模作樣":蒙著眼睛也能答題的秘密

為了深入了解AI系統(tǒng)究竟在做什么,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的"盲測"實(shí)驗(yàn),就像給AI蒙上眼睛,然后看它還能不能回答視覺問題。結(jié)果發(fā)現(xiàn)了一個(gè)令人震驚的秘密:AI在很大程度上根本沒有在"看"圖片,而是像一個(gè)經(jīng)驗(yàn)豐富的考試作弊者,主要依靠對問題模式的記憶來給出答案。

想象你在參加一個(gè)選擇題考試,但你完全沒有看題目內(nèi)容,而是憑借對出題老師習(xí)慣的了解來選擇答案。如果這位老師總是喜歡把正確答案放在B選項(xiàng),那么即使不看題目,你也能獲得不錯(cuò)的成績。AI系統(tǒng)似乎就在做類似的事情。當(dāng)研究人員給AI展示完全空白的圖像(相當(dāng)于蒙上它的眼睛),然后問同樣的視覺問題時(shí),AI的回答模式幾乎和看到真實(shí)圖像時(shí)一模一樣。

這個(gè)發(fā)現(xiàn)就像揭開了魔術(shù)師的把戲。在語義對應(yīng)任務(wù)中,AI在看到真實(shí)圖像時(shí)選擇A、B、C、D選項(xiàng)的頻率分別是40%、25%、20%、15%。當(dāng)給它看空白圖像時(shí),這些比例變成了42%、23%、22%、13%,幾乎沒有變化。這種相似性不是巧合,而是AI系統(tǒng)內(nèi)在偏好的體現(xiàn)。就像一個(gè)人在做選擇題時(shí),即使不知道正確答案,也會(huì)傾向于選擇某些選項(xiàng),AI也有自己的"偏好模式"。

在深度估計(jì)任務(wù)中,AI同樣表現(xiàn)出了強(qiáng)烈的偏向性。當(dāng)被問及兩個(gè)物體哪個(gè)更靠近攝像頭時(shí),無論圖像內(nèi)容如何,AI都傾向于選擇A選項(xiàng)(第一個(gè)物體)。這就像一個(gè)人在玩猜硬幣游戲時(shí),總是固執(zhí)地猜"正面",即使連續(xù)十次都是反面,他還是會(huì)繼續(xù)猜正面。這種偏向性來自于AI的語言處理模塊,它在訓(xùn)練過程中可能接觸到了某些模式,導(dǎo)致它在不確定時(shí)總是傾向于特定的答案。

更有趣的是,不同類型的任務(wù)表現(xiàn)出了不同的偏向模式。在藝術(shù)風(fēng)格匹配任務(wù)中,AI強(qiáng)烈偏向于選擇B選項(xiàng)(第二張圖片),即使完全看不到圖片內(nèi)容。在3D物體識別任務(wù)中,AI則更喜歡選擇A選項(xiàng)。這些偏向性就像每個(gè)人都有自己的小習(xí)慣一樣,是AI系統(tǒng)"性格"的一部分,但它們與視覺信息處理毫無關(guān)系。

為了量化這種相似性,研究團(tuán)隊(duì)使用了一個(gè)叫做"總變差距離"的數(shù)學(xué)工具。簡單來說,這個(gè)指標(biāo)能夠測量兩個(gè)分布之間的差異程度,就像測量兩個(gè)人在投票偏好上的相似程度。如果兩個(gè)人的投票選擇完全一致,距離為0;如果完全相反,距離為1。研究發(fā)現(xiàn),AI看到真實(shí)圖像和空白圖像時(shí)的回答分布之間的距離通常在0.1-0.4之間,這意味著有60%-90%的相似性。這種高度相似性表明,AI的回答很大程度上與圖像內(nèi)容無關(guān)。

這個(gè)發(fā)現(xiàn)解釋了為什么AI在某些看似簡單的視覺任務(wù)上表現(xiàn)得如此糟糕。當(dāng)一個(gè)系統(tǒng)主要依賴于預(yù)設(shè)的模式而不是真實(shí)的感知信息時(shí),它就像一個(gè)色盲的人試圖根據(jù)顏色來分類物品——即使他能記住一些規(guī)律(比如"蘋果通常是紅色的"),但在面對具體的分類任務(wù)時(shí)仍然會(huì)出錯(cuò)。

這種現(xiàn)象也揭示了當(dāng)前AI訓(xùn)練方法的一個(gè)根本性問題。AI系統(tǒng)在訓(xùn)練過程中接觸了大量的文本數(shù)據(jù),其中包含了各種偏向性和模式。這些模式就像沉淀在AI"潛意識"中的習(xí)慣,在面對不確定情況時(shí)會(huì)自動(dòng)浮現(xiàn)。當(dāng)視覺信息無法被有效利用時(shí),這些語言層面的偏向性就成為了AI決策的主要依據(jù)。

然而,這并不意味著AI完全無視視覺信息。在某些情況下,特別是當(dāng)視覺信息非常明確和突出時(shí),AI確實(shí)能夠利用這些信息來調(diào)整自己的回答。但總體而言,視覺信息對AI決策的影響遠(yuǎn)遠(yuǎn)小于人們預(yù)期的程度。這就像一個(gè)人在做決定時(shí),雖然會(huì)參考眼前的情況,但更多地是依賴于過往的經(jīng)驗(yàn)和直覺。

三、深入AI內(nèi)部:視覺信息的"失蹤案"調(diào)查

為了找出視覺信息在AI系統(tǒng)中究竟發(fā)生了什么,研究團(tuán)隊(duì)開始了一場類似醫(yī)學(xué)解剖的深入調(diào)查。他們想要確定:是視覺信息在傳輸過程中丟失了,還是AI的"大腦"根本不知道如何使用這些信息?這個(gè)問題的答案將決定未來AI改進(jìn)的方向。

想象一下,AI系統(tǒng)就像一個(gè)復(fù)雜的工廠流水線。原材料(圖像)首先進(jìn)入視覺處理車間,被轉(zhuǎn)換成各種"半成品"(特征表示)。然后這些半成品通過傳送帶(投影層)送到語言處理車間,最終被組裝成"成品"(文字答案)。問題是:到底是哪個(gè)環(huán)節(jié)出了問題?是半成品在生產(chǎn)過程中變質(zhì)了,傳送帶壞了,還是語言處理車間的工人不知道如何使用這些半成品?

研究團(tuán)隊(duì)采用了一種巧妙的"逐層檢查"方法。他們在AI系統(tǒng)的每一個(gè)處理層次上都設(shè)置了"檢查點(diǎn)",就像在工廠流水線的每個(gè)關(guān)鍵節(jié)點(diǎn)都安裝監(jiān)控?cái)z像頭。然后,他們在每個(gè)檢查點(diǎn)都測試視覺信息的質(zhì)量,看看這些信息是否還能用來解決原始的視覺任務(wù)。

令人驚訝的結(jié)果出現(xiàn)了:視覺信息在整個(gè)系統(tǒng)中幾乎沒有損失!就像一條清澈的溪流從山頂流向山腳,水質(zhì)在整個(gè)過程中都保持著良好狀態(tài)。在AI系統(tǒng)的32個(gè)處理層中,除了最后幾層出現(xiàn)輕微下降外,視覺信息的質(zhì)量基本保持穩(wěn)定。這就好比半成品在傳送帶上運(yùn)輸時(shí)完好無損,傳送帶也沒有故障,問題出在了最后的組裝環(huán)節(jié)。

更具體地說,在語義對應(yīng)任務(wù)中,視覺信息從系統(tǒng)的第1層到第28層都能維持53%左右的準(zhǔn)確率,只有在最后幾層才略有下降。在藝術(shù)風(fēng)格匹配任務(wù)中,情況甚至更好——某些使用ImageNet預(yù)訓(xùn)練的視覺系統(tǒng)在經(jīng)過語言處理的深層后,藝術(shù)風(fēng)格識別能力不僅沒有下降,反而有所提升,但最終的整體表現(xiàn)卻只有53%。這就像一個(gè)人的理解能力在對話過程中越來越好,但最終說出的話卻完全不相關(guān)。

這個(gè)發(fā)現(xiàn)指向了一個(gè)關(guān)鍵結(jié)論:問題不在于AI的"眼睛"或"傳輸系統(tǒng)",而在于AI的"決策機(jī)制"。視覺信息一直存在,而且質(zhì)量良好,但AI系統(tǒng)在最終生成答案時(shí)卻選擇了忽略這些信息。這就像一個(gè)學(xué)生在考試時(shí),所有的參考資料都擺在桌上,內(nèi)容也都是相關(guān)的,但他卻選擇不看這些資料,而是憑感覺答題。

為了進(jìn)一步驗(yàn)證這個(gè)假設(shè),研究團(tuán)隊(duì)進(jìn)行了"prompt tuning"實(shí)驗(yàn),這相當(dāng)于給AI提供更詳細(xì)的"使用說明書"。他們在AI的輸入中添加了一些可學(xué)習(xí)的"提示符",就像給一個(gè)不會(huì)使用新工具的工人提供詳細(xì)的操作手冊。這些提示符經(jīng)過訓(xùn)練后,能夠幫助AI更好地理解如何處理特定類型的任務(wù)。

然而,即使有了這些額外的"使用說明書",AI的表現(xiàn)改善也非常有限。在大多數(shù)任務(wù)中,準(zhǔn)確率的提升只有5-10個(gè)百分點(diǎn),遠(yuǎn)遠(yuǎn)不足以彌補(bǔ)與視覺系統(tǒng)直接評估之間的巨大差距。這就像給一個(gè)不會(huì)開車的人詳細(xì)的駕駛手冊,雖然有一定幫助,但仍然無法讓他立即成為熟練的司機(jī)。

更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn),即使增加更多的提示符(從1個(gè)增加到10個(gè)),性能改善也會(huì)快速達(dá)到飽和,出現(xiàn)遞減效應(yīng)。這表明問題的根源不在于"說明書不夠詳細(xì)",而是AI的基本"理解機(jī)制"存在缺陷。就像一個(gè)人如果缺乏基本的空間感知能力,無論給他多少關(guān)于方向的說明,他都難以準(zhǔn)確導(dǎo)航。

這些發(fā)現(xiàn)collectively指向了一個(gè)重要結(jié)論:當(dāng)前AI系統(tǒng)的瓶頸主要在于語言處理模塊無法有效整合和利用視覺信息,而不是視覺信息本身的質(zhì)量問題。這就像一個(gè)翻譯問題——視覺系統(tǒng)說的是"視覺語言",語言系統(tǒng)說的是"文字語言",但兩者之間缺乏有效的"翻譯官"。

四、語言模型:視覺信息利用的最大瓶頸

經(jīng)過前面的"偵查工作",研究團(tuán)隊(duì)把注意力聚焦到了真正的"嫌疑犯"——AI系統(tǒng)的語言處理模塊。就像在一個(gè)團(tuán)隊(duì)項(xiàng)目中,如果最終成果不佳,問題可能出在團(tuán)隊(duì)協(xié)調(diào)上,而不是某個(gè)成員的個(gè)人能力。研究人員決定通過"分別訓(xùn)練"的方式來驗(yàn)證他們的假設(shè):到底是誰在拖后腿?

想象一下,AI系統(tǒng)就像一個(gè)三人樂隊(duì):視覺系統(tǒng)是吉他手,投影層是貝斯手,語言模型是主唱。如果樂隊(duì)的表演效果不好,是因?yàn)榧旨夹g(shù)不行,貝斯手跟不上節(jié)拍,還是主唱不知道如何與樂器配合?為了找出答案,研究團(tuán)隊(duì)決定分別"培訓(xùn)"每個(gè)成員,看看誰的進(jìn)步最大。

他們設(shè)計(jì)了一個(gè)公平的比較實(shí)驗(yàn):給每個(gè)模塊分配相同數(shù)量的"學(xué)習(xí)機(jī)會(huì)"(訓(xùn)練參數(shù)),然后在5000個(gè)樣本上進(jìn)行專門訓(xùn)練。這就像給樂隊(duì)的每個(gè)成員相同的練習(xí)時(shí)間,然后看誰的進(jìn)步最明顯。結(jié)果令人震撼:在幾乎所有任務(wù)中,訓(xùn)練語言模型帶來的改善都是最顯著的。

在語義對應(yīng)任務(wù)中,單獨(dú)訓(xùn)練視覺系統(tǒng)(吉他手)幾乎沒有帶來改善,準(zhǔn)確率從22.5%只提升到23%。訓(xùn)練投影層(貝斯手)的效果稍好一些,準(zhǔn)確率提升到24%。但是當(dāng)訓(xùn)練語言模型(主唱)時(shí),準(zhǔn)確率戲劇性地躍升到34%,雖然仍然不夠理想,但改善幅度是其他方法的數(shù)倍。這就像發(fā)現(xiàn)主唱學(xué)會(huì)與樂器配合后,整個(gè)樂隊(duì)的表演水平立即上了一個(gè)臺階。

在低級匹配任務(wù)中,這種差異更加明顯。訓(xùn)練語言模型后,準(zhǔn)確率從原來的17%提升到35%,幾乎翻了一倍。而訓(xùn)練其他組件的效果都很微弱,幾乎可以忽略不計(jì)。這個(gè)結(jié)果強(qiáng)烈暗示,問題的根源確實(shí)在于語言模型無法有效利用已有的視覺信息。

為了更深入地理解這個(gè)現(xiàn)象,研究團(tuán)隊(duì)進(jìn)行了"注意力可視化"分析,這相當(dāng)于用特殊的攝像技術(shù)來觀察AI在"思考"時(shí)的大腦活動(dòng)。他們發(fā)現(xiàn)了一個(gè)驚人的模式:在訓(xùn)練前,語言模型的注意力就像一個(gè)心不在焉的學(xué)生,雖然老師在黑板上畫了重點(diǎn)內(nèi)容,但學(xué)生的眼神卻飄向窗外,完全沒有關(guān)注關(guān)鍵信息。

具體來說,在對應(yīng)匹配任務(wù)中,AI需要關(guān)注圖片中標(biāo)記的參考點(diǎn)(REF)和選擇項(xiàng)(A、B、C、D)。但未經(jīng)訓(xùn)練的AI的注意力分布非常分散,就像用手電筒照明時(shí)光束太散,無法聚焦在需要觀察的細(xì)節(jié)上。然而,在對語言模型進(jìn)行專門訓(xùn)練后,注意力模式發(fā)生了顯著變化。AI開始像一個(gè)專注的偵探,把注意力精確地投向任務(wù)相關(guān)的關(guān)鍵區(qū)域。

這種注意力的改變主要集中在語言模型的第4-6層,這些層就像大腦的"視覺-語言協(xié)調(diào)中心"。在這些層中,訓(xùn)練后的AI顯示出對參考點(diǎn)和選擇項(xiàng)的強(qiáng)烈關(guān)注,注意力熱點(diǎn)圖顯示出明亮的聚焦區(qū)域。這就像給一個(gè)散光的人配了合適的眼鏡,突然間他能夠清楚地看到之前模糊的細(xì)節(jié)。

有趣的是,單純訓(xùn)練投影層或視覺系統(tǒng)并不能產(chǎn)生這種注意力集中效應(yīng)。這進(jìn)一步證實(shí)了語言模型在視覺信息整合中的核心作用。投影層就像一個(gè)翻譯,負(fù)責(zé)把視覺"語言"轉(zhuǎn)換成語言模型能理解的"方言",但即使翻譯得再準(zhǔn)確,如果語言模型不知道如何使用這些信息,最終結(jié)果仍然會(huì)很糟糕。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了另一個(gè)有趣的現(xiàn)象:語言模型的訓(xùn)練不僅提高了任務(wù)表現(xiàn),還顯著改善了AI回答的"公平性"。還記得前面提到的AI的"作弊"行為嗎?未經(jīng)訓(xùn)練的AI總是偏向于選擇某些選項(xiàng),就像一個(gè)偏心的老師總是給某些學(xué)生高分。但經(jīng)過語言模型訓(xùn)練后,AI的選擇變得更加均衡和合理。

在深度估計(jì)任務(wù)中,未經(jīng)訓(xùn)練的AI有強(qiáng)烈的A選項(xiàng)偏好,選擇A的概率是60%,而選擇B的概率只有40%。但經(jīng)過語言模型訓(xùn)練后,這個(gè)比例變得更加平衡,接近真實(shí)數(shù)據(jù)中A和B選項(xiàng)的實(shí)際分布。這表明訓(xùn)練不僅教會(huì)了AI如何看,還教會(huì)了它如何公正地判斷。

然而,研究團(tuán)隊(duì)也注意到了一個(gè)例外情況:在3D物體識別任務(wù)中,語言模型訓(xùn)練的改善效果相對有限。他們推測這可能有兩個(gè)原因:首先,這個(gè)任務(wù)需要更抽象的視覺理解能力,不僅要識別局部特征,還要理解整體結(jié)構(gòu)和三維關(guān)系,這超出了簡單的注意力調(diào)整能夠解決的范圍。其次,他們使用的訓(xùn)練數(shù)據(jù)(ShapeNet渲染圖)與測試數(shù)據(jù)(MOCHI基準(zhǔn))在視覺風(fēng)格上有一定差異,就像用卡通畫來訓(xùn)練,然后去測試真實(shí)照片的理解能力。

五、從"盲人摸象"到"明察秋毫":AI進(jìn)化的可能路徑

通過這項(xiàng)詳盡的研究,伯克利團(tuán)隊(duì)就像給AI界做了一次全面的"健康體檢",診斷結(jié)果既令人擔(dān)憂又充滿希望。擔(dān)憂的是,當(dāng)前被廣泛應(yīng)用的AI系統(tǒng)可能沒有我們想象的那么"智能";希望的是,既然找到了病因,就有了對癥下藥的可能。

這個(gè)發(fā)現(xiàn)顛覆了AI領(lǐng)域長期以來的一個(gè)基本假設(shè)。就像人們一直認(rèn)為要做出更美味的蛋糕,關(guān)鍵是要有更好的原料(視覺系統(tǒng)),但實(shí)際上問題可能出在廚師不知道如何使用這些優(yōu)質(zhì)原料(語言模型無法利用視覺信息)。這解釋了為什么在過去幾年中,盡管視覺識別技術(shù)突飛猛進(jìn),但視覺語言AI的某些能力似乎沒有相應(yīng)的提升。

研究結(jié)果對整個(gè)AI產(chǎn)業(yè)具有深遠(yuǎn)的影響。首先,它解釋了為什么某些看似簡單的視覺任務(wù)對AI來說卻異常困難。比如,一個(gè)能夠識別出圖片中包含"貓"、"沙發(fā)"、"客廳"等元素的AI,卻無法準(zhǔn)確回答"貓?jiān)谏嘲l(fā)的哪一邊"這樣的空間問題。這不是因?yàn)锳I看不清楚這些物體,而是因?yàn)樗恢廊绾螌⒖臻g關(guān)系信息轉(zhuǎn)化為語言描述。

這個(gè)發(fā)現(xiàn)也解釋了當(dāng)前AI在實(shí)際應(yīng)用中的一些"奇怪"表現(xiàn)。在醫(yī)療影像診斷中,AI有時(shí)能夠發(fā)現(xiàn)非常細(xì)微的病變,但卻無法準(zhǔn)確描述病變的位置關(guān)系。在自動(dòng)駕駛中,AI能夠識別出路上的各種物體,但在處理復(fù)雜的空間關(guān)系判斷時(shí)卻可能出錯(cuò)。這些看似矛盾的表現(xiàn),現(xiàn)在都有了合理的解釋。

更重要的是,這項(xiàng)研究為AI的未來發(fā)展指明了新的方向。與其繼續(xù)投入大量資源來改進(jìn)已經(jīng)相當(dāng)優(yōu)秀的視覺系統(tǒng),研究人員應(yīng)該更多地關(guān)注如何改善視覺信息與語言處理之間的"橋梁"。這就像修建一座橋梁,與其不斷加強(qiáng)橋墩的質(zhì)量,不如重點(diǎn)解決橋面的設(shè)計(jì)問題。

研究團(tuán)隊(duì)的實(shí)驗(yàn)表明,通過專門訓(xùn)練語言模型來更好地利用視覺信息,確實(shí)能夠帶來顯著改善。雖然目前的改善幅度還不足以完全解決問題,但它證明了這個(gè)方向的可行性。這就像找到了正確的治療方法,雖然還需要調(diào)整劑量和優(yōu)化方案,但至少知道了努力的方向。

然而,這項(xiàng)研究也揭示了當(dāng)前AI評估方法的局限性。長期以來,研究人員習(xí)慣于通過整體性能來評估AI系統(tǒng),就像通過最終成績來評估學(xué)生的學(xué)習(xí)狀況。但這種方法可能掩蓋了系統(tǒng)內(nèi)部的真實(shí)問題。這項(xiàng)研究提出了一種新的評估范式:不僅要看AI能做什么,還要看它是如何做的,確保它真正在使用預(yù)期的能力,而不是在"作弊"。

這種新的評估方法對AI的安全性和可靠性具有重要意義。如果一個(gè)AI系統(tǒng)主要依賴于記憶模式而不是真實(shí)的感知能力,那么當(dāng)它遇到與訓(xùn)練數(shù)據(jù)不同的新情況時(shí),就可能出現(xiàn)不可預(yù)測的錯(cuò)誤。這就像一個(gè)只會(huì)背地圖而不會(huì)看路標(biāo)的司機(jī),在熟悉的路線上表現(xiàn)正常,但一旦遇到新路或臨時(shí)改道,就可能迷失方向。

研究團(tuán)隊(duì)特別強(qiáng)調(diào),他們的發(fā)現(xiàn)并不意味著當(dāng)前的AI系統(tǒng)毫無價(jià)值。相反,這些系統(tǒng)在許多任務(wù)上仍然表現(xiàn)出色,特別是那些主要依賴于知識和推理的任務(wù)。問題在于,我們需要更清楚地了解這些系統(tǒng)的能力邊界,避免在不適合的場景中過度依賴它們。

對于AI開發(fā)者來說,這項(xiàng)研究提供了寶貴的指導(dǎo)。在設(shè)計(jì)新的AI系統(tǒng)時(shí),他們應(yīng)該更多地關(guān)注視覺-語言整合機(jī)制的設(shè)計(jì),而不是單純追求更大的模型或更多的訓(xùn)練數(shù)據(jù)。這可能需要全新的架構(gòu)設(shè)計(jì)和訓(xùn)練方法,但這種投入是值得的,因?yàn)樗軌驇砀煽俊⒏悄艿腁I系統(tǒng)。

對于AI用戶來說,這項(xiàng)研究提醒我們在使用AI工具時(shí)要保持適當(dāng)?shù)闹?jǐn)慎,特別是在需要精確視覺判斷的場景中。了解AI的真實(shí)能力和局限性,能夠幫助我們更好地利用這些工具,同時(shí)避免潛在的風(fēng)險(xiǎn)。

最終,這項(xiàng)研究展示了科學(xué)研究的價(jià)值:通過深入細(xì)致的分析,揭示了表面現(xiàn)象背后的真實(shí)機(jī)制,為解決問題提供了科學(xué)依據(jù)。正如研究團(tuán)隊(duì)在論文中所說,語言確實(shí)為指定和評估視覺任務(wù)提供了強(qiáng)大的界面,但我們需要謹(jǐn)慎地使用這個(gè)界面,確保它真正反映了AI的視覺理解能力,而不是被語言層面的偏向性所誤導(dǎo)。

這項(xiàng)突破性研究最終告訴我們:在AI的發(fā)展道路上,有時(shí)候最重要的不是走得更快,而是確保走在正確的方向上。通過深入理解AI系統(tǒng)的內(nèi)在機(jī)制,我們才能構(gòu)建出真正智能、可靠的人工智能系統(tǒng),讓它們成為人類更好的助手和伙伴。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
超級模特何穗大膽泳裝身材真好,個(gè)子太高

超級模特何穗大膽泳裝身材真好,個(gè)子太高

鄉(xiāng)野小珥
2025-06-04 03:42:44
大瓜!baby被曝婚內(nèi)出軌,與出軌對象在車內(nèi)動(dòng)靜大,聊天記錄炸裂

大瓜!baby被曝婚內(nèi)出軌,與出軌對象在車內(nèi)動(dòng)靜大,聊天記錄炸裂

跳跳歷史
2025-06-19 12:00:41
你喝的“100%椰子水”是真的百分百嗎?揭開椰子水市場的真實(shí)與謊言

你喝的“100%椰子水”是真的百分百嗎?揭開椰子水市場的真實(shí)與謊言

每日經(jīng)濟(jì)新聞
2025-06-19 17:04:19
鬧大了!重慶69歲老婦人持刀襲警被擊斃,內(nèi)幕曝光令人氣憤!

鬧大了!重慶69歲老婦人持刀襲警被擊斃,內(nèi)幕曝光令人氣憤!

白馬驚天劍
2025-06-19 09:44:16
慘淡收場!囤了30多年郵票年冊,去市場問回收價(jià),已淪為“廢紙”

慘淡收場!囤了30多年郵票年冊,去市場問回收價(jià),已淪為“廢紙”

收藏大視界
2025-06-19 20:04:00
地堡克星終于來啦!“炸彈之王”GBU57 已經(jīng)抵達(dá)約旦美軍基地!

地堡克星終于來啦!“炸彈之王”GBU57 已經(jīng)抵達(dá)約旦美軍基地!

翻開歷史和現(xiàn)實(shí)
2025-06-19 09:28:03
留下主教練!四個(gè)字評價(jià)一下火箭的這波操作

留下主教練!四個(gè)字評價(jià)一下火箭的這波操作

直播吧
2025-06-20 00:29:15
兒子丟失2年后,央視張澤群發(fā)文:父親去了,兒子丟了,取消罷了

兒子丟失2年后,央視張澤群發(fā)文:父親去了,兒子丟了,取消罷了

不寫散文詩
2025-06-19 15:49:41
領(lǐng)證了,孫穎莎官宣喜訊,開心喊話,困擾大事解決了,父母欣喜祝福

領(lǐng)證了,孫穎莎官宣喜訊,開心喊話,困擾大事解決了,父母欣喜祝福

最愛乒乓球
2025-06-19 14:55:13
伊朗媒體稱伊又擊落一架以色列F-35戰(zhàn)機(jī)!以防長警告伊朗:如果繼續(xù)襲擊,德黑蘭將化為火海

伊朗媒體稱伊又擊落一架以色列F-35戰(zhàn)機(jī)!以防長警告伊朗:如果繼續(xù)襲擊,德黑蘭將化為火海

每日經(jīng)濟(jì)新聞
2025-06-15 00:21:17
等了一夜,伊朗要讓全世界“銘記幾個(gè)世紀(jì)”的事沒有發(fā)生

等了一夜,伊朗要讓全世界“銘記幾個(gè)世紀(jì)”的事沒有發(fā)生

近距離
2025-06-19 10:34:12
這樣弄,男人直接腿軟

這樣弄,男人直接腿軟

五月的書房
2025-06-18 01:01:24
得知國家被襲,上海一伊朗旅游團(tuán)分批回國,導(dǎo)游:我?guī)н^最傷心的團(tuán),生死面前都是小事

得知國家被襲,上海一伊朗旅游團(tuán)分批回國,導(dǎo)游:我?guī)н^最傷心的團(tuán),生死面前都是小事

瀟湘晨報(bào)
2025-06-18 11:24:59
女演員突發(fā)疾病變植物人!最新情況

女演員突發(fā)疾病變植物人!最新情況

魯中晨報(bào)
2025-06-19 15:02:03
德黑蘭警察總長拉丹被斬首,全伊朗的婦女都應(yīng)該感謝以色列

德黑蘭警察總長拉丹被斬首,全伊朗的婦女都應(yīng)該感謝以色列

肖走教授
2025-06-19 04:46:08
江蘇美女老師梁嬌去世!僅38歲,老公離世不到百天,小女兒才7歲

江蘇美女老師梁嬌去世!僅38歲,老公離世不到百天,小女兒才7歲

裕豐娛間說
2025-06-19 09:18:07
馬斯克,重回白宮!真應(yīng)了那句話沒有永遠(yuǎn)的敵人,只有永遠(yuǎn)的利益

馬斯克,重回白宮!真應(yīng)了那句話沒有永遠(yuǎn)的敵人,只有永遠(yuǎn)的利益

老友科普
2025-06-19 14:43:47
老人生前的存款,有密碼也取不了?銀行員工:多加個(gè)步驟輕松取回

老人生前的存款,有密碼也取不了?銀行員工:多加個(gè)步驟輕松取回

小談食刻美食
2025-06-19 16:32:35
五局擊敗保加利亞女排,中國女排斬獲世界聯(lián)賽香港站兩連勝

五局擊敗保加利亞女排,中國女排斬獲世界聯(lián)賽香港站兩連勝

澎湃新聞
2025-06-19 22:52:29
韋東奕又去聽王虹教授講座了,連續(xù)三天坐第一排聽講,還有學(xué)生為王虹獻(xiàn)花

韋東奕又去聽王虹教授講座了,連續(xù)三天坐第一排聽講,還有學(xué)生為王虹獻(xiàn)花

極目新聞
2025-06-19 13:30:31
2025-06-20 00:44:49
至頂頭條 incentive-icons
至頂頭條
記錄和推動(dòng)數(shù)字化創(chuàng)新
12164文章數(shù) 49634關(guān)注度
往期回顧 全部

科技要聞

羅永浩數(shù)字人爆火,可怕的不是5500萬GMV

頭條要聞

美打擊伊核設(shè)施計(jì)劃披露 特朗普鼓勵(lì)以總理"繼續(xù)干"

頭條要聞

美打擊伊核設(shè)施計(jì)劃披露 特朗普鼓勵(lì)以總理"繼續(xù)干"

體育要聞

22年,云南足球走出了一條自己的路

娛樂要聞

章子怡“吃蛋糕”戲在全網(wǎng)爆火

財(cái)經(jīng)要聞

Labubu黃牛價(jià)腰斬 誰會(huì)是最后的接盤俠

汽車要聞

5.99萬起/空間大續(xù)航長 純電小車凱翼拾月Mate上市

態(tài)度原創(chuàng)

本地
房產(chǎn)
教育
親子
數(shù)碼

本地新聞

黎錦匠人鄭春榮:經(jīng)緯千年 我在海島織黎錦

房產(chǎn)要聞

預(yù)定爆款!江東CBD+海中,海口這一國企大盤,即將引爆市場!

教育要聞

2025年山東夏季合格考準(zhǔn)考證打印操作詳細(xì)教程

親子要聞

小葉教我句話還讓我挺意外,原來中外文化差異這么大

數(shù)碼要聞

小米“三機(jī)”規(guī)格被官方確認(rèn):兩款平板+一款性價(jià)比,就差價(jià)格了

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 婺源县| 霞浦县| 广丰县| 鄄城县| 峨边| 大竹县| 都安| 东兴市| 临安市| 禹州市| 肇庆市| 界首市| 大宁县| 夹江县| 昌图县| 石柱| 南阳市| 双流县| 玛纳斯县| 文登市| 平和县| 基隆市| 额济纳旗| 海宁市| 阜南县| 无极县| 陕西省| 广州市| 临朐县| 彩票| 紫金县| 崇左市| 潮安县| 城步| 凤城市| 长宁县| 临朐县| 永泰县| 吴堡县| 锡林浩特市| 黎川县|