99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

科學(xué)家驗(yàn)證強(qiáng)柏拉圖表征假說,證明模型會收斂于相同通用意義幾何

0
分享至

2024 年,美國麻省理工學(xué)院團(tuán)隊(duì)曾提出“柏拉圖表征假說”(Platonic Representation Hypothesis),該假說推測現(xiàn)代神經(jīng)網(wǎng)絡(luò)的表征空間正在趨于收斂。即不同的 AI 模型正在趨向于一個(gè)統(tǒng)一的現(xiàn)實(shí)表征。就像在柏拉圖洞穴寓言中囚犯們看到的影子是現(xiàn)實(shí)的投影一樣,正在不斷迭代的 AI 模型也開始理解投影背后更高維度的現(xiàn)實(shí)。當(dāng)時(shí),相關(guān)論文還曾獲得前 OpenAI 首席科學(xué)家伊利亞·蘇茨克維(Ilya Sutskever)的點(diǎn)贊。

2025 年 5 月,在上述基礎(chǔ)之上,美國康奈爾大學(xué)博士生張睿杰和所在研究團(tuán)隊(duì)提出“強(qiáng)柏拉圖表征假說”(Strong Platonic Representation ypothesis),即潛在的通用表征是可以被學(xué)習(xí)并加以利用的,也能在無需任何編碼器或成對數(shù)據(jù)的情況下實(shí)現(xiàn)表征空間之間的轉(zhuǎn)換。


圖 | 張睿杰(來源:https://collinzrj.github.io/)

研究中,他們還提出一種名為 vec2vec 的新方法,這是一種能將文本嵌入從一個(gè)向量空間轉(zhuǎn)換到另一個(gè)向量空間的方法。其表示這也是第一種無需任何配對數(shù)據(jù)、編碼器或預(yù)定義匹配集即可實(shí)現(xiàn)上述能力的方法。

也就是說,作為一種無監(jiān)督方法,vec2vec 能將任意嵌入與“柏拉圖表征假說”推測的通用語義結(jié)構(gòu)進(jìn)行雙向轉(zhuǎn)換。

具體來說,vec2vec 能夠轉(zhuǎn)換由未知編碼器生成的未知文檔嵌入,并且對于分布外的輸入具有魯棒性。哪怕模型架構(gòu)、參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)各不相同,vec2vec 在模型對之間仍能實(shí)現(xiàn)高度的余弦相似度。在保留未知嵌入幾何結(jié)構(gòu)的同時(shí),該方法能夠?qū)⑵滢D(zhuǎn)換到不同空間。

換言之,vec2vec 能夠?qū)W習(xí)“與領(lǐng)域無關(guān)”的轉(zhuǎn)換,這一能力主要基于不同嵌入空間中表示相同語義時(shí)所通用的幾何結(jié)構(gòu)關(guān)系。同時(shí),研究團(tuán)隊(duì)還證明 vec2vec 轉(zhuǎn)換能夠保留足夠的輸入語義,從而支持屬性推理。

此外,他們從一些患者記錄和企業(yè)郵件中提取了一些敏感疾病信息和其他相關(guān)內(nèi)容,不過他們僅僅訪問了文檔嵌入,并未接觸生成這些嵌入的編碼器。

通過本次研究他們發(fā)現(xiàn),更好的轉(zhuǎn)換方法將能實(shí)現(xiàn)更高保真度的信息提取,這再次印證了一個(gè)事實(shí):嵌入所揭示的信息幾乎與其輸入內(nèi)容一樣多。

因此,此次發(fā)現(xiàn)能為基于文本的模型的“強(qiáng)柏拉圖表征假說”提供令人信服的證據(jù)。

基于 OpenAI 幾年前推出的“對比語言 - 圖像預(yù)訓(xùn)練”(CLIP,Contrastive Language - Image Pretraining)模型,本次研究的初步實(shí)驗(yàn)結(jié)果表明,通用幾何結(jié)構(gòu)也可用于其他模態(tài)。

需要說明的是,本次成果僅僅是表征間轉(zhuǎn)換的一個(gè)下限。隨著更好、更穩(wěn)定的學(xué)習(xí)算法的面世,以及相關(guān)架構(gòu)的改進(jìn),預(yù)計(jì)本次成果將能擴(kuò)展到更多數(shù)據(jù)、更多模型家族和更多模態(tài)之中。



余弦相似度高達(dá) 0.92

據(jù)了解,文本嵌入是現(xiàn)代自然語言處理(NLP,Natural Language Processing)的核心,它能為檢索、檢索增強(qiáng)生成(RAG,Retrieval-Augmented Generation)、分類和聚類等任務(wù)提供支持。

對于許多嵌入模型來說,它們是在不同數(shù)據(jù)集、不同數(shù)據(jù)打亂方式和不同初始化條件下訓(xùn)練而來的。

文本的嵌入編碼了其語義信息:一個(gè)優(yōu)秀的模型會將語義相近的文本,映射到嵌入空間中彼此接近的向量上。由于語義是文本的屬性,同一文本的不同嵌入應(yīng)該編碼相同的語義。

然而,在實(shí)踐中,不同的模型會將文本編碼到完全不同且不兼容的向量空間中。

此前,由麻省理工學(xué)院團(tuán)隊(duì)提出的“柏拉圖表征假說”推測:所有足夠大的圖像模型都具有相同的潛在表征。針對文本模型,本次研究團(tuán)隊(duì)提出了該假說的一個(gè)更強(qiáng)的建設(shè)性版本:文本表征的通用潛在結(jié)構(gòu)是可以被學(xué)習(xí)的,并能進(jìn)一步地在無需任何配對數(shù)據(jù)或編碼器的情況下,利用該結(jié)構(gòu)將表征從一個(gè)空間轉(zhuǎn)換到另一個(gè)空間。

在這項(xiàng)工作中,研究團(tuán)隊(duì)證明強(qiáng)柏拉圖表征假說在實(shí)踐中是成立的。通過給定來自兩個(gè)具有不同架構(gòu)和訓(xùn)練數(shù)據(jù)的模型的未配對嵌入示例,他們使用 vec2vec 學(xué)習(xí)了一個(gè)潛在表征,其中這些嵌入幾乎完全相同。


(來源:資料圖)

研究中,他們從跨語言詞嵌入對齊研究和無監(jiān)督圖像翻譯研究中汲取靈感。據(jù)介紹,vec2vec 使用對抗性損失和循環(huán)一致性,來學(xué)習(xí)將嵌入編碼到共享潛在空間中,并能以最小的損失進(jìn)行解碼,這使得無監(jiān)督轉(zhuǎn)換成為了可能。

同時(shí),研究團(tuán)隊(duì)采用了一種對抗性方法,并結(jié)合向量空間保持技術(shù),來學(xué)習(xí)如何將未知嵌入分布映射到已知分布。

通過此,他們發(fā)現(xiàn) vec2vec 轉(zhuǎn)換在目標(biāo)嵌入空間中與真實(shí)向量的余弦相似度高達(dá) 0.92,并且在 8000 多個(gè)隨機(jī)排列的 vec2vec 嵌入上實(shí)現(xiàn)了完美匹配,而且無需預(yù)先訪問匹配集合。為了證明上述轉(zhuǎn)換同時(shí)保留了“嵌入的相對幾何結(jié)構(gòu)”和“底層輸入的語義”,他們在完全不了解生成原始嵌入模型的情況下,使用零樣本的屬性開展推斷和反演,并從這些向量中成功提取到了信息。



無監(jiān)督嵌入轉(zhuǎn)換

據(jù)了解,關(guān)于嵌入向量集之間的匹配問題或?qū)?yīng)問題,已經(jīng)有大量的研究。但是,這些方法都不適用于本次研究的設(shè)置,因?yàn)榇饲把芯考僭O(shè)存在由不同編碼器從相同輸入產(chǎn)生的兩組或更多組的嵌入向量。

換句話說,對于每個(gè)未知向量來說,必須已經(jīng)存在另一組不同嵌入空間中的候選向量,其中有一個(gè)是正確匹配項(xiàng)。

但是,在實(shí)際應(yīng)用中,很難獲得這樣的數(shù)據(jù)庫。研究團(tuán)隊(duì)表示,他們之所以認(rèn)為無監(jiān)督嵌入轉(zhuǎn)換是可行的,是因?yàn)樗耆Q于更強(qiáng)版本的柏拉圖表征假說。

為此,他們提出了如下猜想:當(dāng)使用相同的目標(biāo)和模態(tài),但是使用不同數(shù)據(jù)以及由不同模型架構(gòu)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),將會收斂到一個(gè)通用的潛在空間,從而在無需任何成對對應(yīng)關(guān)系的情況下,即可學(xué)習(xí)各自表征之間的轉(zhuǎn)換。

在計(jì)算機(jī)視覺領(lǐng)域,結(jié)合了循環(huán)一致性和對抗正則化的無監(jiān)督轉(zhuǎn)換已經(jīng)取得成功。因此,研究團(tuán)隊(duì)在 vec2vec 的設(shè)計(jì)上,也從這些方法中獲得了一些啟發(fā)。

與此同時(shí),他們希望實(shí)現(xiàn)具有循環(huán)一致性和不可區(qū)分性的嵌入空間轉(zhuǎn)換。與圖像不同的是,嵌入向量不具有任何空間偏差。

研究中,研究團(tuán)隊(duì)并沒有使用卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network),而是采用了具有殘差連接、層歸一化和 SiLU 非線性激活函數(shù)的多層感知機(jī)(MLP,Multilayer Perceptron)。在判別器上則采用了與生成器類似的結(jié)構(gòu),但是省略了殘差連接,以便讓對抗學(xué)習(xí)過程得到簡化。



無需任何配對數(shù)據(jù),就能學(xué)習(xí)轉(zhuǎn)換嵌入向量

在數(shù)據(jù)集上,研究團(tuán)隊(duì)使用了由真實(shí)用戶查詢的自然問題(NQ,Natural Questions)數(shù)據(jù)集,并使用了由維基百科答案訓(xùn)練的數(shù)據(jù)集。

為了針對信息提取進(jìn)行評估:

首先,他們使用了 TweetTopic,這是一個(gè)由 19 個(gè)主題組成的、有著多標(biāo)簽標(biāo)記的推文數(shù)據(jù)集。

其次,他們使用了偽重新識別的 MIMIC-III(MIMIC)的隨機(jī) 8192 個(gè)記錄子集,并使用了由 2673 個(gè) MedCAT 疾病描述多重標(biāo)記的患者記錄的 MIMIC 數(shù)據(jù)集的偽重新識別版本。

再次,他們使用了已經(jīng)倒閉的能源公司安然(Enron)的電子郵件語料庫的 50 封隨機(jī)電子郵件子集,這也是一個(gè)未標(biāo)記的公共數(shù)據(jù)集。

在模型上,研究團(tuán)隊(duì)使用了代表三種規(guī)模類別、四種 Transformer 主干架構(gòu)和兩種輸出維度的嵌入模型。其中,Granite 是多語言模型,CLIP 是多模態(tài)模型。


(來源:資料圖)

實(shí)驗(yàn)中,他們證明 vec2vec 能夠?qū)W習(xí)一個(gè)通用的潛在空間,并證明這個(gè)空間保留了所有嵌入的幾何結(jié)構(gòu)。這讓他們可以將其用作一種文本編碼器的通用語言,并且無需任何配對數(shù)據(jù)就能轉(zhuǎn)換其表征。

實(shí)驗(yàn)結(jié)果顯示,vec2vec 轉(zhuǎn)換能夠反映目標(biāo)空間的幾何結(jié)構(gòu)。如下圖所示,vec2vec 在模型對之間生成了近乎最優(yōu)分配的嵌入,實(shí)現(xiàn)了高達(dá) 0.92 的余弦相似性分?jǐn)?shù)、高達(dá) 100% 的 top-1 準(zhǔn)確率,且矩陣秩(rank)低至 1。


(來源:資料圖)

在相同骨干網(wǎng)絡(luò)的配對組合中,vec2vec 甚至能夠接近于借助先知(oracle)的最優(yōu)分配方案的性能。vec2vec 生成的嵌入向量,比 na?ve 基線更加接近真實(shí)值。

在跨主干配對中,vec2vec 在所有指標(biāo)上都遠(yuǎn)勝一籌,而基線方法的表現(xiàn)則與隨機(jī)猜測相差無幾。如下圖所示,這種性能甚至可以擴(kuò)展到分布外數(shù)據(jù)。


(來源:資料圖)

如前所述,vec2vec 轉(zhuǎn)換器是在 NQ 數(shù)據(jù)集上訓(xùn)練的,但是在 X 推文和醫(yī)療記錄上進(jìn)行評估時(shí),它仍然表現(xiàn)出較高的余弦相似性、較高的準(zhǔn)確率以及較低的矩陣秩。


(來源:資料圖)

研究團(tuán)隊(duì)指出,vec2vec 始終優(yōu)于最優(yōu)任務(wù)基線。這些結(jié)果表明,本次方法在適應(yīng)新模態(tài)方面具有潛力,特別是 CLIP 的嵌入空間已經(jīng)成功與其他模態(tài)比如熱圖、音頻和深度圖建立了連接。



使用 vec2vec 轉(zhuǎn)換來提取信息

研究中,研究團(tuán)隊(duì)證明 vec2vec 轉(zhuǎn)換不僅保留了嵌入的幾何結(jié)構(gòu),還保留了足夠的語義以便能夠支持屬性推理。

如下圖所示,對 vec2vec 轉(zhuǎn)換進(jìn)行的屬性推理始終優(yōu)于 na?ve 基線,并且往往比理想的零樣本基線表現(xiàn)更好。需要說明的是,這一理想基線旨在針對同一空間中的真實(shí)文檔嵌入和屬性嵌入進(jìn)行推理。由于在本次研究場景中無法獲得這些嵌入,因此它是一個(gè)假設(shè)性基線。


(來源:資料圖)

研究團(tuán)隊(duì)表示,vec2vec 轉(zhuǎn)換甚至適用于醫(yī)療記錄的嵌入向量。在同主干配對中,針對轉(zhuǎn)換后的嵌入進(jìn)行屬性推理的表現(xiàn)與 na?ve 基線相當(dāng),而在跨主干配對中則大幅優(yōu)于簡單基線。

比如,vec2vec 能夠保留像“牙槽骨骨膜炎”這類概念的語義,而這類概念從未出現(xiàn)在訓(xùn)練數(shù)據(jù)中,這證明 vec2vec 的潛在空間確實(shí)是一種通用表示。

反演,即重建文本輸入。相比屬性推斷,反演更加具有挑戰(zhàn)性。而 vec2vec 轉(zhuǎn)換能夠保留足夠的語義信息,以至于就算使用那些“原本為標(biāo)準(zhǔn)編碼器生成的嵌入”而開發(fā)的現(xiàn)成零樣本反演方法,也能僅憑轉(zhuǎn)換后的嵌入,來從一些模型對中重建多達(dá) 80% 的文檔內(nèi)容。


(來源:資料圖)

當(dāng)然,這些反演并不完美。研究團(tuán)隊(duì)表示,他們將在未來針對轉(zhuǎn)換后嵌入開發(fā)專門的反演器。總的來說,本次研究證明所有語言模型都會收斂于相同的“通用意義幾何”,從而將給向量數(shù)據(jù)庫的發(fā)展帶來一定影響。

參考資料:

https://arxiv.org/pdf/2505.12540

運(yùn)營/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
尾號“77777777”手機(jī)號130萬元起拍,已有4人報(bào)名,此前“8個(gè)7”尾號曾拍出285.2萬

尾號“77777777”手機(jī)號130萬元起拍,已有4人報(bào)名,此前“8個(gè)7”尾號曾拍出285.2萬

大風(fēng)新聞
2025-07-12 21:50:37
F4合體變“上春山2.0”,朱孝天服裝站位都尷尬,曾公開承認(rèn)不和

F4合體變“上春山2.0”,朱孝天服裝站位都尷尬,曾公開承認(rèn)不和

萌神木木
2025-07-13 13:48:04
伊媒披露以伊沖突期間以色列試圖暗殺伊朗總統(tǒng)細(xì)節(jié):以方發(fā)射六枚導(dǎo)彈或炸彈,伊總統(tǒng)腿部受輕傷

伊媒披露以伊沖突期間以色列試圖暗殺伊朗總統(tǒng)細(xì)節(jié):以方發(fā)射六枚導(dǎo)彈或炸彈,伊總統(tǒng)腿部受輕傷

環(huán)球網(wǎng)資訊
2025-07-13 15:03:41
沈陽一男子在機(jī)動車引擎蓋貼車衣養(yǎng)魚,交警稱屬非法改裝,本人回應(yīng):釣魚忘帶水桶突發(fā)奇想,沒有開車上路,不要模仿

沈陽一男子在機(jī)動車引擎蓋貼車衣養(yǎng)魚,交警稱屬非法改裝,本人回應(yīng):釣魚忘帶水桶突發(fā)奇想,沒有開車上路,不要模仿

環(huán)球網(wǎng)資訊
2025-07-13 16:18:15
江西富豪遭滅門,侄子裝死幸存,12年后說出真相警方傻眼:咋是他

江西富豪遭滅門,侄子裝死幸存,12年后說出真相警方傻眼:咋是他

罪案洞察者
2025-07-09 11:53:28
中國第一個(gè)“被摘牌”5A的景區(qū),因宰客臭名遠(yuǎn)揚(yáng),如今恢復(fù)5A,卻無人敢去...

中國第一個(gè)“被摘牌”5A的景區(qū),因宰客臭名遠(yuǎn)揚(yáng),如今恢復(fù)5A,卻無人敢去...

背包旅行
2025-07-13 10:38:39
初戀開大酒店,我調(diào)任市委書記后去她的大酒店吃飯,被她百般嘲笑

初戀開大酒店,我調(diào)任市委書記后去她的大酒店吃飯,被她百般嘲笑

喬生桂
2025-07-10 15:37:39
凱特亮相溫網(wǎng),再獲全場起立鼓掌高禮遇,害羞捂臉真·可愛極了

凱特亮相溫網(wǎng),再獲全場起立鼓掌高禮遇,害羞捂臉真·可愛極了

科學(xué)發(fā)掘
2025-07-13 09:31:28
男生用AI制作700多張色情照!涉20多名女性含老師同學(xué)

男生用AI制作700多張色情照!涉20多名女性含老師同學(xué)

南方都市報(bào)
2025-07-13 10:01:41
S媽探望孩子后續(xù),瘋狂曬帶娃照片,與小玥兒合影最多,非常偏愛

S媽探望孩子后續(xù),瘋狂曬帶娃照片,與小玥兒合影最多,非常偏愛

尋墨閣
2025-07-13 08:56:54
隊(duì)記:富保羅透露詹姆斯沒要求湖人續(xù)約,也沒申請過交易,但確實(shí)有4隊(duì)想得到他

隊(duì)記:富保羅透露詹姆斯沒要求湖人續(xù)約,也沒申請過交易,但確實(shí)有4隊(duì)想得到他

雷速體育
2025-07-13 10:15:23
楊少華離世4天后,才發(fā)現(xiàn)5個(gè)兒子名字取得暗藏深意,字字都有來頭

楊少華離世4天后,才發(fā)現(xiàn)5個(gè)兒子名字取得暗藏深意,字字都有來頭

白面書誏
2025-07-13 13:10:55
美國大媽為短劇瘋狂買單,中國短劇收入1.5億美元,演員日薪翻7倍

美國大媽為短劇瘋狂買單,中國短劇收入1.5億美元,演員日薪翻7倍

電影爛番茄
2025-07-13 00:09:42
國家報(bào)仇,百年不晚!土耳其在高加索和中亞對俄羅斯步步緊逼

國家報(bào)仇,百年不晚!土耳其在高加索和中亞對俄羅斯步步緊逼

高博新視野
2025-07-11 21:54:53
伊藤2-4朱雨玲!可怕不是輸球,而是賽后伊藤美誠這番話 心氣沒了

伊藤2-4朱雨玲!可怕不是輸球,而是賽后伊藤美誠這番話 心氣沒了

深析古今
2025-07-13 08:18:04
校門外石墩圓球個(gè)個(gè)加設(shè)鋼管護(hù)欄,是否多此一舉?涉事學(xué)校稱是出于安全考慮防止車輛撞擊

校門外石墩圓球個(gè)個(gè)加設(shè)鋼管護(hù)欄,是否多此一舉?涉事學(xué)校稱是出于安全考慮防止車輛撞擊

大風(fēng)新聞
2025-07-12 20:15:39
車檢新規(guī)來了?交警公布6-15年車輛年檢新規(guī)定,讓車主們直呼意外

車檢新規(guī)來了?交警公布6-15年車輛年檢新規(guī)定,讓車主們直呼意外

墨韻萬象W
2025-07-12 11:17:44
凌晨兩點(diǎn)姐姐給弟弟發(fā)消息,弟弟女友一頓懟,網(wǎng)友:被反教育了

凌晨兩點(diǎn)姐姐給弟弟發(fā)消息,弟弟女友一頓懟,網(wǎng)友:被反教育了

丫頭舫
2025-07-11 23:20:21
很奇怪,天水鉛中毒事件為啥都是自媒體在盲猜,卻沒有記者去采訪

很奇怪,天水鉛中毒事件為啥都是自媒體在盲猜,卻沒有記者去采訪

筆桿論道
2025-07-12 11:26:29
張本智和:我之前輸給王楚欽很多次,拉斯維加斯可以帶給我幸運(yùn)

張本智和:我之前輸給王楚欽很多次,拉斯維加斯可以帶給我幸運(yùn)

懂球帝
2025-07-13 11:50:22
2025-07-13 18:23:00
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨(dú)家合作
15404文章數(shù) 513893關(guān)注度
往期回顧 全部

科技要聞

Grok正式登陸特斯拉 "脫韁模式"讓車主上頭

頭條要聞

浙江604分畢業(yè)生賀顯貽放棄本科 被武漢高職院校錄取

頭條要聞

浙江604分畢業(yè)生賀顯貽放棄本科 被武漢高職院校錄取

體育要聞

楊瀚森兩戰(zhàn)20+9+8 隔扣成最大亮點(diǎn)

娛樂要聞

38歲何潔近照曝光,與老公用餐甜蜜

財(cái)經(jīng)要聞

宗馥莉被"弟妹"起訴 要求凍結(jié)18億美元

汽車要聞

小米YU7深度試駕:優(yōu)點(diǎn)很多缺點(diǎn)也很多

態(tài)度原創(chuàng)

健康
手機(jī)
游戲
公開課
軍事航空

呼吸科專家破解呼吸道九大謠言!

手機(jī)要聞

vivo Y50 5G 手機(jī)現(xiàn)身中國電信終端產(chǎn)品庫,1299 元起

PS第一方上Steam竟要裝Epic服務(wù)?原來是為了聯(lián)機(jī)!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

金正恩:朝鮮愿無條件支持俄羅斯

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 育儿| 崇礼县| 长海县| 拉萨市| 南陵县| 梧州市| 横山县| 青河县| 宁海县| 梅州市| 白玉县| 庆元县| 新津县| 辽阳县| 沙河市| 兴安盟| 潼关县| 同仁县| 杂多县| 江达县| 卢湾区| 阳曲县| 新蔡县| 交口县| 龙陵县| 红河县| 双城市| 图木舒克市| 偏关县| 天门市| 遵义市| 桃园县| 梁河县| 任丘市| 鄂伦春自治旗| 平果县| 大姚县| 紫金县| 阿克苏市| 慈溪市| 揭东县|