科學(xué)家驗(yàn)證強(qiáng)柏拉圖表征假說，證明模型會收斂于相同通用意義幾何

2025-05-27 18:40:11　來源: DeepTech深科技

北京舉報(bào)

分享至

2024 年，美國麻省理工學(xué)院團(tuán)隊(duì)曾提出“柏拉圖表征假說”（Platonic Representation Hypothesis），該假說推測現(xiàn)代神經(jīng)網(wǎng)絡(luò)的表征空間正在趨于收斂。即不同的 AI 模型正在趨向于一個(gè)統(tǒng)一的現(xiàn)實(shí)表征。就像在柏拉圖洞穴寓言中囚犯們看到的影子是現(xiàn)實(shí)的投影一樣，正在不斷迭代的 AI 模型也開始理解投影背后更高維度的現(xiàn)實(shí)。當(dāng)時(shí)，相關(guān)論文還曾獲得前 OpenAI 首席科學(xué)家伊利亞·蘇茨克維（Ilya Sutskever）的點(diǎn)贊。

2025 年 5 月，在上述基礎(chǔ)之上，美國康奈爾大學(xué)博士生張睿杰和所在研究團(tuán)隊(duì)提出“強(qiáng)柏拉圖表征假說”（Strong Platonic Representation ypothesis），即潛在的通用表征是可以被學(xué)習(xí)并加以利用的，也能在無需任何編碼器或成對數(shù)據(jù)的情況下實(shí)現(xiàn)表征空間之間的轉(zhuǎn)換。

圖 | 張睿杰（來源：https://collinzrj.github.io/）

研究中，他們還提出一種名為 vec2vec 的新方法，這是一種能將文本嵌入從一個(gè)向量空間轉(zhuǎn)換到另一個(gè)向量空間的方法。其表示這也是第一種無需任何配對數(shù)據(jù)、編碼器或預(yù)定義匹配集即可實(shí)現(xiàn)上述能力的方法。

也就是說，作為一種無監(jiān)督方法，vec2vec 能將任意嵌入與“柏拉圖表征假說”推測的通用語義結(jié)構(gòu)進(jìn)行雙向轉(zhuǎn)換。

具體來說，vec2vec 能夠轉(zhuǎn)換由未知編碼器生成的未知文檔嵌入，并且對于分布外的輸入具有魯棒性。哪怕模型架構(gòu)、參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)各不相同，vec2vec 在模型對之間仍能實(shí)現(xiàn)高度的余弦相似度。在保留未知嵌入幾何結(jié)構(gòu)的同時(shí)，該方法能夠?qū)⑵滢D(zhuǎn)換到不同空間。

換言之，vec2vec 能夠?qū)W習(xí)“與領(lǐng)域無關(guān)”的轉(zhuǎn)換，這一能力主要基于不同嵌入空間中表示相同語義時(shí)所通用的幾何結(jié)構(gòu)關(guān)系。同時(shí)，研究團(tuán)隊(duì)還證明 vec2vec 轉(zhuǎn)換能夠保留足夠的輸入語義，從而支持屬性推理。

此外，他們從一些患者記錄和企業(yè)郵件中提取了一些敏感疾病信息和其他相關(guān)內(nèi)容，不過他們僅僅訪問了文檔嵌入，并未接觸生成這些嵌入的編碼器。

通過本次研究他們發(fā)現(xiàn)，更好的轉(zhuǎn)換方法將能實(shí)現(xiàn)更高保真度的信息提取，這再次印證了一個(gè)事實(shí)：嵌入所揭示的信息幾乎與其輸入內(nèi)容一樣多。

因此，此次發(fā)現(xiàn)能為基于文本的模型的“強(qiáng)柏拉圖表征假說”提供令人信服的證據(jù)。

基于 OpenAI 幾年前推出的“對比語言 - 圖像預(yù)訓(xùn)練”（CLIP，Contrastive Language - Image Pretraining）模型，本次研究的初步實(shí)驗(yàn)結(jié)果表明，通用幾何結(jié)構(gòu)也可用于其他模態(tài)。

需要說明的是，本次成果僅僅是表征間轉(zhuǎn)換的一個(gè)下限。隨著更好、更穩(wěn)定的學(xué)習(xí)算法的面世，以及相關(guān)架構(gòu)的改進(jìn)，預(yù)計(jì)本次成果將能擴(kuò)展到更多數(shù)據(jù)、更多模型家族和更多模態(tài)之中。

余弦相似度高達(dá) 0.92

據(jù)了解，文本嵌入是現(xiàn)代自然語言處理（NLP，Natural Language Processing）的核心，它能為檢索、檢索增強(qiáng)生成（RAG，Retrieval-Augmented Generation）、分類和聚類等任務(wù)提供支持。

對于許多嵌入模型來說，它們是在不同數(shù)據(jù)集、不同數(shù)據(jù)打亂方式和不同初始化條件下訓(xùn)練而來的。

文本的嵌入編碼了其語義信息：一個(gè)優(yōu)秀的模型會將語義相近的文本，映射到嵌入空間中彼此接近的向量上。由于語義是文本的屬性，同一文本的不同嵌入應(yīng)該編碼相同的語義。

然而，在實(shí)踐中，不同的模型會將文本編碼到完全不同且不兼容的向量空間中。

此前，由麻省理工學(xué)院團(tuán)隊(duì)提出的“柏拉圖表征假說”推測：所有足夠大的圖像模型都具有相同的潛在表征。針對文本模型，本次研究團(tuán)隊(duì)提出了該假說的一個(gè)更強(qiáng)的建設(shè)性版本：文本表征的通用潛在結(jié)構(gòu)是可以被學(xué)習(xí)的，并能進(jìn)一步地在無需任何配對數(shù)據(jù)或編碼器的情況下，利用該結(jié)構(gòu)將表征從一個(gè)空間轉(zhuǎn)換到另一個(gè)空間。

在這項(xiàng)工作中，研究團(tuán)隊(duì)證明強(qiáng)柏拉圖表征假說在實(shí)踐中是成立的。通過給定來自兩個(gè)具有不同架構(gòu)和訓(xùn)練數(shù)據(jù)的模型的未配對嵌入示例，他們使用 vec2vec 學(xué)習(xí)了一個(gè)潛在表征，其中這些嵌入幾乎完全相同。

（來源：資料圖）

研究中，他們從跨語言詞嵌入對齊研究和無監(jiān)督圖像翻譯研究中汲取靈感。據(jù)介紹，vec2vec 使用對抗性損失和循環(huán)一致性，來學(xué)習(xí)將嵌入編碼到共享潛在空間中，并能以最小的損失進(jìn)行解碼，這使得無監(jiān)督轉(zhuǎn)換成為了可能。

同時(shí)，研究團(tuán)隊(duì)采用了一種對抗性方法，并結(jié)合向量空間保持技術(shù)，來學(xué)習(xí)如何將未知嵌入分布映射到已知分布。

通過此，他們發(fā)現(xiàn) vec2vec 轉(zhuǎn)換在目標(biāo)嵌入空間中與真實(shí)向量的余弦相似度高達(dá) 0.92，并且在 8000 多個(gè)隨機(jī)排列的 vec2vec 嵌入上實(shí)現(xiàn)了完美匹配，而且無需預(yù)先訪問匹配集合。為了證明上述轉(zhuǎn)換同時(shí)保留了“嵌入的相對幾何結(jié)構(gòu)”和“底層輸入的語義”，他們在完全不了解生成原始嵌入模型的情況下，使用零樣本的屬性開展推斷和反演，并從這些向量中成功提取到了信息。

無監(jiān)督嵌入轉(zhuǎn)換

據(jù)了解，關(guān)于嵌入向量集之間的匹配問題或?qū)?yīng)問題，已經(jīng)有大量的研究。但是，這些方法都不適用于本次研究的設(shè)置，因?yàn)榇饲把芯考僭O(shè)存在由不同編碼器從相同輸入產(chǎn)生的兩組或更多組的嵌入向量。

換句話說，對于每個(gè)未知向量來說，必須已經(jīng)存在另一組不同嵌入空間中的候選向量，其中有一個(gè)是正確匹配項(xiàng)。

但是，在實(shí)際應(yīng)用中，很難獲得這樣的數(shù)據(jù)庫。研究團(tuán)隊(duì)表示，他們之所以認(rèn)為無監(jiān)督嵌入轉(zhuǎn)換是可行的，是因?yàn)樗耆Q于更強(qiáng)版本的柏拉圖表征假說。

為此，他們提出了如下猜想：當(dāng)使用相同的目標(biāo)和模態(tài)，但是使用不同數(shù)據(jù)以及由不同模型架構(gòu)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)，將會收斂到一個(gè)通用的潛在空間，從而在無需任何成對對應(yīng)關(guān)系的情況下，即可學(xué)習(xí)各自表征之間的轉(zhuǎn)換。

在計(jì)算機(jī)視覺領(lǐng)域，結(jié)合了循環(huán)一致性和對抗正則化的無監(jiān)督轉(zhuǎn)換已經(jīng)取得成功。因此，研究團(tuán)隊(duì)在 vec2vec 的設(shè)計(jì)上，也從這些方法中獲得了一些啟發(fā)。

與此同時(shí)，他們希望實(shí)現(xiàn)具有循環(huán)一致性和不可區(qū)分性的嵌入空間轉(zhuǎn)換。與圖像不同的是，嵌入向量不具有任何空間偏差。

研究中，研究團(tuán)隊(duì)并沒有使用卷積神經(jīng)網(wǎng)絡(luò)（CNN，Convolutional Neural Network），而是采用了具有殘差連接、層歸一化和 SiLU 非線性激活函數(shù)的多層感知機(jī)（MLP，Multilayer Perceptron）。在判別器上則采用了與生成器類似的結(jié)構(gòu)，但是省略了殘差連接，以便讓對抗學(xué)習(xí)過程得到簡化。

無需任何配對數(shù)據(jù)，就能學(xué)習(xí)轉(zhuǎn)換嵌入向量

在數(shù)據(jù)集上，研究團(tuán)隊(duì)使用了由真實(shí)用戶查詢的自然問題（NQ，Natural Questions）數(shù)據(jù)集，并使用了由維基百科答案訓(xùn)練的數(shù)據(jù)集。

為了針對信息提取進(jìn)行評估：

首先，他們使用了 TweetTopic，這是一個(gè)由 19 個(gè)主題組成的、有著多標(biāo)簽標(biāo)記的推文數(shù)據(jù)集。

其次，他們使用了偽重新識別的 MIMIC-III（MIMIC）的隨機(jī) 8192 個(gè)記錄子集，并使用了由 2673 個(gè) MedCAT 疾病描述多重標(biāo)記的患者記錄的 MIMIC 數(shù)據(jù)集的偽重新識別版本。

再次，他們使用了已經(jīng)倒閉的能源公司安然（Enron）的電子郵件語料庫的 50 封隨機(jī)電子郵件子集，這也是一個(gè)未標(biāo)記的公共數(shù)據(jù)集。

在模型上，研究團(tuán)隊(duì)使用了代表三種規(guī)模類別、四種 Transformer 主干架構(gòu)和兩種輸出維度的嵌入模型。其中，Granite 是多語言模型，CLIP 是多模態(tài)模型。

（來源：資料圖）

實(shí)驗(yàn)中，他們證明 vec2vec 能夠?qū)W習(xí)一個(gè)通用的潛在空間，并證明這個(gè)空間保留了所有嵌入的幾何結(jié)構(gòu)。這讓他們可以將其用作一種文本編碼器的通用語言，并且無需任何配對數(shù)據(jù)就能轉(zhuǎn)換其表征。

實(shí)驗(yàn)結(jié)果顯示，vec2vec 轉(zhuǎn)換能夠反映目標(biāo)空間的幾何結(jié)構(gòu)。如下圖所示，vec2vec 在模型對之間生成了近乎最優(yōu)分配的嵌入，實(shí)現(xiàn)了高達(dá) 0.92 的余弦相似性分?jǐn)?shù)、高達(dá) 100% 的 top-1 準(zhǔn)確率，且矩陣秩（rank）低至 1。

（來源：資料圖）

在相同骨干網(wǎng)絡(luò)的配對組合中，vec2vec 甚至能夠接近于借助先知（oracle）的最優(yōu)分配方案的性能。vec2vec 生成的嵌入向量，比 na?ve 基線更加接近真實(shí)值。

在跨主干配對中，vec2vec 在所有指標(biāo)上都遠(yuǎn)勝一籌，而基線方法的表現(xiàn)則與隨機(jī)猜測相差無幾。如下圖所示，這種性能甚至可以擴(kuò)展到分布外數(shù)據(jù)。

（來源：資料圖）

如前所述，vec2vec 轉(zhuǎn)換器是在 NQ 數(shù)據(jù)集上訓(xùn)練的，但是在 X 推文和醫(yī)療記錄上進(jìn)行評估時(shí)，它仍然表現(xiàn)出較高的余弦相似性、較高的準(zhǔn)確率以及較低的矩陣秩。

（來源：資料圖）

研究團(tuán)隊(duì)指出，vec2vec 始終優(yōu)于最優(yōu)任務(wù)基線。這些結(jié)果表明，本次方法在適應(yīng)新模態(tài)方面具有潛力，特別是 CLIP 的嵌入空間已經(jīng)成功與其他模態(tài)比如熱圖、音頻和深度圖建立了連接。

使用 vec2vec 轉(zhuǎn)換來提取信息

研究中，研究團(tuán)隊(duì)證明 vec2vec 轉(zhuǎn)換不僅保留了嵌入的幾何結(jié)構(gòu)，還保留了足夠的語義以便能夠支持屬性推理。

如下圖所示，對 vec2vec 轉(zhuǎn)換進(jìn)行的屬性推理始終優(yōu)于 na?ve 基線，并且往往比理想的零樣本基線表現(xiàn)更好。需要說明的是，這一理想基線旨在針對同一空間中的真實(shí)文檔嵌入和屬性嵌入進(jìn)行推理。由于在本次研究場景中無法獲得這些嵌入，因此它是一個(gè)假設(shè)性基線。

（來源：資料圖）

研究團(tuán)隊(duì)表示，vec2vec 轉(zhuǎn)換甚至適用于醫(yī)療記錄的嵌入向量。在同主干配對中，針對轉(zhuǎn)換后的嵌入進(jìn)行屬性推理的表現(xiàn)與 na?ve 基線相當(dāng)，而在跨主干配對中則大幅優(yōu)于簡單基線。

比如，vec2vec 能夠保留像“牙槽骨骨膜炎”這類概念的語義，而這類概念從未出現(xiàn)在訓(xùn)練數(shù)據(jù)中，這證明 vec2vec 的潛在空間確實(shí)是一種通用表示。

反演，即重建文本輸入。相比屬性推斷，反演更加具有挑戰(zhàn)性。而 vec2vec 轉(zhuǎn)換能夠保留足夠的語義信息，以至于就算使用那些“原本為標(biāo)準(zhǔn)編碼器生成的嵌入”而開發(fā)的現(xiàn)成零樣本反演方法，也能僅憑轉(zhuǎn)換后的嵌入，來從一些模型對中重建多達(dá) 80% 的文檔內(nèi)容。

（來源：資料圖）

當(dāng)然，這些反演并不完美。研究團(tuán)隊(duì)表示，他們將在未來針對轉(zhuǎn)換后嵌入開發(fā)專門的反演器。總的來說，本次研究證明所有語言模型都會收斂于相同的“通用意義幾何”，從而將給向量數(shù)據(jù)庫的發(fā)展帶來一定影響。

參考資料：

https://arxiv.org/pdf/2505.12540

運(yùn)營/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.