2024 年,美國麻省理工學(xué)院團(tuán)隊(duì)曾提出“柏拉圖表征假說”(Platonic Representation Hypothesis),該假說推測現(xiàn)代神經(jīng)網(wǎng)絡(luò)的表征空間正在趨于收斂。即不同的 AI 模型正在趨向于一個(gè)統(tǒng)一的現(xiàn)實(shí)表征。就像在柏拉圖洞穴寓言中囚犯們看到的影子是現(xiàn)實(shí)的投影一樣,正在不斷迭代的 AI 模型也開始理解投影背后更高維度的現(xiàn)實(shí)。當(dāng)時(shí),相關(guān)論文還曾獲得前 OpenAI 首席科學(xué)家伊利亞·蘇茨克維(Ilya Sutskever)的點(diǎn)贊。
2025 年 5 月,在上述基礎(chǔ)之上,美國康奈爾大學(xué)博士生張睿杰和所在研究團(tuán)隊(duì)提出“強(qiáng)柏拉圖表征假說”(Strong Platonic Representation ypothesis),即潛在的通用表征是可以被學(xué)習(xí)并加以利用的,也能在無需任何編碼器或成對數(shù)據(jù)的情況下實(shí)現(xiàn)表征空間之間的轉(zhuǎn)換。
圖 | 張睿杰(來源:https://collinzrj.github.io/)
研究中,他們還提出一種名為 vec2vec 的新方法,這是一種能將文本嵌入從一個(gè)向量空間轉(zhuǎn)換到另一個(gè)向量空間的方法。其表示這也是第一種無需任何配對數(shù)據(jù)、編碼器或預(yù)定義匹配集即可實(shí)現(xiàn)上述能力的方法。
也就是說,作為一種無監(jiān)督方法,vec2vec 能將任意嵌入與“柏拉圖表征假說”推測的通用語義結(jié)構(gòu)進(jìn)行雙向轉(zhuǎn)換。
具體來說,vec2vec 能夠轉(zhuǎn)換由未知編碼器生成的未知文檔嵌入,并且對于分布外的輸入具有魯棒性。哪怕模型架構(gòu)、參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)各不相同,vec2vec 在模型對之間仍能實(shí)現(xiàn)高度的余弦相似度。在保留未知嵌入幾何結(jié)構(gòu)的同時(shí),該方法能夠?qū)⑵滢D(zhuǎn)換到不同空間。
換言之,vec2vec 能夠?qū)W習(xí)“與領(lǐng)域無關(guān)”的轉(zhuǎn)換,這一能力主要基于不同嵌入空間中表示相同語義時(shí)所通用的幾何結(jié)構(gòu)關(guān)系。同時(shí),研究團(tuán)隊(duì)還證明 vec2vec 轉(zhuǎn)換能夠保留足夠的輸入語義,從而支持屬性推理。
此外,他們從一些患者記錄和企業(yè)郵件中提取了一些敏感疾病信息和其他相關(guān)內(nèi)容,不過他們僅僅訪問了文檔嵌入,并未接觸生成這些嵌入的編碼器。
通過本次研究他們發(fā)現(xiàn),更好的轉(zhuǎn)換方法將能實(shí)現(xiàn)更高保真度的信息提取,這再次印證了一個(gè)事實(shí):嵌入所揭示的信息幾乎與其輸入內(nèi)容一樣多。
因此,此次發(fā)現(xiàn)能為基于文本的模型的“強(qiáng)柏拉圖表征假說”提供令人信服的證據(jù)。
基于 OpenAI 幾年前推出的“對比語言 - 圖像預(yù)訓(xùn)練”(CLIP,Contrastive Language - Image Pretraining)模型,本次研究的初步實(shí)驗(yàn)結(jié)果表明,通用幾何結(jié)構(gòu)也可用于其他模態(tài)。
需要說明的是,本次成果僅僅是表征間轉(zhuǎn)換的一個(gè)下限。隨著更好、更穩(wěn)定的學(xué)習(xí)算法的面世,以及相關(guān)架構(gòu)的改進(jìn),預(yù)計(jì)本次成果將能擴(kuò)展到更多數(shù)據(jù)、更多模型家族和更多模態(tài)之中。
余弦相似度高達(dá) 0.92
據(jù)了解,文本嵌入是現(xiàn)代自然語言處理(NLP,Natural Language Processing)的核心,它能為檢索、檢索增強(qiáng)生成(RAG,Retrieval-Augmented Generation)、分類和聚類等任務(wù)提供支持。
對于許多嵌入模型來說,它們是在不同數(shù)據(jù)集、不同數(shù)據(jù)打亂方式和不同初始化條件下訓(xùn)練而來的。
文本的嵌入編碼了其語義信息:一個(gè)優(yōu)秀的模型會將語義相近的文本,映射到嵌入空間中彼此接近的向量上。由于語義是文本的屬性,同一文本的不同嵌入應(yīng)該編碼相同的語義。
然而,在實(shí)踐中,不同的模型會將文本編碼到完全不同且不兼容的向量空間中。
此前,由麻省理工學(xué)院團(tuán)隊(duì)提出的“柏拉圖表征假說”推測:所有足夠大的圖像模型都具有相同的潛在表征。針對文本模型,本次研究團(tuán)隊(duì)提出了該假說的一個(gè)更強(qiáng)的建設(shè)性版本:文本表征的通用潛在結(jié)構(gòu)是可以被學(xué)習(xí)的,并能進(jìn)一步地在無需任何配對數(shù)據(jù)或編碼器的情況下,利用該結(jié)構(gòu)將表征從一個(gè)空間轉(zhuǎn)換到另一個(gè)空間。
在這項(xiàng)工作中,研究團(tuán)隊(duì)證明強(qiáng)柏拉圖表征假說在實(shí)踐中是成立的。通過給定來自兩個(gè)具有不同架構(gòu)和訓(xùn)練數(shù)據(jù)的模型的未配對嵌入示例,他們使用 vec2vec 學(xué)習(xí)了一個(gè)潛在表征,其中這些嵌入幾乎完全相同。
(來源:資料圖)
研究中,他們從跨語言詞嵌入對齊研究和無監(jiān)督圖像翻譯研究中汲取靈感。據(jù)介紹,vec2vec 使用對抗性損失和循環(huán)一致性,來學(xué)習(xí)將嵌入編碼到共享潛在空間中,并能以最小的損失進(jìn)行解碼,這使得無監(jiān)督轉(zhuǎn)換成為了可能。
同時(shí),研究團(tuán)隊(duì)采用了一種對抗性方法,并結(jié)合向量空間保持技術(shù),來學(xué)習(xí)如何將未知嵌入分布映射到已知分布。
通過此,他們發(fā)現(xiàn) vec2vec 轉(zhuǎn)換在目標(biāo)嵌入空間中與真實(shí)向量的余弦相似度高達(dá) 0.92,并且在 8000 多個(gè)隨機(jī)排列的 vec2vec 嵌入上實(shí)現(xiàn)了完美匹配,而且無需預(yù)先訪問匹配集合。為了證明上述轉(zhuǎn)換同時(shí)保留了“嵌入的相對幾何結(jié)構(gòu)”和“底層輸入的語義”,他們在完全不了解生成原始嵌入模型的情況下,使用零樣本的屬性開展推斷和反演,并從這些向量中成功提取到了信息。
無監(jiān)督嵌入轉(zhuǎn)換
據(jù)了解,關(guān)于嵌入向量集之間的匹配問題或?qū)?yīng)問題,已經(jīng)有大量的研究。但是,這些方法都不適用于本次研究的設(shè)置,因?yàn)榇饲把芯考僭O(shè)存在由不同編碼器從相同輸入產(chǎn)生的兩組或更多組的嵌入向量。
換句話說,對于每個(gè)未知向量來說,必須已經(jīng)存在另一組不同嵌入空間中的候選向量,其中有一個(gè)是正確匹配項(xiàng)。
但是,在實(shí)際應(yīng)用中,很難獲得這樣的數(shù)據(jù)庫。研究團(tuán)隊(duì)表示,他們之所以認(rèn)為無監(jiān)督嵌入轉(zhuǎn)換是可行的,是因?yàn)樗耆Q于更強(qiáng)版本的柏拉圖表征假說。
為此,他們提出了如下猜想:當(dāng)使用相同的目標(biāo)和模態(tài),但是使用不同數(shù)據(jù)以及由不同模型架構(gòu)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),將會收斂到一個(gè)通用的潛在空間,從而在無需任何成對對應(yīng)關(guān)系的情況下,即可學(xué)習(xí)各自表征之間的轉(zhuǎn)換。
在計(jì)算機(jī)視覺領(lǐng)域,結(jié)合了循環(huán)一致性和對抗正則化的無監(jiān)督轉(zhuǎn)換已經(jīng)取得成功。因此,研究團(tuán)隊(duì)在 vec2vec 的設(shè)計(jì)上,也從這些方法中獲得了一些啟發(fā)。
與此同時(shí),他們希望實(shí)現(xiàn)具有循環(huán)一致性和不可區(qū)分性的嵌入空間轉(zhuǎn)換。與圖像不同的是,嵌入向量不具有任何空間偏差。
研究中,研究團(tuán)隊(duì)并沒有使用卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network),而是采用了具有殘差連接、層歸一化和 SiLU 非線性激活函數(shù)的多層感知機(jī)(MLP,Multilayer Perceptron)。在判別器上則采用了與生成器類似的結(jié)構(gòu),但是省略了殘差連接,以便讓對抗學(xué)習(xí)過程得到簡化。
無需任何配對數(shù)據(jù),就能學(xué)習(xí)轉(zhuǎn)換嵌入向量
在數(shù)據(jù)集上,研究團(tuán)隊(duì)使用了由真實(shí)用戶查詢的自然問題(NQ,Natural Questions)數(shù)據(jù)集,并使用了由維基百科答案訓(xùn)練的數(shù)據(jù)集。
為了針對信息提取進(jìn)行評估:
首先,他們使用了 TweetTopic,這是一個(gè)由 19 個(gè)主題組成的、有著多標(biāo)簽標(biāo)記的推文數(shù)據(jù)集。
其次,他們使用了偽重新識別的 MIMIC-III(MIMIC)的隨機(jī) 8192 個(gè)記錄子集,并使用了由 2673 個(gè) MedCAT 疾病描述多重標(biāo)記的患者記錄的 MIMIC 數(shù)據(jù)集的偽重新識別版本。
再次,他們使用了已經(jīng)倒閉的能源公司安然(Enron)的電子郵件語料庫的 50 封隨機(jī)電子郵件子集,這也是一個(gè)未標(biāo)記的公共數(shù)據(jù)集。
在模型上,研究團(tuán)隊(duì)使用了代表三種規(guī)模類別、四種 Transformer 主干架構(gòu)和兩種輸出維度的嵌入模型。其中,Granite 是多語言模型,CLIP 是多模態(tài)模型。
(來源:資料圖)
實(shí)驗(yàn)中,他們證明 vec2vec 能夠?qū)W習(xí)一個(gè)通用的潛在空間,并證明這個(gè)空間保留了所有嵌入的幾何結(jié)構(gòu)。這讓他們可以將其用作一種文本編碼器的通用語言,并且無需任何配對數(shù)據(jù)就能轉(zhuǎn)換其表征。
實(shí)驗(yàn)結(jié)果顯示,vec2vec 轉(zhuǎn)換能夠反映目標(biāo)空間的幾何結(jié)構(gòu)。如下圖所示,vec2vec 在模型對之間生成了近乎最優(yōu)分配的嵌入,實(shí)現(xiàn)了高達(dá) 0.92 的余弦相似性分?jǐn)?shù)、高達(dá) 100% 的 top-1 準(zhǔn)確率,且矩陣秩(rank)低至 1。
(來源:資料圖)
在相同骨干網(wǎng)絡(luò)的配對組合中,vec2vec 甚至能夠接近于借助先知(oracle)的最優(yōu)分配方案的性能。vec2vec 生成的嵌入向量,比 na?ve 基線更加接近真實(shí)值。
在跨主干配對中,vec2vec 在所有指標(biāo)上都遠(yuǎn)勝一籌,而基線方法的表現(xiàn)則與隨機(jī)猜測相差無幾。如下圖所示,這種性能甚至可以擴(kuò)展到分布外數(shù)據(jù)。
(來源:資料圖)
如前所述,vec2vec 轉(zhuǎn)換器是在 NQ 數(shù)據(jù)集上訓(xùn)練的,但是在 X 推文和醫(yī)療記錄上進(jìn)行評估時(shí),它仍然表現(xiàn)出較高的余弦相似性、較高的準(zhǔn)確率以及較低的矩陣秩。
(來源:資料圖)
研究團(tuán)隊(duì)指出,vec2vec 始終優(yōu)于最優(yōu)任務(wù)基線。這些結(jié)果表明,本次方法在適應(yīng)新模態(tài)方面具有潛力,特別是 CLIP 的嵌入空間已經(jīng)成功與其他模態(tài)比如熱圖、音頻和深度圖建立了連接。
使用 vec2vec 轉(zhuǎn)換來提取信息
研究中,研究團(tuán)隊(duì)證明 vec2vec 轉(zhuǎn)換不僅保留了嵌入的幾何結(jié)構(gòu),還保留了足夠的語義以便能夠支持屬性推理。
如下圖所示,對 vec2vec 轉(zhuǎn)換進(jìn)行的屬性推理始終優(yōu)于 na?ve 基線,并且往往比理想的零樣本基線表現(xiàn)更好。需要說明的是,這一理想基線旨在針對同一空間中的真實(shí)文檔嵌入和屬性嵌入進(jìn)行推理。由于在本次研究場景中無法獲得這些嵌入,因此它是一個(gè)假設(shè)性基線。
(來源:資料圖)
研究團(tuán)隊(duì)表示,vec2vec 轉(zhuǎn)換甚至適用于醫(yī)療記錄的嵌入向量。在同主干配對中,針對轉(zhuǎn)換后的嵌入進(jìn)行屬性推理的表現(xiàn)與 na?ve 基線相當(dāng),而在跨主干配對中則大幅優(yōu)于簡單基線。
比如,vec2vec 能夠保留像“牙槽骨骨膜炎”這類概念的語義,而這類概念從未出現(xiàn)在訓(xùn)練數(shù)據(jù)中,這證明 vec2vec 的潛在空間確實(shí)是一種通用表示。
反演,即重建文本輸入。相比屬性推斷,反演更加具有挑戰(zhàn)性。而 vec2vec 轉(zhuǎn)換能夠保留足夠的語義信息,以至于就算使用那些“原本為標(biāo)準(zhǔn)編碼器生成的嵌入”而開發(fā)的現(xiàn)成零樣本反演方法,也能僅憑轉(zhuǎn)換后的嵌入,來從一些模型對中重建多達(dá) 80% 的文檔內(nèi)容。
(來源:資料圖)
當(dāng)然,這些反演并不完美。研究團(tuán)隊(duì)表示,他們將在未來針對轉(zhuǎn)換后嵌入開發(fā)專門的反演器。總的來說,本次研究證明所有語言模型都會收斂于相同的“通用意義幾何”,從而將給向量數(shù)據(jù)庫的發(fā)展帶來一定影響。
參考資料:
https://arxiv.org/pdf/2505.12540
運(yùn)營/排版:何晨龍
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.