2024 年,美國麻省理工學院團隊曾提出“柏拉圖表征假說”(Platonic Representation Hypothesis),該假說推測現代神經網絡的表征空間正在趨于收斂。即不同的 AI 模型正在趨向于一個統一的現實表征。就像在柏拉圖洞穴寓言中囚犯們看到的影子是現實的投影一樣,正在不斷迭代的 AI 模型也開始理解投影背后更高維度的現實。當時,相關論文還曾獲得前 OpenAI 首席科學家伊利亞·蘇茨克維(Ilya Sutskever)的點贊。
2025 年 5 月,在上述基礎之上,美國康奈爾大學博士生張睿杰和所在研究團隊提出“強柏拉圖表征假說”(Strong Platonic Representation ypothesis),即潛在的通用表征是可以被學習并加以利用的,也能在無需任何編碼器或成對數據的情況下實現表征空間之間的轉換。
圖 | 張睿杰(來源:https://collinzrj.github.io/)
研究中,他們還提出一種名為 vec2vec 的新方法,這是一種能將文本嵌入從一個向量空間轉換到另一個向量空間的方法。其表示這也是第一種無需任何配對數據、編碼器或預定義匹配集即可實現上述能力的方法。
也就是說,作為一種無監督方法,vec2vec 能將任意嵌入與“柏拉圖表征假說”推測的通用語義結構進行雙向轉換。
具體來說,vec2vec 能夠轉換由未知編碼器生成的未知文檔嵌入,并且對于分布外的輸入具有魯棒性。哪怕模型架構、參數規模和訓練數據各不相同,vec2vec 在模型對之間仍能實現高度的余弦相似度。在保留未知嵌入幾何結構的同時,該方法能夠將其轉換到不同空間。
換言之,vec2vec 能夠學習“與領域無關”的轉換,這一能力主要基于不同嵌入空間中表示相同語義時所通用的幾何結構關系。同時,研究團隊還證明 vec2vec 轉換能夠保留足夠的輸入語義,從而支持屬性推理。
此外,他們從一些患者記錄和企業郵件中提取了一些敏感疾病信息和其他相關內容,不過他們僅僅訪問了文檔嵌入,并未接觸生成這些嵌入的編碼器。
通過本次研究他們發現,更好的轉換方法將能實現更高保真度的信息提取,這再次印證了一個事實:嵌入所揭示的信息幾乎與其輸入內容一樣多。
因此,此次發現能為基于文本的模型的“強柏拉圖表征假說”提供令人信服的證據。
基于 OpenAI 幾年前推出的“對比語言 - 圖像預訓練”(CLIP,Contrastive Language - Image Pretraining)模型,本次研究的初步實驗結果表明,通用幾何結構也可用于其他模態。
需要說明的是,本次成果僅僅是表征間轉換的一個下限。隨著更好、更穩定的學習算法的面世,以及相關架構的改進,預計本次成果將能擴展到更多數據、更多模型家族和更多模態之中。
余弦相似度高達 0.92
據了解,文本嵌入是現代自然語言處理(NLP,Natural Language Processing)的核心,它能為檢索、檢索增強生成(RAG,Retrieval-Augmented Generation)、分類和聚類等任務提供支持。
對于許多嵌入模型來說,它們是在不同數據集、不同數據打亂方式和不同初始化條件下訓練而來的。
文本的嵌入編碼了其語義信息:一個優秀的模型會將語義相近的文本,映射到嵌入空間中彼此接近的向量上。由于語義是文本的屬性,同一文本的不同嵌入應該編碼相同的語義。
然而,在實踐中,不同的模型會將文本編碼到完全不同且不兼容的向量空間中。
此前,由麻省理工學院團隊提出的“柏拉圖表征假說”推測:所有足夠大的圖像模型都具有相同的潛在表征。針對文本模型,本次研究團隊提出了該假說的一個更強的建設性版本:文本表征的通用潛在結構是可以被學習的,并能進一步地在無需任何配對數據或編碼器的情況下,利用該結構將表征從一個空間轉換到另一個空間。
在這項工作中,研究團隊證明強柏拉圖表征假說在實踐中是成立的。通過給定來自兩個具有不同架構和訓練數據的模型的未配對嵌入示例,他們使用 vec2vec 學習了一個潛在表征,其中這些嵌入幾乎完全相同。
(來源:資料圖)
研究中,他們從跨語言詞嵌入對齊研究和無監督圖像翻譯研究中汲取靈感。據介紹,vec2vec 使用對抗性損失和循環一致性,來學習將嵌入編碼到共享潛在空間中,并能以最小的損失進行解碼,這使得無監督轉換成為了可能。
同時,研究團隊采用了一種對抗性方法,并結合向量空間保持技術,來學習如何將未知嵌入分布映射到已知分布。
通過此,他們發現 vec2vec 轉換在目標嵌入空間中與真實向量的余弦相似度高達 0.92,并且在 8000 多個隨機排列的 vec2vec 嵌入上實現了完美匹配,而且無需預先訪問匹配集合。為了證明上述轉換同時保留了“嵌入的相對幾何結構”和“底層輸入的語義”,他們在完全不了解生成原始嵌入模型的情況下,使用零樣本的屬性開展推斷和反演,并從這些向量中成功提取到了信息。
無監督嵌入轉換
據了解,關于嵌入向量集之間的匹配問題或對應問題,已經有大量的研究。但是,這些方法都不適用于本次研究的設置,因為此前研究假設存在由不同編碼器從相同輸入產生的兩組或更多組的嵌入向量。
換句話說,對于每個未知向量來說,必須已經存在另一組不同嵌入空間中的候選向量,其中有一個是正確匹配項。
但是,在實際應用中,很難獲得這樣的數據庫。研究團隊表示,他們之所以認為無監督嵌入轉換是可行的,是因為它完全取決于更強版本的柏拉圖表征假說。
為此,他們提出了如下猜想:當使用相同的目標和模態,但是使用不同數據以及由不同模型架構訓練的神經網絡,將會收斂到一個通用的潛在空間,從而在無需任何成對對應關系的情況下,即可學習各自表征之間的轉換。
在計算機視覺領域,結合了循環一致性和對抗正則化的無監督轉換已經取得成功。因此,研究團隊在 vec2vec 的設計上,也從這些方法中獲得了一些啟發。
與此同時,他們希望實現具有循環一致性和不可區分性的嵌入空間轉換。與圖像不同的是,嵌入向量不具有任何空間偏差。
研究中,研究團隊并沒有使用卷積神經網絡(CNN,Convolutional Neural Network),而是采用了具有殘差連接、層歸一化和 SiLU 非線性激活函數的多層感知機(MLP,Multilayer Perceptron)。在判別器上則采用了與生成器類似的結構,但是省略了殘差連接,以便讓對抗學習過程得到簡化。
無需任何配對數據,就能學習轉換嵌入向量
在數據集上,研究團隊使用了由真實用戶查詢的自然問題(NQ,Natural Questions)數據集,并使用了由維基百科答案訓練的數據集。
為了針對信息提取進行評估:
首先,他們使用了 TweetTopic,這是一個由 19 個主題組成的、有著多標簽標記的推文數據集。
其次,他們使用了偽重新識別的 MIMIC-III(MIMIC)的隨機 8192 個記錄子集,并使用了由 2673 個 MedCAT 疾病描述多重標記的患者記錄的 MIMIC 數據集的偽重新識別版本。
再次,他們使用了已經倒閉的能源公司安然(Enron)的電子郵件語料庫的 50 封隨機電子郵件子集,這也是一個未標記的公共數據集。
在模型上,研究團隊使用了代表三種規模類別、四種 Transformer 主干架構和兩種輸出維度的嵌入模型。其中,Granite 是多語言模型,CLIP 是多模態模型。
(來源:資料圖)
實驗中,他們證明 vec2vec 能夠學習一個通用的潛在空間,并證明這個空間保留了所有嵌入的幾何結構。這讓他們可以將其用作一種文本編碼器的通用語言,并且無需任何配對數據就能轉換其表征。
實驗結果顯示,vec2vec 轉換能夠反映目標空間的幾何結構。如下圖所示,vec2vec 在模型對之間生成了近乎最優分配的嵌入,實現了高達 0.92 的余弦相似性分數、高達 100% 的 top-1 準確率,且矩陣秩(rank)低至 1。
(來源:資料圖)
在相同骨干網絡的配對組合中,vec2vec 甚至能夠接近于借助先知(oracle)的最優分配方案的性能。vec2vec 生成的嵌入向量,比 na?ve 基線更加接近真實值。
在跨主干配對中,vec2vec 在所有指標上都遠勝一籌,而基線方法的表現則與隨機猜測相差無幾。如下圖所示,這種性能甚至可以擴展到分布外數據。
(來源:資料圖)
如前所述,vec2vec 轉換器是在 NQ 數據集上訓練的,但是在 X 推文和醫療記錄上進行評估時,它仍然表現出較高的余弦相似性、較高的準確率以及較低的矩陣秩。
(來源:資料圖)
研究團隊指出,vec2vec 始終優于最優任務基線。這些結果表明,本次方法在適應新模態方面具有潛力,特別是 CLIP 的嵌入空間已經成功與其他模態比如熱圖、音頻和深度圖建立了連接。
使用 vec2vec 轉換來提取信息
研究中,研究團隊證明 vec2vec 轉換不僅保留了嵌入的幾何結構,還保留了足夠的語義以便能夠支持屬性推理。
如下圖所示,對 vec2vec 轉換進行的屬性推理始終優于 na?ve 基線,并且往往比理想的零樣本基線表現更好。需要說明的是,這一理想基線旨在針對同一空間中的真實文檔嵌入和屬性嵌入進行推理。由于在本次研究場景中無法獲得這些嵌入,因此它是一個假設性基線。
(來源:資料圖)
研究團隊表示,vec2vec 轉換甚至適用于醫療記錄的嵌入向量。在同主干配對中,針對轉換后的嵌入進行屬性推理的表現與 na?ve 基線相當,而在跨主干配對中則大幅優于簡單基線。
比如,vec2vec 能夠保留像“牙槽骨骨膜炎”這類概念的語義,而這類概念從未出現在訓練數據中,這證明 vec2vec 的潛在空間確實是一種通用表示。
反演,即重建文本輸入。相比屬性推斷,反演更加具有挑戰性。而 vec2vec 轉換能夠保留足夠的語義信息,以至于就算使用那些“原本為標準編碼器生成的嵌入”而開發的現成零樣本反演方法,也能僅憑轉換后的嵌入,來從一些模型對中重建多達 80% 的文檔內容。
(來源:資料圖)
當然,這些反演并不完美。研究團隊表示,他們將在未來針對轉換后嵌入開發專門的反演器??偟膩碚f,本次研究證明所有語言模型都會收斂于相同的“通用意義幾何”,從而將給向量數據庫的發展帶來一定影響。
參考資料:
https://arxiv.org/pdf/2505.12540
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.