鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
無需任何配對數據,就能實現文本嵌入的模型空間轉換?!
曾因llya離職OpenAI,在互聯網上掀起討論颶風的柏拉圖表示假說提出:
所有足夠大規模的圖像模型都具有相同的潛在表示。
那么是否存在針對文本模型的通用潛在結構呢?
康奈爾大學現在給出了Plus版答案——vec2vec,首個無監督文本嵌入的跨向量空間轉換方法。
利用共享潛在空間,不僅保留嵌入結構和底層輸入語義,還能夠反推提取嵌入信息。
vec2vec在目標嵌入空間中與真實向量的余弦相似度高達0.92,并在超過8000個隨機打亂的嵌入上實現完美匹配,揭示了所有編碼器在不同架構或訓練數據下都擁有幾乎相同的表示形式。
具體內容,接下來我們一一拆解。
增強版柏拉圖表示假說
文本嵌入作為NLP的核心技術,存在許多基于不同數據集、數據洗牌方式和初始化的嵌入模型。
但不同模型之間由于訓練數據、架構不同,生成的嵌入向量空間完全不兼容,無法直接進行對齊。
于是團隊從柏拉圖表示假說中汲取靈感,提出強柏拉圖表示假說(S-PRH):
- 使用相同目標和模態、但不同數據及模型架構訓練的神經網絡,會收斂到一個通用潛在空間,使得無需任何成對對應關系,即可學習到它們表征之間的轉換關系。
vec2vec就是在此基礎上構建,核心思想就是學習和利用文本表示的通用潛在結構,實現表征的嵌入空間轉移,而無需任何成對的數據或編碼器。
vec2vec采用模塊化架構,其中嵌入向量通過特定空間的適配器模塊進行編碼和解碼,并經過共享主干網絡完成傳遞。
與圖像不同,由于嵌入向量不具有空間偏向性,因此采用帶有殘差連接、層歸一化和SiLU非線性激活函數的多層感知機(MLP)替代CNN。
為了確保轉換后的向量保留嵌入語義和幾何結構,還引入了以下損失函數進行優化:
- 對抗性損失:鼓勵生成的嵌入在嵌入層和潛在層均匹配原始嵌入的經驗分布。
- 重建損失:強制嵌入在映射到潛在空間并返回原始空間后與初始表示高度一致。
- 循環一致性損失:作為無監督的配對對齊代理,確保能夠嵌入轉換并返回時損失最小。
- 向量空間保持損失:確保翻譯后生成嵌入的成對關系保持一致。
實驗結果
團隊使用三個指標衡量轉換質量:
- 平均余弦相似度:衡量轉換結果與目標的平均接近程度。
- Top-1準確率:轉換結果的目標是最近鄰的比例。
- 平均排名:目標相對于轉換結果的平均排名。
如圖所示,在自然問題(NQ)數據集上,vec2vec在相同主干模型配對(如GTE與E5)中達到接近1.0的Top-1準確率,顯著優于基線。
vec2vec在分布外數據(如推文和醫療記錄)上也表現穩健。例如,在TweetTopic上,GTE到Stella的余弦相似度達0.92,Top-1準確率100%。
下表也驗證了vec2vec在單模態與多模態嵌入(如CLIP)中的轉換潛力。
同時實驗也證明,vec2vec不僅可以保留嵌入的幾何結構,還保留足夠的語義以實現屬性推斷。
在某些模型配對中,80%的文檔可通過零樣本反演恢復內容,盡管結果還并不完美,但也再次證明嵌入幾乎與其輸入一樣體現高保真的語義信息。
以上有關vec2vec的實驗結果,為強柏拉圖表示假說提供了有力證據,針對CLIP的結果也初步表明可以適用于其他模態。
誠然,這將有助于跨系統訪問信息,具有巨大的知識共享潛力,但隨之而來的安全風險也必須考慮其中。
僅通過嵌入向量就可實現語義信息轉換的能力,將會讓底層文本的敏感信息更容易受到惡意提取和攻擊,威脅向量數據庫安全。
這對數據安全來說既是突破也是挑戰,那么你對此有什么看法呢?歡迎在評論區留言討論~
論文鏈接:https://arxiv.org/abs/2505.12540
參考鏈接:
[1]https://x.com/rishi_d_jha/status/1925212069168910340
[2]https://x.com/jxmnop/status/1925224612872233081
[3]https://www.youtube.com/watch?v=eJpfoDENSBc
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.