鷺羽 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
無(wú)需任何配對(duì)數(shù)據(jù),就能實(shí)現(xiàn)文本嵌入的模型空間轉(zhuǎn)換?!
曾因llya離職OpenAI,在互聯(lián)網(wǎng)上掀起討論颶風(fēng)的柏拉圖表示假說(shuō)提出:
所有足夠大規(guī)模的圖像模型都具有相同的潛在表示。
那么是否存在針對(duì)文本模型的通用潛在結(jié)構(gòu)呢?
康奈爾大學(xué)現(xiàn)在給出了Plus版答案——vec2vec,首個(gè)無(wú)監(jiān)督文本嵌入的跨向量空間轉(zhuǎn)換方法。
利用共享潛在空間,不僅保留嵌入結(jié)構(gòu)和底層輸入語(yǔ)義,還能夠反推提取嵌入信息。
vec2vec在目標(biāo)嵌入空間中與真實(shí)向量的余弦相似度高達(dá)0.92,并在超過(guò)8000個(gè)隨機(jī)打亂的嵌入上實(shí)現(xiàn)完美匹配,揭示了所有編碼器在不同架構(gòu)或訓(xùn)練數(shù)據(jù)下都擁有幾乎相同的表示形式。
具體內(nèi)容,接下來(lái)我們一一拆解。
增強(qiáng)版柏拉圖表示假說(shuō)
文本嵌入作為NLP的核心技術(shù),存在許多基于不同數(shù)據(jù)集、數(shù)據(jù)洗牌方式和初始化的嵌入模型。
但不同模型之間由于訓(xùn)練數(shù)據(jù)、架構(gòu)不同,生成的嵌入向量空間完全不兼容,無(wú)法直接進(jìn)行對(duì)齊。
于是團(tuán)隊(duì)從柏拉圖表示假說(shuō)中汲取靈感,提出強(qiáng)柏拉圖表示假說(shuō)(S-PRH):
- 使用相同目標(biāo)和模態(tài)、但不同數(shù)據(jù)及模型架構(gòu)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),會(huì)收斂到一個(gè)通用潛在空間,使得無(wú)需任何成對(duì)對(duì)應(yīng)關(guān)系,即可學(xué)習(xí)到它們表征之間的轉(zhuǎn)換關(guān)系。
vec2vec就是在此基礎(chǔ)上構(gòu)建,核心思想就是學(xué)習(xí)和利用文本表示的通用潛在結(jié)構(gòu),實(shí)現(xiàn)表征的嵌入空間轉(zhuǎn)移,而無(wú)需任何成對(duì)的數(shù)據(jù)或編碼器。
vec2vec采用模塊化架構(gòu),其中嵌入向量通過(guò)特定空間的適配器模塊進(jìn)行編碼和解碼,并經(jīng)過(guò)共享主干網(wǎng)絡(luò)完成傳遞。
與圖像不同,由于嵌入向量不具有空間偏向性,因此采用帶有殘差連接、層歸一化和SiLU非線性激活函數(shù)的多層感知機(jī)(MLP)替代CNN。
為了確保轉(zhuǎn)換后的向量保留嵌入語(yǔ)義和幾何結(jié)構(gòu),還引入了以下?lián)p失函數(shù)進(jìn)行優(yōu)化:
- 對(duì)抗性損失:鼓勵(lì)生成的嵌入在嵌入層和潛在層均匹配原始嵌入的經(jīng)驗(yàn)分布。
- 重建損失:強(qiáng)制嵌入在映射到潛在空間并返回原始空間后與初始表示高度一致。
- 循環(huán)一致性損失:作為無(wú)監(jiān)督的配對(duì)對(duì)齊代理,確保能夠嵌入轉(zhuǎn)換并返回時(shí)損失最小。
- 向量空間保持損失:確保翻譯后生成嵌入的成對(duì)關(guān)系保持一致。
實(shí)驗(yàn)結(jié)果
團(tuán)隊(duì)使用三個(gè)指標(biāo)衡量轉(zhuǎn)換質(zhì)量:
- 平均余弦相似度:衡量轉(zhuǎn)換結(jié)果與目標(biāo)的平均接近程度。
- Top-1準(zhǔn)確率:轉(zhuǎn)換結(jié)果的目標(biāo)是最近鄰的比例。
- 平均排名:目標(biāo)相對(duì)于轉(zhuǎn)換結(jié)果的平均排名。
如圖所示,在自然問(wèn)題(NQ)數(shù)據(jù)集上,vec2vec在相同主干模型配對(duì)(如GTE與E5)中達(dá)到接近1.0的Top-1準(zhǔn)確率,顯著優(yōu)于基線。
vec2vec在分布外數(shù)據(jù)(如推文和醫(yī)療記錄)上也表現(xiàn)穩(wěn)健。例如,在TweetTopic上,GTE到Stella的余弦相似度達(dá)0.92,Top-1準(zhǔn)確率100%。
下表也驗(yàn)證了vec2vec在單模態(tài)與多模態(tài)嵌入(如CLIP)中的轉(zhuǎn)換潛力。
同時(shí)實(shí)驗(yàn)也證明,vec2vec不僅可以保留嵌入的幾何結(jié)構(gòu),還保留足夠的語(yǔ)義以實(shí)現(xiàn)屬性推斷。
在某些模型配對(duì)中,80%的文檔可通過(guò)零樣本反演恢復(fù)內(nèi)容,盡管結(jié)果還并不完美,但也再次證明嵌入幾乎與其輸入一樣體現(xiàn)高保真的語(yǔ)義信息。
以上有關(guān)vec2vec的實(shí)驗(yàn)結(jié)果,為強(qiáng)柏拉圖表示假說(shuō)提供了有力證據(jù),針對(duì)CLIP的結(jié)果也初步表明可以適用于其他模態(tài)。
誠(chéng)然,這將有助于跨系統(tǒng)訪問(wèn)信息,具有巨大的知識(shí)共享潛力,但隨之而來(lái)的安全風(fēng)險(xiǎn)也必須考慮其中。
僅通過(guò)嵌入向量就可實(shí)現(xiàn)語(yǔ)義信息轉(zhuǎn)換的能力,將會(huì)讓底層文本的敏感信息更容易受到惡意提取和攻擊,威脅向量數(shù)據(jù)庫(kù)安全。
這對(duì)數(shù)據(jù)安全來(lái)說(shuō)既是突破也是挑戰(zhàn),那么你對(duì)此有什么看法呢?歡迎在評(píng)論區(qū)留言討論~
論文鏈接:https://arxiv.org/abs/2505.12540
參考鏈接:
[1]https://x.com/rishi_d_jha/status/1925212069168910340
[2]https://x.com/jxmnop/status/1925224612872233081
[3]https://www.youtube.com/watch?v=eJpfoDENSBc
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.