99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

科學家驗證強柏拉圖表征假說,證明模型會收斂于相同通用意義幾何

0
分享至

2024 年,美國麻省理工學院團隊曾提出“柏拉圖表征假說”(Platonic Representation Hypothesis),該假說推測現代神經網絡的表征空間正在趨于收斂。即不同的 AI 模型正在趨向于一個統一的現實表征。就像在柏拉圖洞穴寓言中囚犯們看到的影子是現實的投影一樣,正在不斷迭代的 AI 模型也開始理解投影背后更高維度的現實。當時,相關論文還曾獲得前 OpenAI 首席科學家伊利亞·蘇茨克維(Ilya Sutskever)的點贊。

2025 年 5 月,在上述基礎之上,美國康奈爾大學博士生張睿杰和所在研究團隊提出“強柏拉圖表征假說”(Strong Platonic Representation ypothesis),即潛在的通用表征是可以被學習并加以利用的,也能在無需任何編碼器或成對數據的情況下實現表征空間之間的轉換。


圖 | 張睿杰(來源:https://collinzrj.github.io/)

研究中,他們還提出一種名為 vec2vec 的新方法,這是一種能將文本嵌入從一個向量空間轉換到另一個向量空間的方法。其表示這也是第一種無需任何配對數據、編碼器或預定義匹配集即可實現上述能力的方法。

也就是說,作為一種無監督方法,vec2vec 能將任意嵌入與“柏拉圖表征假說”推測的通用語義結構進行雙向轉換。

具體來說,vec2vec 能夠轉換由未知編碼器生成的未知文檔嵌入,并且對于分布外的輸入具有魯棒性。哪怕模型架構、參數規模和訓練數據各不相同,vec2vec 在模型對之間仍能實現高度的余弦相似度。在保留未知嵌入幾何結構的同時,該方法能夠將其轉換到不同空間。

換言之,vec2vec 能夠學習“與領域無關”的轉換,這一能力主要基于不同嵌入空間中表示相同語義時所通用的幾何結構關系。同時,研究團隊還證明 vec2vec 轉換能夠保留足夠的輸入語義,從而支持屬性推理。

此外,他們從一些患者記錄和企業郵件中提取了一些敏感疾病信息和其他相關內容,不過他們僅僅訪問了文檔嵌入,并未接觸生成這些嵌入的編碼器。

通過本次研究他們發現,更好的轉換方法將能實現更高保真度的信息提取,這再次印證了一個事實:嵌入所揭示的信息幾乎與其輸入內容一樣多。

因此,此次發現能為基于文本的模型的“強柏拉圖表征假說”提供令人信服的證據。

基于 OpenAI 幾年前推出的“對比語言 - 圖像預訓練”(CLIP,Contrastive Language - Image Pretraining)模型,本次研究的初步實驗結果表明,通用幾何結構也可用于其他模態。

需要說明的是,本次成果僅僅是表征間轉換的一個下限。隨著更好、更穩定的學習算法的面世,以及相關架構的改進,預計本次成果將能擴展到更多數據、更多模型家族和更多模態之中。



余弦相似度高達 0.92

據了解,文本嵌入是現代自然語言處理(NLP,Natural Language Processing)的核心,它能為檢索、檢索增強生成(RAG,Retrieval-Augmented Generation)、分類和聚類等任務提供支持。

對于許多嵌入模型來說,它們是在不同數據集、不同數據打亂方式和不同初始化條件下訓練而來的。

文本的嵌入編碼了其語義信息:一個優秀的模型會將語義相近的文本,映射到嵌入空間中彼此接近的向量上。由于語義是文本的屬性,同一文本的不同嵌入應該編碼相同的語義。

然而,在實踐中,不同的模型會將文本編碼到完全不同且不兼容的向量空間中。

此前,由麻省理工學院團隊提出的“柏拉圖表征假說”推測:所有足夠大的圖像模型都具有相同的潛在表征。針對文本模型,本次研究團隊提出了該假說的一個更強的建設性版本:文本表征的通用潛在結構是可以被學習的,并能進一步地在無需任何配對數據或編碼器的情況下,利用該結構將表征從一個空間轉換到另一個空間。

在這項工作中,研究團隊證明強柏拉圖表征假說在實踐中是成立的。通過給定來自兩個具有不同架構和訓練數據的模型的未配對嵌入示例,他們使用 vec2vec 學習了一個潛在表征,其中這些嵌入幾乎完全相同。


(來源:資料圖)

研究中,他們從跨語言詞嵌入對齊研究和無監督圖像翻譯研究中汲取靈感。據介紹,vec2vec 使用對抗性損失和循環一致性,來學習將嵌入編碼到共享潛在空間中,并能以最小的損失進行解碼,這使得無監督轉換成為了可能。

同時,研究團隊采用了一種對抗性方法,并結合向量空間保持技術,來學習如何將未知嵌入分布映射到已知分布。

通過此,他們發現 vec2vec 轉換在目標嵌入空間中與真實向量的余弦相似度高達 0.92,并且在 8000 多個隨機排列的 vec2vec 嵌入上實現了完美匹配,而且無需預先訪問匹配集合。為了證明上述轉換同時保留了“嵌入的相對幾何結構”和“底層輸入的語義”,他們在完全不了解生成原始嵌入模型的情況下,使用零樣本的屬性開展推斷和反演,并從這些向量中成功提取到了信息。



無監督嵌入轉換

據了解,關于嵌入向量集之間的匹配問題或對應問題,已經有大量的研究。但是,這些方法都不適用于本次研究的設置,因為此前研究假設存在由不同編碼器從相同輸入產生的兩組或更多組的嵌入向量。

換句話說,對于每個未知向量來說,必須已經存在另一組不同嵌入空間中的候選向量,其中有一個是正確匹配項。

但是,在實際應用中,很難獲得這樣的數據庫。研究團隊表示,他們之所以認為無監督嵌入轉換是可行的,是因為它完全取決于更強版本的柏拉圖表征假說。

為此,他們提出了如下猜想:當使用相同的目標和模態,但是使用不同數據以及由不同模型架構訓練的神經網絡,將會收斂到一個通用的潛在空間,從而在無需任何成對對應關系的情況下,即可學習各自表征之間的轉換。

在計算機視覺領域,結合了循環一致性和對抗正則化的無監督轉換已經取得成功。因此,研究團隊在 vec2vec 的設計上,也從這些方法中獲得了一些啟發。

與此同時,他們希望實現具有循環一致性和不可區分性的嵌入空間轉換。與圖像不同的是,嵌入向量不具有任何空間偏差。

研究中,研究團隊并沒有使用卷積神經網絡(CNN,Convolutional Neural Network),而是采用了具有殘差連接、層歸一化和 SiLU 非線性激活函數的多層感知機(MLP,Multilayer Perceptron)。在判別器上則采用了與生成器類似的結構,但是省略了殘差連接,以便讓對抗學習過程得到簡化。



無需任何配對數據,就能學習轉換嵌入向量

在數據集上,研究團隊使用了由真實用戶查詢的自然問題(NQ,Natural Questions)數據集,并使用了由維基百科答案訓練的數據集。

為了針對信息提取進行評估:

首先,他們使用了 TweetTopic,這是一個由 19 個主題組成的、有著多標簽標記的推文數據集。

其次,他們使用了偽重新識別的 MIMIC-III(MIMIC)的隨機 8192 個記錄子集,并使用了由 2673 個 MedCAT 疾病描述多重標記的患者記錄的 MIMIC 數據集的偽重新識別版本。

再次,他們使用了已經倒閉的能源公司安然(Enron)的電子郵件語料庫的 50 封隨機電子郵件子集,這也是一個未標記的公共數據集。

在模型上,研究團隊使用了代表三種規模類別、四種 Transformer 主干架構和兩種輸出維度的嵌入模型。其中,Granite 是多語言模型,CLIP 是多模態模型。


(來源:資料圖)

實驗中,他們證明 vec2vec 能夠學習一個通用的潛在空間,并證明這個空間保留了所有嵌入的幾何結構。這讓他們可以將其用作一種文本編碼器的通用語言,并且無需任何配對數據就能轉換其表征。

實驗結果顯示,vec2vec 轉換能夠反映目標空間的幾何結構。如下圖所示,vec2vec 在模型對之間生成了近乎最優分配的嵌入,實現了高達 0.92 的余弦相似性分數、高達 100% 的 top-1 準確率,且矩陣秩(rank)低至 1。


(來源:資料圖)

在相同骨干網絡的配對組合中,vec2vec 甚至能夠接近于借助先知(oracle)的最優分配方案的性能。vec2vec 生成的嵌入向量,比 na?ve 基線更加接近真實值。

在跨主干配對中,vec2vec 在所有指標上都遠勝一籌,而基線方法的表現則與隨機猜測相差無幾。如下圖所示,這種性能甚至可以擴展到分布外數據。


(來源:資料圖)

如前所述,vec2vec 轉換器是在 NQ 數據集上訓練的,但是在 X 推文和醫療記錄上進行評估時,它仍然表現出較高的余弦相似性、較高的準確率以及較低的矩陣秩。


(來源:資料圖)

研究團隊指出,vec2vec 始終優于最優任務基線。這些結果表明,本次方法在適應新模態方面具有潛力,特別是 CLIP 的嵌入空間已經成功與其他模態比如熱圖、音頻和深度圖建立了連接。



使用 vec2vec 轉換來提取信息

研究中,研究團隊證明 vec2vec 轉換不僅保留了嵌入的幾何結構,還保留了足夠的語義以便能夠支持屬性推理。

如下圖所示,對 vec2vec 轉換進行的屬性推理始終優于 na?ve 基線,并且往往比理想的零樣本基線表現更好。需要說明的是,這一理想基線旨在針對同一空間中的真實文檔嵌入和屬性嵌入進行推理。由于在本次研究場景中無法獲得這些嵌入,因此它是一個假設性基線。


(來源:資料圖)

研究團隊表示,vec2vec 轉換甚至適用于醫療記錄的嵌入向量。在同主干配對中,針對轉換后的嵌入進行屬性推理的表現與 na?ve 基線相當,而在跨主干配對中則大幅優于簡單基線。

比如,vec2vec 能夠保留像“牙槽骨骨膜炎”這類概念的語義,而這類概念從未出現在訓練數據中,這證明 vec2vec 的潛在空間確實是一種通用表示。

反演,即重建文本輸入。相比屬性推斷,反演更加具有挑戰性。而 vec2vec 轉換能夠保留足夠的語義信息,以至于就算使用那些“原本為標準編碼器生成的嵌入”而開發的現成零樣本反演方法,也能僅憑轉換后的嵌入,來從一些模型對中重建多達 80% 的文檔內容。


(來源:資料圖)

當然,這些反演并不完美。研究團隊表示,他們將在未來針對轉換后嵌入開發專門的反演器。總的來說,本次研究證明所有語言模型都會收斂于相同的“通用意義幾何”,從而將給向量數據庫的發展帶來一定影響。

參考資料:

https://arxiv.org/pdf/2505.12540

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
安泰科技:公司難熔合金、稀土永磁等多項產品應用于航空航天等相關產業

安泰科技:公司難熔合金、稀土永磁等多項產品應用于航空航天等相關產業

每日經濟新聞
2025-06-15 21:00:45
95年我在路上撿個女乞丐結成夫妻,洞房夜我才知道,她的真實身份

95年我在路上撿個女乞丐結成夫妻,洞房夜我才知道,她的真實身份

球場的看客
2025-06-05 19:52:12
東北大妞為丹麥男友生遺腹子,回國給媽買125萬房,被母親擺一道

東北大妞為丹麥男友生遺腹子,回國給媽買125萬房,被母親擺一道

面包夾知識
2025-06-15 12:55:51
搞不好成為第二個烏克蘭?美國防長放話:中國敢動手,美國就下場

搞不好成為第二個烏克蘭?美國防長放話:中國敢動手,美國就下場

林子說事
2025-06-14 16:22:58
中俄東北虎數量差距斷崖:俄羅斯700只,中國的數量令人意外!

中俄東北虎數量差距斷崖:俄羅斯700只,中國的數量令人意外!

阿紿聊社會
2025-02-26 15:08:35
是什么把老百姓辛苦幾十年積攢的資產吞噬殆盡?

是什么把老百姓辛苦幾十年積攢的資產吞噬殆盡?

慢看世界
2025-06-07 16:16:30
印度放話想要退出金磚組織,拉夫羅夫作出最新表態

印度放話想要退出金磚組織,拉夫羅夫作出最新表態

行走的知識庫
2025-06-15 16:37:52
隨著無錫2-0常州,徐州1-0絕殺&蘇州1-1,江蘇城市足球聯賽積出爐

隨著無錫2-0常州,徐州1-0絕殺&蘇州1-1,江蘇城市足球聯賽積出爐

阿覽
2025-06-16 00:05:54
養老院也開始退場了,到2025年后,將迎來很多養老院的“閉院潮”

養老院也開始退場了,到2025年后,將迎來很多養老院的“閉院潮”

天氣觀察站
2025-06-10 14:33:49
大量自燃事故后,某車企終于召回!

大量自燃事故后,某車企終于召回!

電動知家
2025-06-14 10:56:51
正大量上市!女子僅吃了兩顆,眼睛差點看不見,有人吃到搶救

正大量上市!女子僅吃了兩顆,眼睛差點看不見,有人吃到搶救

春序娛樂
2025-06-14 15:51:09
被蚊子叮得越多越狠,說明身體越健康?這是啥道理?醫生告訴你

被蚊子叮得越多越狠,說明身體越健康?這是啥道理?醫生告訴你

明月聊史
2025-06-14 17:32:10
伊朗一句話,直接判了以色列“死刑”,中國勸、普京哄,都白搭了

伊朗一句話,直接判了以色列“死刑”,中國勸、普京哄,都白搭了

奉壹數碼
2025-06-15 22:55:46
半場-巴黎2-0馬競 法比安、維蒂尼亞破門克瓦拉茨赫利亞兩助攻

半場-巴黎2-0馬競 法比安、維蒂尼亞破門克瓦拉茨赫利亞兩助攻

直播吧
2025-06-16 03:55:23
女籃觀察|李夢無緣亞洲杯陣容 宮魯鳴釋放了什么信號?

女籃觀察|李夢無緣亞洲杯陣容 宮魯鳴釋放了什么信號?

狼叔評論
2025-06-16 01:53:10
最新曝光!沈陽這2個單位被臨時查封!

最新曝光!沈陽這2個單位被臨時查封!

沈陽生活圈i
2025-06-15 13:11:23
上海小伙連殺6名警察!判死刑前說:你不給我說法,我就給你說法

上海小伙連殺6名警察!判死刑前說:你不給我說法,我就給你說法

談史論天地
2025-06-13 05:10:06
離婚7年,楊冪高調宣布喜訊,劉愷威終為自己的錯誤買了單!

離婚7年,楊冪高調宣布喜訊,劉愷威終為自己的錯誤買了單!

聚合大娛
2025-06-14 17:40:06
重磅!事關2.3億人的大消息來了!

重磅!事關2.3億人的大消息來了!

胖兔財經
2025-06-15 20:05:53
勝負已分,特朗普被催交兵權,紐森連下3封戰書,美國新總統要出

勝負已分,特朗普被催交兵權,紐森連下3封戰書,美國新總統要出

娛樂的宅急便
2025-06-14 18:11:58
2025-06-16 05:32:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15297文章數 513784關注度
往期回顧 全部

科技要聞

華為Pura80系列首銷:不再嚴重缺貨

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

頭條要聞

以伊導彈互襲三天 位于兩國之間的約旦和伊拉克遭殃

體育要聞

裁判可以噴,但也從步行者自身找找問題?

娛樂要聞

朱丹重男輕女惹爭議!讓弟弟吃雞腿惹怒網友

財經要聞

以伊沖突持續升級,對全球市場影響多大

汽車要聞

一汽豐田bZ5:試圖掀桌的“合資新力量”王牌

態度原創

時尚
藝術
本地
房產
健康

林徽因嫁給梁思成,一半原因在他?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

最近的打工人,都在熬夜看這劇逐幀學習職場小技巧

房產要聞

又一城購房補貼!買房就發錢,正在海南樓市瘋狂擴散!

呼吸科專家破解呼吸道九大謠言!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 称多县| 易门县| 年辖:市辖区| 三亚市| 赤城县| 旬阳县| 临汾市| 唐海县| 扎赉特旗| 炉霍县| 阿坝| 东乡族自治县| 读书| 颍上县| 保康县| 湛江市| 江北区| 资阳市| 谢通门县| 家居| 无为县| 黑龙江省| 黔南| 永平县| 嘉荫县| 扶风县| 四会市| 榕江县| 沐川县| 华容县| 宁化县| 铁力市| 荔波县| 含山县| 湟中县| 阳朔县| 九江县| 山阳县| 丰城市| 旬邑县| 蒙城县|