99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

科學家驗證強柏拉圖表征假說,證明模型會收斂于相同通用意義幾何

0
分享至

2024 年,美國麻省理工學院團隊曾提出“柏拉圖表征假說”(Platonic Representation Hypothesis),該假說推測現代神經網絡的表征空間正在趨于收斂。即不同的 AI 模型正在趨向于一個統一的現實表征。就像在柏拉圖洞穴寓言中囚犯們看到的影子是現實的投影一樣,正在不斷迭代的 AI 模型也開始理解投影背后更高維度的現實。當時,相關論文還曾獲得前 OpenAI 首席科學家伊利亞·蘇茨克維(Ilya Sutskever)的點贊。

2025 年 5 月,在上述基礎之上,美國康奈爾大學博士生張睿杰和所在研究團隊提出“強柏拉圖表征假說”(Strong Platonic Representation ypothesis),即潛在的通用表征是可以被學習并加以利用的,也能在無需任何編碼器或成對數據的情況下實現表征空間之間的轉換。


圖 | 張睿杰(來源:https://collinzrj.github.io/)

研究中,他們還提出一種名為 vec2vec 的新方法,這是一種能將文本嵌入從一個向量空間轉換到另一個向量空間的方法。其表示這也是第一種無需任何配對數據、編碼器或預定義匹配集即可實現上述能力的方法。

也就是說,作為一種無監督方法,vec2vec 能將任意嵌入與“柏拉圖表征假說”推測的通用語義結構進行雙向轉換。

具體來說,vec2vec 能夠轉換由未知編碼器生成的未知文檔嵌入,并且對于分布外的輸入具有魯棒性。哪怕模型架構、參數規模和訓練數據各不相同,vec2vec 在模型對之間仍能實現高度的余弦相似度。在保留未知嵌入幾何結構的同時,該方法能夠將其轉換到不同空間。

換言之,vec2vec 能夠學習“與領域無關”的轉換,這一能力主要基于不同嵌入空間中表示相同語義時所通用的幾何結構關系。同時,研究團隊還證明 vec2vec 轉換能夠保留足夠的輸入語義,從而支持屬性推理。

此外,他們從一些患者記錄和企業郵件中提取了一些敏感疾病信息和其他相關內容,不過他們僅僅訪問了文檔嵌入,并未接觸生成這些嵌入的編碼器。

通過本次研究他們發現,更好的轉換方法將能實現更高保真度的信息提取,這再次印證了一個事實:嵌入所揭示的信息幾乎與其輸入內容一樣多。

因此,此次發現能為基于文本的模型的“強柏拉圖表征假說”提供令人信服的證據。

基于 OpenAI 幾年前推出的“對比語言 - 圖像預訓練”(CLIP,Contrastive Language - Image Pretraining)模型,本次研究的初步實驗結果表明,通用幾何結構也可用于其他模態。

需要說明的是,本次成果僅僅是表征間轉換的一個下限。隨著更好、更穩定的學習算法的面世,以及相關架構的改進,預計本次成果將能擴展到更多數據、更多模型家族和更多模態之中。



余弦相似度高達 0.92

據了解,文本嵌入是現代自然語言處理(NLP,Natural Language Processing)的核心,它能為檢索、檢索增強生成(RAG,Retrieval-Augmented Generation)、分類和聚類等任務提供支持。

對于許多嵌入模型來說,它們是在不同數據集、不同數據打亂方式和不同初始化條件下訓練而來的。

文本的嵌入編碼了其語義信息:一個優秀的模型會將語義相近的文本,映射到嵌入空間中彼此接近的向量上。由于語義是文本的屬性,同一文本的不同嵌入應該編碼相同的語義。

然而,在實踐中,不同的模型會將文本編碼到完全不同且不兼容的向量空間中。

此前,由麻省理工學院團隊提出的“柏拉圖表征假說”推測:所有足夠大的圖像模型都具有相同的潛在表征。針對文本模型,本次研究團隊提出了該假說的一個更強的建設性版本:文本表征的通用潛在結構是可以被學習的,并能進一步地在無需任何配對數據或編碼器的情況下,利用該結構將表征從一個空間轉換到另一個空間。

在這項工作中,研究團隊證明強柏拉圖表征假說在實踐中是成立的。通過給定來自兩個具有不同架構和訓練數據的模型的未配對嵌入示例,他們使用 vec2vec 學習了一個潛在表征,其中這些嵌入幾乎完全相同。


(來源:資料圖)

研究中,他們從跨語言詞嵌入對齊研究和無監督圖像翻譯研究中汲取靈感。據介紹,vec2vec 使用對抗性損失和循環一致性,來學習將嵌入編碼到共享潛在空間中,并能以最小的損失進行解碼,這使得無監督轉換成為了可能。

同時,研究團隊采用了一種對抗性方法,并結合向量空間保持技術,來學習如何將未知嵌入分布映射到已知分布。

通過此,他們發現 vec2vec 轉換在目標嵌入空間中與真實向量的余弦相似度高達 0.92,并且在 8000 多個隨機排列的 vec2vec 嵌入上實現了完美匹配,而且無需預先訪問匹配集合。為了證明上述轉換同時保留了“嵌入的相對幾何結構”和“底層輸入的語義”,他們在完全不了解生成原始嵌入模型的情況下,使用零樣本的屬性開展推斷和反演,并從這些向量中成功提取到了信息。



無監督嵌入轉換

據了解,關于嵌入向量集之間的匹配問題或對應問題,已經有大量的研究。但是,這些方法都不適用于本次研究的設置,因為此前研究假設存在由不同編碼器從相同輸入產生的兩組或更多組的嵌入向量。

換句話說,對于每個未知向量來說,必須已經存在另一組不同嵌入空間中的候選向量,其中有一個是正確匹配項。

但是,在實際應用中,很難獲得這樣的數據庫。研究團隊表示,他們之所以認為無監督嵌入轉換是可行的,是因為它完全取決于更強版本的柏拉圖表征假說。

為此,他們提出了如下猜想:當使用相同的目標和模態,但是使用不同數據以及由不同模型架構訓練的神經網絡,將會收斂到一個通用的潛在空間,從而在無需任何成對對應關系的情況下,即可學習各自表征之間的轉換。

在計算機視覺領域,結合了循環一致性和對抗正則化的無監督轉換已經取得成功。因此,研究團隊在 vec2vec 的設計上,也從這些方法中獲得了一些啟發。

與此同時,他們希望實現具有循環一致性和不可區分性的嵌入空間轉換。與圖像不同的是,嵌入向量不具有任何空間偏差。

研究中,研究團隊并沒有使用卷積神經網絡(CNN,Convolutional Neural Network),而是采用了具有殘差連接、層歸一化和 SiLU 非線性激活函數的多層感知機(MLP,Multilayer Perceptron)。在判別器上則采用了與生成器類似的結構,但是省略了殘差連接,以便讓對抗學習過程得到簡化。



無需任何配對數據,就能學習轉換嵌入向量

在數據集上,研究團隊使用了由真實用戶查詢的自然問題(NQ,Natural Questions)數據集,并使用了由維基百科答案訓練的數據集。

為了針對信息提取進行評估:

首先,他們使用了 TweetTopic,這是一個由 19 個主題組成的、有著多標簽標記的推文數據集。

其次,他們使用了偽重新識別的 MIMIC-III(MIMIC)的隨機 8192 個記錄子集,并使用了由 2673 個 MedCAT 疾病描述多重標記的患者記錄的 MIMIC 數據集的偽重新識別版本。

再次,他們使用了已經倒閉的能源公司安然(Enron)的電子郵件語料庫的 50 封隨機電子郵件子集,這也是一個未標記的公共數據集。

在模型上,研究團隊使用了代表三種規模類別、四種 Transformer 主干架構和兩種輸出維度的嵌入模型。其中,Granite 是多語言模型,CLIP 是多模態模型。


(來源:資料圖)

實驗中,他們證明 vec2vec 能夠學習一個通用的潛在空間,并證明這個空間保留了所有嵌入的幾何結構。這讓他們可以將其用作一種文本編碼器的通用語言,并且無需任何配對數據就能轉換其表征。

實驗結果顯示,vec2vec 轉換能夠反映目標空間的幾何結構。如下圖所示,vec2vec 在模型對之間生成了近乎最優分配的嵌入,實現了高達 0.92 的余弦相似性分數、高達 100% 的 top-1 準確率,且矩陣秩(rank)低至 1。


(來源:資料圖)

在相同骨干網絡的配對組合中,vec2vec 甚至能夠接近于借助先知(oracle)的最優分配方案的性能。vec2vec 生成的嵌入向量,比 na?ve 基線更加接近真實值。

在跨主干配對中,vec2vec 在所有指標上都遠勝一籌,而基線方法的表現則與隨機猜測相差無幾。如下圖所示,這種性能甚至可以擴展到分布外數據。


(來源:資料圖)

如前所述,vec2vec 轉換器是在 NQ 數據集上訓練的,但是在 X 推文和醫療記錄上進行評估時,它仍然表現出較高的余弦相似性、較高的準確率以及較低的矩陣秩。


(來源:資料圖)

研究團隊指出,vec2vec 始終優于最優任務基線。這些結果表明,本次方法在適應新模態方面具有潛力,特別是 CLIP 的嵌入空間已經成功與其他模態比如熱圖、音頻和深度圖建立了連接。



使用 vec2vec 轉換來提取信息

研究中,研究團隊證明 vec2vec 轉換不僅保留了嵌入的幾何結構,還保留了足夠的語義以便能夠支持屬性推理。

如下圖所示,對 vec2vec 轉換進行的屬性推理始終優于 na?ve 基線,并且往往比理想的零樣本基線表現更好。需要說明的是,這一理想基線旨在針對同一空間中的真實文檔嵌入和屬性嵌入進行推理。由于在本次研究場景中無法獲得這些嵌入,因此它是一個假設性基線。


(來源:資料圖)

研究團隊表示,vec2vec 轉換甚至適用于醫療記錄的嵌入向量。在同主干配對中,針對轉換后的嵌入進行屬性推理的表現與 na?ve 基線相當,而在跨主干配對中則大幅優于簡單基線。

比如,vec2vec 能夠保留像“牙槽骨骨膜炎”這類概念的語義,而這類概念從未出現在訓練數據中,這證明 vec2vec 的潛在空間確實是一種通用表示。

反演,即重建文本輸入。相比屬性推斷,反演更加具有挑戰性。而 vec2vec 轉換能夠保留足夠的語義信息,以至于就算使用那些“原本為標準編碼器生成的嵌入”而開發的現成零樣本反演方法,也能僅憑轉換后的嵌入,來從一些模型對中重建多達 80% 的文檔內容。


(來源:資料圖)

當然,這些反演并不完美。研究團隊表示,他們將在未來針對轉換后嵌入開發專門的反演器??偟膩碚f,本次研究證明所有語言模型都會收斂于相同的“通用意義幾何”,從而將給向量數據庫的發展帶來一定影響。

參考資料:

https://arxiv.org/pdf/2505.12540

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
國米不裝了,5000萬競價意甲羅德里,夏轉本土化年輕化他們全都要

國米不裝了,5000萬競價意甲羅德里,夏轉本土化年輕化他們全都要

體育全天候
2025-05-28 22:08:52
成都女生遇害案后續,母親堅決要求死刑,首位明星發聲:不想沉默

成都女生遇害案后續,母親堅決要求死刑,首位明星發聲:不想沉默

史行途
2025-05-28 15:29:29
保羅獲贈控衛之神夾克!細節滿滿、濃縮了保羅傳奇的職業生涯!

保羅獲贈控衛之神夾克!細節滿滿、濃縮了保羅傳奇的職業生涯!

籃球大圖
2025-05-28 09:09:35
華為員工:買我房的北漂好友微信刪了,他虧了100多萬

華為員工:買我房的北漂好友微信刪了,他虧了100多萬

螞蟻大喇叭
2025-05-28 18:52:36
萊斯特城降級后宣布與11名球員解約,包括瓦爾迪

萊斯特城降級后宣布與11名球員解約,包括瓦爾迪

星耀國際足壇
2025-05-28 23:18:32
武漢一網紅大橋下被圍起來收費,進去100塊還必須消費?當地:收押金,出來全退

武漢一網紅大橋下被圍起來收費,進去100塊還必須消費?當地:收押金,出來全退

瀟湘晨報
2025-05-27 20:44:09
斯洛特當選英超賽季最佳主帥,利物浦包攬本賽季三項大獎

斯洛特當選英超賽季最佳主帥,利物浦包攬本賽季三項大獎

懂球帝
2025-05-29 01:51:12
費內巴切新主席候選人:穆里尼奧已經沒機會留在歐洲賽場了

費內巴切新主席候選人:穆里尼奧已經沒機會留在歐洲賽場了

懂球帝
2025-05-28 10:49:14
太原大超市迎來閉店潮,老牌退出改造新銳拓展,城北上演三國大戰

太原大超市迎來閉店潮,老牌退出改造新銳拓展,城北上演三國大戰

說故事的阿襲
2025-05-29 01:53:12
打扮的干干凈凈的阿姨難道沒人喜歡嗎

打扮的干干凈凈的阿姨難道沒人喜歡嗎

美女穿搭分享
2025-05-28 12:32:12
《藏海傳》26集: 藏海誤判,香暗荼身份曝光,曹靜賢 平津侯廝殺

《藏海傳》26集: 藏海誤判,香暗荼身份曝光,曹靜賢 平津侯廝殺

小椰的奶奶
2025-05-29 01:48:04
日本東京和大阪成今年夏天全球最熱門的旅游目的地

日本東京和大阪成今年夏天全球最熱門的旅游目的地

隨波蕩漾的漂流瓶
2025-05-26 17:28:02
美國的穩定幣法案通過了,這是美國當局非常好的一步棋

美國的穩定幣法案通過了,這是美國當局非常好的一步棋

流蘇晚晴
2025-05-27 18:44:47
32歲小黃斷崖式衰老引熱議,多少婚姻輸在你連自己都不愛

32歲小黃斷崖式衰老引熱議,多少婚姻輸在你連自己都不愛

二月侃事
2025-05-05 08:33:57
中國人身上為什么沒有異味?網友:物競天擇優勝劣汰,老祖宗嚴選

中國人身上為什么沒有異味?網友:物競天擇優勝劣汰,老祖宗嚴選

特約前排觀眾
2025-05-29 00:10:02
一巴掌把丈夫送上熱搜后,布麗吉特亮相越南國宴,鉆石白裙很優雅

一巴掌把丈夫送上熱搜后,布麗吉特亮相越南國宴,鉆石白裙很優雅

小魚愛魚樂
2025-05-28 18:28:31
孔子第76代孫在美國結婚,妻子厚唇大眼是大馬名媛,兩人網上認識

孔子第76代孫在美國結婚,妻子厚唇大眼是大馬名媛,兩人網上認識

紅色鑒史官
2025-05-28 19:25:03
什么是:氣虛腳先病,血虛頭先病,陰虛右先病,陽虛左先???

什么是:氣虛腳先病,血虛頭先病,陰虛右先病,陽虛左先???

男女那點事兒兒
2025-05-28 13:43:29
俄烏戰局突然反轉,27國決定援烏重器,中國也被拉下水

俄烏戰局突然反轉,27國決定援烏重器,中國也被拉下水

Ck的蜜糖
2025-05-28 16:02:07
特朗普繼續抨擊哈佛 稱其應將國際學生比例限制在不超過15%

特朗普繼續抨擊哈佛 稱其應將國際學生比例限制在不超過15%

新浪財經
2025-05-29 04:09:11
2025-05-29 04:56:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15226文章數 513709關注度
往期回顧 全部

科技要聞

DeepSeek R1完成小版本升級,已可體驗

頭條要聞

美國政府暫停新的留學生簽證面談 留學中介回應

頭條要聞

美國政府暫停新的留學生簽證面談 留學中介回應

體育要聞

東決G4的哈利交出了一場無瑕疵的比賽

娛樂要聞

19歲榮梓杉和混血美女疑似戀情曝光

財經要聞

74歲王石罕見發聲,能為萬科做些什么?

汽車要聞

25萬級純電SUV飛坡 特斯拉Model Y來回跳?

態度原創

健康
房產
親子
手機
旅游

唇皰疹和口腔潰瘍是"同伙"嗎?

房產要聞

看完這份數據,你應該對海南樓市有信心!

親子要聞

動手又動腦的#磁力幾何拼圖,可以鍛煉寶寶邏輯思維能力和空間想象力,提升專注力,孩子越玩越聰明#益智玩...

手機要聞

守護數字生態!蘋果App Store五年阻止90億美元欺詐交易

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 东乌珠穆沁旗| 陆河县| 三明市| 巴南区| 疏勒县| 长阳| 开阳县| 钟祥市| 天水市| 鹤岗市| 清流县| 科尔| 太原市| 洞头县| 广汉市| 班玛县| 遵化市| 胶州市| 呼和浩特市| 溧阳市| 嘉兴市| 穆棱市| 博野县| 林芝县| 太白县| 泾阳县| 益阳市| 盐源县| 江孜县| 石河子市| 班玛县| 津市市| 衡阳县| 永新县| 东明县| 苏尼特左旗| 汉中市| 大埔县| 商水县| 辽源市| 甘肃省|