來源:量子位 | 公眾號 QbitAI
時令 發自 凹非寺
AI無需監督就能學習思考?
弗吉尼亞大學團隊最新提出EBT(Energy-Based Transformers)架構,通過全新能量機制,首次實現在跨模態以及數據、參數、計算量和模型深度等多個維度全面超越Transformer++(基于Llama 2的Transformer優化版本)的模型。
在離散(文本)和連續(視覺)模態下,EBT在數據量、批次大小、參數量、計算量和模型深度等方面比Transformer++提升了約35%。
在推理過程中,EBT在測試時也比Transformer++提高了29%。
那么,這種模擬人類思考模式的新架構EBT,到底是如何實現的呢?
EBT方法:基于能量的Transformer
EBT通過能量最小化過程模擬思考:從隨機預測開始,通過梯度下降反復優化,直到能量收斂,從而動態決定“思考步數”。
這讓模型具備了像人類一樣“想清楚再回答”的能力。
EBT是基于EBM(Energy-Based Models)原理發展而來的具體模型架構。
它通過學習一個能量函數,為每一種輸入配置分配一個標量值。
能量越低,表示輸入變量之間的兼容性或概率越高;能量越高,則表示兼容性或概率越低。
因此,這個能量函數可以被視為對輸入數據一致性的驗證器。
雖然EBM提供了靈活的建模框架,但如何實現大規模訓練仍是一個未解決的研究難題。
目前主要有兩種訓練方法——對比學習法和正則化方法。
由于維度災難問題,對比方法難以擴展。
為此,研究人員將EBM學習轉化為一個優化問題,通過隱式正則化能量空間,有效避免了維度災難,實現了可擴展的學習。
在這種方法中,EBM通過梯度下降將初始預測優化到真實解。
Transformer因其并行性、穩定性和可擴展性優勢,成為EBM的理想架構。
基于此,研究者提出了EBT,包括兩種變體:
受GPT啟發的解碼器單向EBT,可用于自回歸建模;
具備雙向注意力的雙向EBT,支持填充和掩碼建模。
雙向EBT實現較簡單,而自回歸EBT因信息泄漏問題實現較復雜。
EBT全方面優于Transformer++
研究者針對六個不同維度進行了擴展實驗——包括數據量、批量大小、網絡深度、參數量、計算量(FLOPs)和嵌入維度。
在所有這些維度上,EBT一致優于Transformer++,成為首個在不更換分詞器的情況下實現多維度超越Transformer++的模型。
其次,隨著訓練時間的增加,EBT的思考能力也不斷提升,其通過驗證獲得的性能提升從4%?8%增加到10%?14%。
此外,EBT超越Transformer++的優勢不僅限于單一模態,研究人員在視頻任務中同樣驗證了這一點。
研究者還將EBT與擴散模型在相對簡單的圖像去噪任務上進行了比較,結果顯示EBT在性能上優于擴散模型,同時所需的前向計算次數減少了99%。
EBT通過引入基于能量的優化機制,為系統2思維的實現提供了新的思路,展現出良好的擴展性和較強的泛化能力。
作者介紹
論文一作Alexi Gladstone是一位專注于“系統2思維”、能量基模型(EBM)及多模態學習方向的AI研究者,目前就讀于伊利諾伊大學厄本那-香檳分校(UIUC)。
2025 年,他在學術界取得了令人矚目的成績:
NSF 研究生研究獎學金;
ICML 2025的最佳審稿人;
Meta研究科學家實習。
他工作之余喜歡鍛煉、爬山和跑步,也熱衷于探索認知科學、計算神經科學、物理學和心理學等多個學科領域。
內心深處,他是一名哲學科學家,始終在追尋對我們所處宇宙的更深理解。
作者之一Yilun?Du(杜逸倫)是一位活躍在生成模型與具身智能領域的人工智能研究者,現任哈佛大學肯普納研究所的助理教授,同時也是Google DeepMind的高級研究科學家。
他本科和博士均畢業于麻省理工大學,曾在OpenAI、FAIR和DeepMind等頂尖研究機構工作,并在國際生物學奧林匹克競賽中獲得金牌。
他的研究核心目標是構建能夠在物理世界中進行推理與決策的智能體,主要聚焦于利用生成式AI構建世界模型,將系統規劃與迭代推理自然融入只能體的學習過程中。
面對數據有限和泛化需求高的挑戰,他提出以能量基模型(EBM)為基礎,構建可組合的生成模型,有效突破對大量標注數據的依賴。
論文鏈接:https://arxiv.org/abs/2507.02092
參考鏈接:
https://x.com/du_yilun/status/1942236593479102757
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.