新智元報道
編輯:海貍
【新智元導讀】UIUC、斯坦福與哈佛聯合提出全新「能量驅動Transformer(EBT)」架構,突破傳統前饋推理方式,以能量最小化模擬人類System 2思維,預訓練擴展性能較Transformer++最高提升35%。下一代AI基礎架構新變革,來了!
在Transformer統治AI世界十余年之后,
Attention的時代正在退場,真正的思考剛剛開始——
由UIUC、斯坦福、哈佛等頂尖機構聯合提出的Energy-Based Transformer(EBT)震撼登場。
它首次將Transformer架構引入能量建模(Energy-Based Models, EBM)框架,徹底打破「前饋即推理」的舊范式。
論文鏈接:https://arxiv.org/pdf/2507.02092
EBT既不是輕量化微調,也不是RNN的改進,而是一種徹底不同的推理機制:
模型不再一次性「說完答案」,而是像人類一樣從模糊猜測出發,逐步優化推理路徑。
EBT訓練更高效,推理更精準,對OOD(Out of Distribution)數據更穩健,在訓練效率、提升幅度等方面大幅超越前饋式Transformer(Transformer++):
并且,EBT在文本與圖像等多模態任務中展現出驚人的擴展性能,有望實現無監督跨模態通用推理。
「一次生成」vs「動態優化」
傳統Transformer是一種典型的「前饋預測器」,每次推理過程都是按照從輸入prompt,到固定的前向傳播路徑,再到輸出結果一次完成的。
無論問題簡單還是復雜,模型都以固定的計算路徑和步驟完成推理,無法因難度靈活調整。
每個token都只做一次決策,不進行「反悔」或者「修改」。
這就像一個學生答題時,只能「一遍寫完不許改」。
在這種模式下,模型既不能「檢查答案」,也無法「修正思路」,更談不上「深入思考」。
而EBT徹底顛覆了這種機制。
EBT對每個預測都進行多輪優化:
不直接輸出token,從隨機初始預測開始
模型計算該預測與上下文的「能量值」(兼容性高對應能量低,兼容性差對應能量高)
通過對能量的梯度下降,不斷更新預測,逐步將其「調得更合適」
這個過程會持續多輪,直到能量收斂,也就是模型認為這個預測「足夠合理」了。
這樣EBT最后得到的每個token都是動態計算、多步修正的產物,像在能量地形圖中「下山」一樣逐步收斂到最優答案。
也就是說,模型的「思考」被建模成了一個小型優化任務,不是一遍完全輸出答案,而是反復嘗試—驗證—更新—收斂。
這個「能量最小化」的過程就是EBT前所未有的System 2 Thinking——更慢,更準,更通用的類人深度思考能力。
EBT「三大躍遷」
EBT的思考過程賦予了它三項關鍵能力上的根本性突破。
動態計算
傳統Transformer模型是靜態的:每個token、每個預測都使用固定的計算路徑和深度,無論問題簡單還是復雜,計算量一視同仁。
而EBT擁有動態計算資源分配能力,可以像人一樣,遇到簡單問題快速處理,遇到困難問題則投入更多思考。
換句話說,EBT可以動態決定要「多想幾步」還是「快速收斂」。
不確定度
而且,EBT預測能量的設計決定了它可以在連續空間中表達不確定性。
Transformer雖然能在離散的token輸出中使用softmax表示「概率分布」,但在圖像、視頻等連續 模態中就很難表達不確定性。
EBT預測上下文之間的能量建模,自然地通過能量高低表達了預測的「可信程度」。
這種能力讓EBT 能在圖像、 視頻 等連續任務中識別哪些位置「值得多想」。
自我驗證
在能量分數的加持下,EBT天生具備顯式的自我驗證能力。
每次預測,它都會計算衡量上下文匹配程度的「能量分數」。
這個分數不僅可以用來判斷答案是否靠譜,而且可以生成多個候選答案,并挑出能量最低的答案作為最終結果。
這種機制徹底擺脫了對外部打分器或獎勵函數的依賴,將「反思」環節引入了模型結構本身。
相比之下,傳統架構在「思考能力」上幾乎全面潰敗。
無論是Feed Forward Transformer還是RNN,都缺乏動態計算分配能力、無法建模連續空間中的不確定性,更談不上對預測結果進行驗證。
就連在生成模型中備受追捧的Diffusion Transformer,也僅在“動態計算”這一項上有所突破,其余兩項依然是空白。
相比之下,EBT是目前為止最接近「人類式思考流程」的方案。
越想越準!Transformer望塵莫及
EBT不僅在理論特性上驚艷四座,在實際實驗中也表現驚人。
無論有多少數據、加多大批次,模型有多深,EBT都比經典Transformer++學得更快、更省、效果更穩。
具體而言,要達到相同的困惑度(Perplexity),EBT的下降速度快35.98%。也就是說,它只需大約2/3的訓練語料,在「數據瓶頸」的情況下更具性價比。
在分布式大批次訓練環境下,EBT訓練收斂速度比Transformer++快28.46%,深度擴展效率提升5.29%,效率不掉隊。
在OOD(Out of Distribution)數據上,EBT也展現出更強的穩健性。
EBT能通過「多輪推理」與「自我驗證」大幅緩解泛化性能下降的問題。
相比之下,傳統 Transformer++ 的表現幾乎不隨推理次數改變。
這意味著,哪怕EBT預訓練指標比Transformer略差,一旦開始「思考」,它就能后來居上,「越想越準」。
這種「思維帶來泛化」的機制,在當前所有主流大模型架構中都是獨一無二的。
跨模態通吃:AGI更近一步
只要定義清楚「輸入」和「候選預測」,EBT就能在無監督中思考和優化。
EBT的設計不依賴監督、不依賴額外獎勵、不局限于文本或編程,天然適用于任意模態與任務。
對于文本,EBT 能自動學出不 同詞的規律:簡單詞能量低,難詞能量高,借此自然表達出語義上的不確定性。
在圖像任務中,EBT告別Diffusion模型的上百步生成式推理,僅用1%的推理步數就能超越Diffusion Transformer(DiT)在圖像去噪和分類上的表現。
視頻幀的「不確定性」預測和注意力調整更是不在話下。
這種統一、靈活、高效的推理機制,很可能成為通往「通用智能」的關鍵。
畢竟,關于大模型的終極疑問始終存在:它們,真的會「思考」嗎?
EBT,或許就是首批有資格回答這個問題的架構之一。
參考資料:
https://x.com/AlexiGlad/status/1942231878305714462
https://x.com/du_yilun/status/1942236593479102757
https://arxiv.org/pdf/2507.02092
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.