99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

徹底改寫Transformer!「能量驅動架構」橫空出世,通用推理時代要來了?

0
分享至


新智元報道

編輯:海貍

【新智元導讀】UIUC、斯坦福與哈佛聯合提出全新「能量驅動Transformer(EBT)」架構,突破傳統前饋推理方式,以能量最小化模擬人類System 2思維,預訓練擴展性能較Transformer++最高提升35%。下一代AI基礎架構新變革,來了!

在Transformer統治AI世界十余年之后,

Attention的時代正在退場,真正的思考剛剛開始——

由UIUC、斯坦福、哈佛等頂尖機構聯合提出的Energy-Based Transformer(EBT)震撼登場。

它首次將Transformer架構引入能量建模(Energy-Based Models, EBM)框架,徹底打破「前饋即推理」的舊范式。


論文鏈接:https://arxiv.org/pdf/2507.02092

EBT既不是輕量化微調,也不是RNN的改進,而是一種徹底不同的推理機制:

模型不再一次性「說完答案」,而是像人類一樣從模糊猜測出發,逐步優化推理路徑。


EBT訓練更高效,推理更精準,對OOD(Out of Distribution)數據更穩健,在訓練效率、提升幅度等方面大幅超越前饋式Transformer(Transformer++):


并且,EBT在文本與圖像等多模態任務中展現出驚人的擴展性能,有望實現無監督跨模態通用推理。

「一次生成」vs「動態優化」

傳統Transformer是一種典型的「前饋預測器」,每次推理過程都是按照從輸入prompt,到固定的前向傳播路徑,再到輸出結果一次完成的。

無論問題簡單還是復雜,模型都以固定的計算路徑和步驟完成推理,無法因難度靈活調整。

每個token都只做一次決策,不進行「反悔」或者「修改」。

這就像一個學生答題時,只能「一遍寫完不許改」。

在這種模式下,模型既不能「檢查答案」,也無法「修正思路」,更談不上「深入思考」。


而EBT徹底顛覆了這種機制。

EBT對每個預測都進行多輪優化:

  • 不直接輸出token,從隨機初始預測開始

  • 模型計算該預測與上下文的「能量值」(兼容性高對應能量低,兼容性差對應能量高)

  • 通過對能量的梯度下降,不斷更新預測,逐步將其「調得更合適」

這個過程會持續多輪,直到能量收斂,也就是模型認為這個預測「足夠合理」了。

這樣EBT最后得到的每個token都是動態計算、多步修正的產物,像在能量地形圖中「下山」一樣逐步收斂到最優答案。

也就是說,模型的「思考」被建模成了一個小型優化任務,不是一遍完全輸出答案,而是反復嘗試—驗證—更新—收斂。


這個「能量最小化」的過程就是EBT前所未有的System 2 Thinking——更慢,更準,更通用的類人深度思考能力。

EBT「三大躍遷」

EBT的思考過程賦予了它三項關鍵能力上的根本性突破。

態計算

傳統Transformer模型是靜態的:每個token、每個預測都使用固定的計算路徑和深度,無論問題簡單還是復雜,計算量一視同仁。

而EBT擁有動態計算資源分配能力,可以像人一樣,遇到簡單問題快速處理,遇到困難問題則投入更多思考。

換句話說,EBT可以動態決定要「多想幾步」還是「快速收斂」。

不確定度

而且,EBT預測能量的設計決定了它可以在連續空間中表達不確定性。

Transformer雖然能在離散的token輸出中使用softmax表示「概率分布」,但在圖像、視頻等連續 模態中就很難表達不確定性。

EBT預測上下文之間的能量建模,自然地通過能量高低表達了預測的「可信程度」。

這種能力讓EBT 能在圖像、 視頻 等連續任務中識別哪些位置「值得多想」。


自我驗證

在能量分數的加持下,EBT天生具備顯式的自我驗證能力。

每次預測,它都會計算衡量上下文匹配程度的「能量分數」。

這個分數不僅可以用來判斷答案是否靠譜,而且可以生成多個候選答案,并挑出能量最低的答案作為最終結果。

這種機制徹底擺脫了對外部打分器或獎勵函數的依賴,將「反思」環節引入了模型結構本身。

相比之下,傳統架構在「思考能力」上幾乎全面潰敗。


無論是Feed Forward Transformer還是RNN,都缺乏動態計算分配能力、無法建模連續空間中的不確定性,更談不上對預測結果進行驗證。

就連在生成模型中備受追捧的Diffusion Transformer,也僅在“動態計算”這一項上有所突破,其余兩項依然是空白。

相比之下,EBT是目前為止最接近「人類式思考流程」的方案。

越想越準!Transformer望塵莫及

EBT不僅在理論特性上驚艷四座,在實際實驗中也表現驚人。

無論有多少數據、加多大批次,模型有多深,EBT都比經典Transformer++學得更快、更省、效果更穩。

具體而言,要達到相同的困惑度(Perplexity),EBT的下降速度快35.98%。也就是說,它只需大約2/3的訓練語料,在「數據瓶頸」的情況下更具性價比。

在分布式大批次訓練環境下,EBT訓練收斂速度比Transformer++快28.46%,深度擴展效率提升5.29%,效率不掉隊。


在OOD(Out of Distribution)數據上,EBT也展現出更強的穩健性。

EBT能通過「多輪推理」與「自我驗證」大幅緩解泛化性能下降的問題。

相比之下,傳統 Transformer++ 的表現幾乎不隨推理次數改變。


這意味著,哪怕EBT預訓練指標比Transformer略差,一旦開始「思考」,它就能后來居上,「越想越準」。

這種「思維帶來泛化」的機制,在當前所有主流大模型架構中都是獨一無二的。

跨模態通吃:AGI更近一步

只要定義清楚「輸入」和「候選預測」,EBT就能在無監督中思考和優化。

EBT的設計不依賴監督、不依賴額外獎勵、不局限于文本或編程,天然適用于任意模態與任務。

對于文本,EBT 能自動學出不 同詞的規律:簡單詞能量低,難詞能量高,借此自然表達出語義上的不確定性。


在圖像任務中,EBT告別Diffusion模型的上百步生成式推理,僅用1%的推理步數就能超越Diffusion Transformer(DiT)在圖像去噪和分類上的表現。


視頻幀的「不確定性」預測和注意力調整更是不在話下。


這種統一、靈活、高效的推理機制,很可能成為通往「通用智能」的關鍵。

畢竟,關于大模型的終極疑問始終存在:它們,真的會「思考」嗎?

EBT,或許就是首批有資格回答這個問題的架構之一。

參考資料:

https://x.com/AlexiGlad/status/1942231878305714462

https://x.com/du_yilun/status/1942236593479102757

https://arxiv.org/pdf/2507.02092


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
亞馬爾強于C羅?迷你羅:現在是的,但他還沒有贏得任何東西

亞馬爾強于C羅?迷你羅:現在是的,但他還沒有贏得任何東西

雷速體育
2025-07-15 08:13:15
一毛不拔!勇士冠軍功勛袒露離隊細節 球隊壓根沒給過報價

一毛不拔!勇士冠軍功勛袒露離隊細節 球隊壓根沒給過報價

胖子噴球
2025-07-14 08:45:13
美聯儲主席鮑威爾終究還是沒有扛住川普逼宮的壓力

美聯儲主席鮑威爾終究還是沒有扛住川普逼宮的壓力

流蘇晚晴
2025-07-14 18:16:36
豪門不寵閑散人士,為李嘉欣慶生的三位香港名媛

豪門不寵閑散人士,為李嘉欣慶生的三位香港名媛

TVB的四小花
2025-07-14 16:04:30
清教徒——美國強大背后的真正密碼

清教徒——美國強大背后的真正密碼

尚曦讀史
2025-07-13 00:00:03
森林北線下“見光死”,跟精修圖差距大,小肚子突出胖了不少

森林北線下“見光死”,跟精修圖差距大,小肚子突出胖了不少

溫讀史
2025-07-14 11:43:45
49歲馬伊琍陷鼻子整容風波,增生看得一清二楚,跟袁泉同框顯高級

49歲馬伊琍陷鼻子整容風波,增生看得一清二楚,跟袁泉同框顯高級

娛樂小丸子
2025-07-14 16:43:05
WTT大滿貫賽落幕!誕生3個贏家、5個輸家,王楚欽、孫穎莎在列

WTT大滿貫賽落幕!誕生3個贏家、5個輸家,王楚欽、孫穎莎在列

知軒體育
2025-07-14 23:10:25
日系三強之二反彈,一汽豐田猛漲,電車已看到突圍跡象

日系三強之二反彈,一汽豐田猛漲,電車已看到突圍跡象

柏銘銳談
2025-07-13 16:32:24
警惕!長期服用他汀和阿司匹林的三大風險,發現這些情況應停藥

警惕!長期服用他汀和阿司匹林的三大風險,發現這些情況應停藥

平價項鏈合集
2025-07-14 14:59:51
特朗普大量丑聞被揭露,被指控謀殺了愛潑斯坦

特朗普大量丑聞被揭露,被指控謀殺了愛潑斯坦

微微熱評
2025-07-14 10:15:52
乒超聯賽:第二階段賽程公布!樊振東、王楚欽提前確定無緣交手

乒超聯賽:第二階段賽程公布!樊振東、王楚欽提前確定無緣交手

全言作品
2025-07-15 07:33:49
中國女首富范紅衛:年入8117億,超華為成第三民企,她哪來的錢?

中國女首富范紅衛:年入8117億,超華為成第三民企,她哪來的錢?

boss外傳
2025-06-24 16:15:03
58歲施工大爺哭訴:搭伙之后終于明白,女人晚年為啥執意再找老伴

58歲施工大爺哭訴:搭伙之后終于明白,女人晚年為啥執意再找老伴

施工員小天哥
2025-07-12 11:56:31
云南省2025年養老金調整將漲2%,養老金5000元老人能漲100元嗎?

云南省2025年養老金調整將漲2%,養老金5000元老人能漲100元嗎?

呼呼歷史論
2025-07-15 00:03:03
世上沒有后悔藥,父親逝去、至今未婚未育的王凱,給大家提了個醒

世上沒有后悔藥,父親逝去、至今未婚未育的王凱,給大家提了個醒

手工制作阿殲
2025-07-15 00:02:43
若中國女籃與澳大利亞在亞洲杯決賽相遇,你認為中國姑娘們能贏幾分?

若中國女籃與澳大利亞在亞洲杯決賽相遇,你認為中國姑娘們能贏幾分?

雷速體育
2025-07-14 18:36:36
老太20年前花8萬買股票卻忘了密碼,孫子幫找回后全家愣住了

老太20年前花8萬買股票卻忘了密碼,孫子幫找回后全家愣住了

第四思維
2025-07-10 13:03:53
中醫專家:嚴格反對大家夏天喝冷飲,看到我就會進行教育

中醫專家:嚴格反對大家夏天喝冷飲,看到我就會進行教育

映射生活的身影
2025-07-14 19:33:20
中國停止口頭警告,南海啟動實彈演習;菲律賓開始撤僑

中國停止口頭警告,南海啟動實彈演習;菲律賓開始撤僑

現代小青青慕慕
2025-07-14 08:49:45
2025-07-15 09:12:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
13060文章數 66093關注度
往期回顧 全部

科技要聞

高調挖人后,扎克伯格又出重拳

頭條要聞

媒體:中美對歐洲的看法倒是挺一致 都認為其無關緊要

頭條要聞

媒體:中美對歐洲的看法倒是挺一致 都認為其無關緊要

體育要聞

高考數學滿分的他,說要成為1/3個鄧肯

娛樂要聞

秦嵐辛芷蕾聚餐熱聊 結束直奔魏大勛家

財經要聞

國貨美妝能否脫下“平替”外衣

汽車要聞

余承東親發預告:鴻蒙智行首款旅行車享界S9T來了

態度原創

游戲
房產
家居
藝術
數碼

《光與影》PS實體版美國缺貨!多個零售商均售罄

房產要聞

三亞,開啟新一輪大征收!

家居要聞

悅己環境 藝術融入生活

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數碼要聞

創見推出兼容 MagSafe 的 SSD

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 镶黄旗| 岚皋县| 扶绥县| 嵊泗县| 桓台县| 称多县| 民权县| 札达县| 永嘉县| 启东市| 灌南县| 道真| 沽源县| 瑞安市| 长兴县| 孙吴县| 盱眙县| 隆德县| 奉贤区| 福鼎市| 手游| 旬邑县| 常宁市| 长春市| 刚察县| 鞍山市| 施甸县| 上杭县| 广汉市| 石嘴山市| 嵊泗县| 壤塘县| 包头市| 武功县| 东城区| 上虞市| 礼泉县| 家居| 宁河县| 滕州市| 兖州市|