99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

熱點關注丨無Tokenizer時代真要來了?Mamba作者再發顛覆性論文,挑戰Transformer

0
分享至

轉自 量子位

Tokenization,一直是實現真正端到端語言模型的最后一個障礙。

我們終于擺脫 tokenization 了嗎?

答案是:可能性無限大。

最近,Mamba 作者之一 Albert Gu 又發新研究,他參與的一篇論文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一個分層網絡 H-Net,其用模型內部的動態分塊過程取代 tokenization,從而自動發現和操作有意義的數據單元。


「這一研究預示著 Tokenizers 正在退場,智能字節分塊(Smart Byte Chunks)開始登場?;蛟S無需 Tokenizer 訓練的時代真的要來了 —— 可能性無限大。」X 知名博主 Rohan Paul 表示道。


現階段,Tokenization 仍然是語言模型和其他順序數據不可或缺的組成部分,因為它能夠壓縮和縮短序列。然而 Tokenization 存在許多缺點,如可解釋性差,在處理復雜語言(如中文、代碼、DNA 序列)時性能下降等。

迄今為止,尚未有任何端到端的無 tokenizer 模型在計算預算相匹配的情況下超越基于 tokenizer 的語言模型的表現。最近,已經有研究開始致力于在自回歸序列模型中突破 Tokenization 限制。

在此背景下,來自 CMU、 Cartesia AI 等機構的研究者提出了一系列新技術,通過動態分塊機制實現內容與上下文自適應的分割策略,該機制可與模型其他部分聯合學習。將這一機制融入顯式分層網絡(H-Net)后,原本隱含分層的「tokenization–LM–detokenization」流程可被完全端到端的單一模型取代。

在計算資源和數據量對等的條件下,僅采用單層字節級分層的 H-Net 模型,其表現已優于基于 BPE token 的強 Transformer 語言模型。通過多級分層迭代建模不同抽象層級,模型性能得到進一步提升 —— 這不僅展現出更優的數據規模效應,更能媲美兩倍規模的基于 token 的 Transformer 模型。

在英語預訓練中,H-Net 展現出顯著增強的字符級魯棒性,并能定性學習有意義的、數據依賴的分塊策略,全程無需啟發式規則或顯式監督。

最后,在 tokenization 啟發式方法效果較弱的語言和模態(如中文、代碼或 DNA 序列)中,H-Net 相比 tokenization 流程的優勢進一步擴大(數據效率較基線提升近 4 倍),這證明了真正端到端模型從未經處理數據中實現更優學習和擴展的潛力。


論文地址:https://arxiv.org/pdf/2507.07955v1

沒有 Tokenization 的端到端序列建模

本文提出了一種端到端的分層網絡(H-Net),通過遞歸、數據依賴的動態分塊(DC,dynamic chunking)過程壓縮原始數據(見圖 1)。H-Net 在保持與 token 化流程相同效率的同時,通過用從數據中學習的內容感知和上下文依賴的分割替代手工啟發式方法,顯著提高了建模能力。


分層處理

H-Net 采用了分層架構,其工作流程分為三步:

  • 精細處理:先用小型編碼器網絡處理原始數據(如逐個字節 / 字符);

  • 壓縮抽象:將數據壓縮下采樣后,交給主網絡(可理解為大腦核心)處理;

  • 還原輸出:最后上采樣并通過解碼器還原到原始精度。

這種設計形成了天然的認知分層 —— 外層捕捉細粒度的模式,內層處理抽象概念。

關鍵是,主網絡包含了大部分參數,并且可以適配任何標準架構,例如 Transformer 或狀態空間模型(SSM)。

動態分塊

H-Net 的核心是動態分塊(DC)機制,它位于主網絡與編碼器 / 解碼器網絡之間,用于學習如何分割數據,同時使用標準的可微優化方法。DC 由兩種互補的新技術組成:

(i) 路由模塊,通過相似度評分預測相鄰元素之間的邊界;

(ii) 平滑模塊,使用路由器的輸出插值表示,通過減弱不確定邊界的影響,顯著提高學習能力。

通過將這些技術與一個新的輔助損失函數結合,并利用現代基于梯度的離散選擇學習技術,DC 使得 H-Net 能夠以完全端到端的方式學習如何壓縮數據。

信號傳播

本文還引入了幾種架構和訓練技術,以提高端到端優化過程中的穩定性和可擴展性。這些技術包括:(i) 精心布置的投影層和歸一化層,以平衡交互子網絡之間的信號傳播;(ii) 根據每層的維度和有效批次大小調整其優化參數。

總的來說,H-Net 學習了與主干網絡聯合優化的分割策略,基于上下文信息動態地將輸入向量壓縮成有意義的數據塊。

H-Net 代表了第一個真正的端到端、無 tokenizer 的語言模型:通過一個動態分塊階段,字節級的 H-Net 在超過 10 億參數的規模下,達到了與強大的 BPE token 化 Transformer 相當的困惑度和下游性能。

從經驗上看,動態分塊模塊自然地將數據壓縮到與 BPE tokenizer 相似的分辨率(每塊 4.5-5 字節),并且在沒有任何外部監督或啟發式方法的情況下,定性地學習到有意義的邊界。

實驗及結果

實驗中,本文采用的主要語言模型架構如下所示,如 MambaByte 是使用純 Mamba-2 層的各向同性模型。


Training Curves. Figure 3 presents validation BPB metrics throughout training for both Large and XL model scales

訓練曲線。圖 3 顯示了 Large 和 XL 規模模型在整個訓練過程中的驗證 BPB 指標。


在較大規模上,本文注意到:

所有各向同性模型在性能上都遠遜色于分層模型。在這些模型中,MambaByte 明顯優于 LlamaByte。

SpaceByte 明顯遜色于 SpaceByte++,這一結果驗證了本文在外部網絡中使用 Mamba 的有效性。SpaceByte++ 又比 H-Net(space)差,表明本文提出的改進信號傳播技術的有效性。

H-Net(space)是一個非常強大的模型,達到了與 BPE Transformer 相當的性能,驗證了數據依賴的分塊策略與精心設計的分層架構的效果。

表 2 展示了不同模型在多個下游基準測試上的零樣本準確率。

SpaceByte++、H-Net(space)和 H-Net(1-stage)在大規模上與 BPE Transformer 的性能相似,在 XL 規模上稍微超越了 BPE Transformer。


表 3 評估了模型在 HellaSwag 上的魯棒性。與所有基準模型相比,H-Net(2-stage)顯著提高的魯棒性。


圖 4 提供了 H-Net(1-stage)和 H-Net(2-stage)動態繪制的邊界的可視化圖。這些可視化提供了關于模型如何決定邊界的幾個重要見解。


即使使用 Llama3 tokenizer,本文發現 H-Net(2-stage)在中文和代碼處理上,比 BPE Transformer 和 H-Net(space)具有更好的擴展性(圖 5),并且在衰退階段后實現了更低的壓縮率(表 4)。

之前的研究已經證明,SSM 在 DNA 序列建模上比 Transformer 表現更好。實驗(表 5)也驗證了這一點:即使換成 Mamba-2 作為主網絡,SSM 的優勢仍然存在。



實際上,通過直接比較訓練穩定階段的困惑度曲線(圖 6),本文發現 H-Net 模型在數據量僅為 3.6 倍的情況下,能夠達到與各向同性模型相似的性能,這一發現適用于兩種主網絡架構的選擇。


最后,Albert 還撰寫了精彩的博客文章,介紹關于 H-Net 的幕后故事和精彩見解。感興趣的讀者可以前去閱讀。

博客地址:https://goombalab.github.io/blog/2025/hnet-past/

了解更多內容,請參考原論文。

【免責聲明】轉載出于非商業性的教育和科研目的,只為學術新聞信息的傳播,版權歸原作者所有,如有侵權請立即與我們聯系,我們將及時刪除。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
A股:明天,7月18號,股指期權交割日!將迎來更大級上漲?

A股:明天,7月18號,股指期權交割日!將迎來更大級上漲?

說說史事
2025-07-17 15:40:37
杜建英消失、私生子申請DNA比對、員工爆猛料,都是宗馥莉的復仇

杜建英消失、私生子申請DNA比對、員工爆猛料,都是宗馥莉的復仇

吭哧有力
2025-07-16 08:32:16
王小騫一家三口西班牙度假!11歲矮小癥女兒長高不少,打扮顯成熟

王小騫一家三口西班牙度假!11歲矮小癥女兒長高不少,打扮顯成熟

豆哥記錄
2025-07-15 20:22:43
大鵬被網紅姜濤討要結婚份子錢,之前合作過網劇,但已10年沒聯系

大鵬被網紅姜濤討要結婚份子錢,之前合作過網劇,但已10年沒聯系

歸史
2025-07-15 11:54:07
鐘薛高被申請破產審查

鐘薛高被申請破產審查

每日經濟新聞
2025-07-16 19:53:43
丹麥94票通過美軍駐扎協議,格陵蘭主權易主,法國暴怒歐盟抗議

丹麥94票通過美軍駐扎協議,格陵蘭主權易主,法國暴怒歐盟抗議

掌青說歷史
2025-07-15 22:38:13
錄像帶露馬跡!2004年洪洞縣“12·11”系列強奸殺人案偵破始末

錄像帶露馬跡!2004年洪洞縣“12·11”系列強奸殺人案偵破始末

路之意
2025-07-17 08:47:47
褲子那里鼓鼓的,當代都市麗人都被女裝做局了

褲子那里鼓鼓的,當代都市麗人都被女裝做局了

網易上流
2025-07-10 09:32:02
住建部新定調:滿25年房齡的老房子,一律按新規處理,業主要發財

住建部新定調:滿25年房齡的老房子,一律按新規處理,業主要發財

阿傖說事
2025-07-17 09:08:01
第二輪土地承包到期再延30年試點擴大

第二輪土地承包到期再延30年試點擴大

財聯社
2025-07-17 15:02:31
朱孝天開直播,透露阿信說服F4合體的關鍵原因,回應和另外三人關系,“真的不熟”

朱孝天開直播,透露阿信說服F4合體的關鍵原因,回應和另外三人關系,“真的不熟”

FM93浙江交通之聲
2025-07-17 13:10:42
絕地反殺!宗慶后私生子申請鑒定,宗馥莉一舉動表態度,勝券在握

絕地反殺!宗慶后私生子申請鑒定,宗馥莉一舉動表態度,勝券在握

洲洲影視娛評
2025-07-15 18:03:37
女孩高考648分,升學宴上被老師殺害,警方審訊時老師丈夫突然大哭

女孩高考648分,升學宴上被老師殺害,警方審訊時老師丈夫突然大哭

罪案洞察者
2025-07-16 09:25:02
昨晚,葉珂曬出999朵粉玫瑰,承認已和黃曉明各自新生活

昨晚,葉珂曬出999朵粉玫瑰,承認已和黃曉明各自新生活

曉林說娛
2025-07-17 09:33:10
生完孩子后,我出軌的欲望非常強烈?。ㄅ晕鹑耄?>
    </a>
        <h3>
      <a href=性學研究僧
2025-06-17 22:37:40
罕見!同一天,3架波音新飛機飛往中國

罕見!同一天,3架波音新飛機飛往中國

每日經濟新聞
2025-07-16 08:52:05
管特朗普叫"爸爸"的他幫腔:中印敢繼續,等著制裁

管特朗普叫"爸爸"的他幫腔:中印敢繼續,等著制裁

揚子晚報
2025-07-16 14:24:30
宗慶后兩女兒:宗婕莉名校畢業追星自由,宗馥莉大學普通舉步維艱

宗慶后兩女兒:宗婕莉名校畢業追星自由,宗馥莉大學普通舉步維艱

古希臘掌管松餅的神
2025-07-16 13:31:41
柬埔寨為何這么亂?來看看不為人知的一面

柬埔寨為何這么亂?來看看不為人知的一面

諾言卿史錄
2025-07-16 15:15:36
特斯拉將在中國發布Model 3+,續航里程800公里

特斯拉將在中國發布Model 3+,續航里程800公里

鞭牛士
2025-07-16 23:04:44
2025-07-17 16:35:00
中國人工智能學會
中國人工智能學會
中國人工智能學會網易官方賬號
3466文章數 1482關注度
往期回顧 全部

科技要聞

沒有老黃不夸的中國公司了吧??

頭條要聞

女律師在愛康國賓體檢10年沒預警 在國外確診癌癥晚期

頭條要聞

女律師在愛康國賓體檢10年沒預警 在國外確診癌癥晚期

體育要聞

過去一年的頭號贏家,他說偶像永遠是媽媽

娛樂要聞

黃楊鈿甜星途被毀 戴假貨沒人找她代言

財經要聞

宗氏三兄妹在港起訴宗馥莉文書曝光

汽車要聞

8月初上市 長安第三代UNI-V勁擎型嘗鮮價11.49萬

態度原創

健康
藝術
旅游
教育
時尚

呼吸科專家破解呼吸道九大謠言!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

2025考生必看,寧夏職業技術大學就業怎么樣?多個連招保障就業!

夏天穿衣一點都不難!上衣選基礎色、裙子有露膚度,耐看舒適

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 莒南县| 筠连县| 萨迦县| 甘德县| 阿克| 太保市| 乌拉特前旗| 荥阳市| 涪陵区| 曲水县| 武山县| 广平县| 东港市| 建昌县| 仁化县| 黎平县| 靖江市| 武夷山市| 鹿泉市| 肇东市| 哈尔滨市| 洪江市| 仁布县| 寿光市| 江口县| 封开县| 黄冈市| 枝江市| 乐陵市| 娱乐| 英德市| 祁阳县| 福鼎市| 洞头县| 黎城县| 元江| 城固县| 苗栗市| 云南省| 宝丰县| 娄烦县|