來源:AIGC深一度
Dynamic Chunking (H-Net) : 一種無需分詞器的人工智能文本處理新方法
最近,Mamba 作者之一 Albert Gu 又發新研究,他參與的一篇論文《 Dynamic Chunking for End-to-End Hierarchical Sequence Modeling 》提出了一個分層網絡 H-Net,其用模型內部的動態分塊過程取代 tokenization。
為什么分詞方法存在缺陷為什么分詞方法存在缺陷 為什么分詞方法存在缺陷
當我們閱讀文本時,我們的大腦會毫不費力地將字母組合成單詞,再將單詞組合成有意義的短語。我們不會有意識地去思考一個單詞在哪里結束,另一個單詞從哪里開始,一切自然而然就發生了。然而,事實證明,在人工智能中復制這種自然能力,是自然語言處理領域長期以來最棘手的挑戰之一。
幾十年來,人工智能系統一直依賴一個名為分詞的預處理步驟,將文本分割成易于處理的片段。主流方法字節對編碼(BPE)利用統計模式來決定如何分割文本。雖然這種方法助力打造出了 GPT 系列模型和 Claude 系列模型等令人矚目的語言模型,但它存在一些根本性的局限,限制了人工智能像人類一樣靈活處理語言的能力。
字節對編碼(BPE)的工作方式看似簡單。它會分析大量文本,統計某些字符對同時出現的頻率。出現頻率最高的字符對會合并為單個詞元,這個過程不斷重復,直到系統構建出一個包含常見文本片段的詞匯表。圖 1 用一個當下的例子來說明這一過程:“2025 年 7 月在巴黎舉行的人工智能會議。”該圖展示了字節對編碼如何識別諸如“AI”和“25”這樣的高頻字符對,并通過迭代步驟逐步將它們合并為詞元,體現了這種方法純粹由頻率驅動的特性。
圖1
這種基于頻率的方法產生了一些研究人員已充分記錄的問題。博斯特羅姆(Bostrom)和達雷特(Durrett)在 2020 年的一項研究表明,字節對編碼(BPE)常常無法遵循有意義的語言邊界。圖 2給出了一個直觀對比,展示了字節對編碼(BPE)的貪婪構建過程如何常常將前綴和后綴等有意義的語言單位并入相鄰的詞元,從而導致分割效果欠佳。該圖將諸如“streamlined”(stream + line + d)等單詞的理想詞法邊界與字節對編碼(BPE)的實際輸出進行了對比,在實際輸出中,有意義的詞綴被錯誤地與相鄰字符合并,有時會產生缺乏語義連貫性的詞元。
圖2
更令人擔憂的是,他們的研究表明,字節對編碼(BPE)會生成大約 1500 個很少使用的“垃圾”詞元——這些片段產生于合并過程,但在真實文本中幾乎從未獨立出現過。圖 3通過全面的詞元頻率分布分析,展示了 BPE 分詞中固有的詞匯效率問題。對數圖揭示了詞元使用的特征冪律分布,從高頻詞元急劇下降到很少使用的詞元的長尾。
該圖將詞元分為三個不同的區域:高頻詞元(包括像“the”“in”“ing”“of”“AI”“and”這樣的常用詞)、中頻詞元(例如“Paris”“conference”“July”“2025”“technology”),以及有問題的“死區”詞元(包括像“nPar”“aris”“yJ”“uly2”“025”這樣的片段)。
底部部分以“in _ Pa ri s _ Ju ly _ 20 25”為例,闡釋了在字節對編碼(BPE)合并過程中,“垃圾”詞元是如何形成的。該圖展示了中間合并步驟是如何產生問題的:經過一次合并后,初始文本變為“in _Pa ri s _ July _ 20 25”,再進一步合并后變為“in*Pa ris * July _2025”,這就產生了上下文邊界問題,即有意義的單元被不恰當拆分。
底部的詞匯效率對比鮮明地說明了字節對編碼(BPE)的問題:與一元語言模型(Unigram LM)詞匯表相比,BPE 詞匯表包含明顯更多的“死區”詞元(多出約 1500 個)。這種低效意味著詞匯空間的浪費,這些空間本可以更好地分配給更有意義的語言單位,這也說明了為什么 BPE 基于頻率的貪婪構建方式會導致在語言模型訓練中分詞效果欠佳。
圖3
這些局限性不僅僅體現在效率方面。字節對編碼(BPE)存在明顯的 “語言偏見”,因為它主要是針對英語進行優化的,英語單詞之間有方便的空格。結構不同的語言會面臨系統性劣勢。中文文本完全沒有詞邊界,其分詞方式常常會將有意義的字符拆分。通過復雜詞形變化來構建語義的黏著語情況更糟。或許最具局限性的是字節對編碼的不靈活性,相同的字符序列無論上下文如何,總是會得到相同的分詞結果,這意味著該系統無法使其處理方式適應不同領域或語義。
動態分塊:一種端到端文本處理的新方法
這些限制促使研究人員探索文本處理的替代方法。2025 年 7 月 10 日,研究人員 Sukjun Hwang、Brandon Wang 和 Albert Gu 提出了“動態分塊”,這是一種旨在消除單獨分詞需求的方法。他們的預印本展示了一個端到端模型,該模型直接在字節級別處理文本,將文本分割整合到模型本身中,而不是將其視為預處理步驟。
這代表了與傳統方法的顯著不同。圖 4以“實時更新:2025 年 7 月巴黎人工智能峰會”為例,說明了這些方法之間的根本差異。該圖展示了字節對編碼(BPE)如何純粹基于字符頻率模式拆分這段文本,常常將諸如“人工智能峰會”或“2025 年 7 月”等語義上有意義的單元拆分成任意片段。相比之下,動態分塊則學會保留上下文有意義的片段,根據語義理解而非統計頻率來調整其邊界。動態分塊并非使用基于字符頻率的預先確定規則,而是將文本分割視為人工智能系統可以學習和優化的一項技能。
圖4
研究人員通過一種他們稱之為分層網絡(H-Net)的架構實現了這一設想。圖 5展示了完整的 H-Net 架構示意圖,顯示了從原始輸入經過編碼器、動態分塊層、主網絡、上采樣層和解碼器的流程。該圖展示了類似 U-Net 的結構,帶有方向箭頭指示分層處理流程。該系統通過三個協同工作的主要組件來處理文本:編碼器網絡將原始文本壓縮為更高級別的表示,主網絡處理這些壓縮后的表示,解碼器網絡重建完整序列。
如下圖清晰所示,該系統通過五個協同工作的不同階段來處理文本:原始輸入字節首先由編碼器網絡(藍色部分所示)處理,該網絡將序列壓縮為更高級別的表示形式。動態分塊層(綠色部分所示)通過識別并僅保留語義上最重要的片段,進一步壓縮這些表示形式。主網絡(紫色部分所示)處理這些壓縮后的表示形式,與原始輸入相比,其處理的序列長度顯著縮短。然后,上采樣層(綠色部分所示)將序列重構回原始長度,最后解碼器網絡(藍色部分所示)生成最終的輸出序列。
同樣,根據下圖我們可以看到 H-Net 是如何實現計算效率的:由許多標記組成的原始輸入序列在中間層被壓縮成一個小得多的表示形式(如主網絡中較少的模塊所示),然后再擴展回原始分辨率。這種分層壓縮和解壓縮方法使得計算成本較高的主網絡能夠對壓縮后的表示形式進行操作,同時保持重建細粒度細節的能力。
圖5
H-Net 從策略上在其架構組件中采用不同的層類型,以實現最佳性能。編碼器和解碼器網絡使用 Mamba-2 層作為主要構建模塊,通常各由 4 層組成。這一架構選擇是經過深思熟慮的,因為 Mamba-2 層在壓縮任務中展現出卓越的效率,并且擅長處理字節級序列等細粒度輸入。相比之下,主網絡通常采用 Transformer 層(例如 24 層)而非 Mamba-2 架構,這體現了這些架構的互補優勢。
神奇之處在于動態分塊機制本身。圖 6詳細展示了動態分塊過程中的路由和下采樣組件。路由模塊使用余弦相似度度量來分析相鄰文本表示,如圖所示,它處理類似“2025 年 7 月人工智能峰會”這樣的序列。該圖展示了路由模塊如何通過余弦相似度評估來分析相鄰文本表示。對應于輸入詞元的每個向量表示(從 x? 到 x?)都會與其相鄰向量進行評估,彩色點表示相似度級別:紅點表示低相似度(表示邊界),橙點表示中等相似度,綠點表示高相似度(無邊界)。
路由模塊應用邊界檢測公式: ? 如果 ,該公式將余弦相似度測量轉換為二元邊界決策。如下圖所示,當相鄰文本元素呈現出顯著不同的語義特征(低余弦相似度)時,系統將這些識別為潛在邊界點,并將其標記為 。
然后,下采樣過程僅選擇標記了邊界的向量保留在壓縮序列中。在這個例子中,向量 x?、x? 和 x? 被保留(標記為 b? = 1),而向量 x?、x? 和 x? 被丟棄(標記為 b? = 0)。這種選擇性保留產生了語義上有意義的片段:“AI” “七月峰會” 和 “2025”,這表明該系統是如何學會保留上下文連貫的片段,而不是像傳統的字節對編碼(BPE)分詞那樣基于頻率模式進行任意分割。
該圖有效地展示了動態分塊如何適應實際語義內容,將“AI”保留為一個獨立的有意義單元,將“7 月峰會”歸為一個連貫的短語,并將“2025”作為一個獨特的時間標記。這種上下文感知的分割與字節對編碼(BPE)的頻率驅動方法形成鮮明對比,后者可能純粹基于字符級統計拆分這些有意義的單元。
圖6
這種檢測過程依賴于習得的語義理解,而非預先設定的頻率模式。
為處理語言中固有的模糊性,該系統采用了復雜的平滑技術。圖 7展示了構成動態分塊流程的平滑和上采樣組件,并繼續以“2025 年 7 月人工智能峰會”為例。該圖展示了系統如何通過三個不同階段處理壓縮后的分塊表示:平滑、上采樣和最終輸出重建。
平滑模塊通過在段落之間創建平滑過渡,而非設置硬性邊界,來解決語言中固有的模糊性問題。如頂部部分所示,每個語塊都有一個相關的邊界置信度分數:**“AI”(0.95)、“summit”(0.93)、“July”(0.72)和“2025”(0.61)。** 平滑過程會根據這些置信度水平應用**指數移動平均線(EMA)** ,高置信度邊界(以綠色顯示)受到的融合程度最小,而低置信度邊界(以橙色顯示)則會經歷更顯著的 EMA 平滑處理。這在視覺上表現為連接“July”和“2025”的彎曲箭頭,表明由于置信度分數較低而進行平滑處理的位置。
上采樣階段展示了置信度加權擴展,即壓縮后的表示被重構回原始序列長度。該圖展示了每個塊是如何擴展的:由于置信度高,“AI”保持不變,“summit”以中等置信度權重被拆分為“sum”和“mit”,“July”以較低置信度擴展為“Jul”和“y”,而“2025”變為“20”和“25”。顏色編碼(綠色表示高置信度,黃色表示中等置信度,橙色表示較低置信度)說明了置信度水平如何影響重構過程。
最終輸出展示了準備好供解碼器使用的全分辨率序列,其邊界基于置信度加權決策得以保留。該系統將“人工智能峰會”和“2025 年 7 月”作為連貫的單元,同時在需要時進行細粒度重建。此過程確保了高置信度的分割決策得以保留,同時為不確定的邊界提供了靈活性,使模型能夠從學習過程中可能出現的次優分塊決策中恢復。
該圖有效地展示了平滑和上采樣模塊如何協同工作,在訓練過程中保持可微性,同時學習最優的分割策略,從而創建一個強大的系統,能夠處理自然語言分割中固有的模糊性。
圖7
這種方法的理論基礎與序列建模的最新進展相關。圖 8通過結構化矩陣表示,直觀展示了 Transformer 注意力機制與諸如 Mamba 之類的狀態空間模型(SSMs)之間的數學關系。該圖進行了令人信服的并列比較,表明盡管這兩種架構的計算方式截然不同,但它們都將序列變換實現為矩陣乘法(y = M · x)。
在左側,Transformer 注意力矩陣展示了具有自注意力機制典型對角線模式的特征密集二次結構(n2)。該公式展示了標準的自注意力機制:注意力(Q,K,V)= softmax(QK^T)V,強調了定義 Transformer 架構的全局上下文混合和并行計算,盡管其具有二次復雜度。
在右側,半可分矩陣(SSM)呈現出一種結構化的下三角模式,代表著線性復雜度計算。SSM 遞推公式( , )展示了順序狀態更新以及具有線性復雜度的結構化矩陣表示。
該圖有效地展示了由結構化狀態空間對偶性(SSD)框架建立的數學對偶性:這兩種方法都通過矩陣運算實現序列變換,但在計算權衡上存在根本差異。Transformer 通過并行計算在全局上下文混合方面表現出色,但存在二次復雜度問題,而像 Mamba 這樣的結構化狀態空間模型(SSM)通過結構化遞歸實現線性復雜度,但按順序處理信息。
這種關聯為 H-Net 的混合方法提供了理論依據,其中 Mamba-2 層負責處理原始序列中計算密集型的編碼和解碼,而 Transformer 則處理由動態分塊生成的經過壓縮、富含語義的表征。
圖8 它真的有效嗎?
在實際測試中,動態分塊技術在各種場景下都展現出了顯著的改進。在標準英語語言任務中,經過計算匹配的 H-Net 模型比基于字節對編碼(BPE)的同類 Transformer 模型在性能上提升了2.2%-2.6%。更令人印象深刻的是,較小的 H-Net 模型能夠達到兩倍規模的 BPE Transformer 模型的性能,這表明除了原始性能指標外,還實現了顯著的效率提升。
對于具有挑戰性的語言,這些優勢更加明顯。中文文本處理表現出尤為顯著的改進,H-Net 在性能上超越傳統的基于空格的分詞法和字節對編碼(BPE)方法的幅度,比在英語中看到的還要大。這證實了該系統在處理沒有清晰單詞邊界的語言時,比基于頻率的方法更為自然。
或許最引人入勝的是來自特定領域的結果。在 DNA 序列建模中,H-Net 取得了與傳統模型相當的性能,而僅需約28%的訓練數據——效率提升 3.6 倍,這對于數據可用性有限的領域可能具有變革性意義。這些模型在未針對拼寫錯誤和格式變化進行任何專門訓練的情況下,也展現出更強的魯棒性,這表明所學的分詞策略能夠自然地泛化,以處理現實世界中的文本變化。
然而,這項前景廣闊的技術面臨著巨大的挑戰,這些挑戰給人們的熱情潑了冷水。與靜態分詞相比,動態分割過程帶來了顯著的計算開銷。字節對編碼(BPE)在預處理階段只進行一次分詞,而動態分塊在訓練和推理過程中都需要持續計算。對于資源受限的應用程序或需要實時響應的系統來說,這種開銷可能過高而無法承受。
更令人擔憂的是可擴展性方面的不確定性。根據當前標準,所有已報道的實驗都使用了相對較小的模型。這種方法能否擴展到具有數千億參數的先進系統,完全有待證實。計算復雜度可能會隨著模型規模呈指數級增長,這有可能抵消在較小規模下所看到的優勢。
實施方面也存在另一大障礙。采用動態分塊技術需要對現有的模型架構、訓練流程和部署基礎設施進行根本性變革。各機構將需要對其人工智能系統的很大一部分進行重建,這是一個令人生畏的前景,即使這項技術被證明更為優越,也可能會顯著減緩其實際應用的速度。
我們還必須承認目前可用的驗證有限。由于結果僅來自一個研究小組,且尚未有獨立的重復實驗,關于穩健性和普遍性的問題仍然懸而未決。這篇論文幾天前(2025 年 7 月 10 日)才出現在 arXiv 上,這意味著它尚未經過同行評審,也沒有受到其他團隊嘗試復現所帶來的審視。
這些改進雖然持續且可衡量,但代表的是漸進式而非革命性的進步。性能提升與近年來開發的其他分詞優化處于同一范圍,這就引發了一個合理的問題,即這些改進帶來的好處是否能證明其實施的復雜性和計算成本是合理的。
盡管存在這些局限性,但動態分塊作為消除人工智能系統中預處理步驟這一更廣泛趨勢的一部分而出現。基于上下文而非預先設定的規則來學習識別有意義邊界的原則,與讓人工智能更具適應性和數據驅動性的總體方向是一致的。這種方法在傳統分詞一直難以處理的語言和專業領域中顯示出特別的潛力。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到3月31日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.