新智元報道
編輯:定慧 好困
【新智元導讀】哈工大論文斬獲ACL評審階段已知最高分!考慮到英文鍵盤難以適配漢字特點及文化內涵,團隊通過傳感器捕捉手部書寫,實現漢字的自然輸入與識別;獨創的中文字形編碼使AI能深入理解漢字形態而非僅關注詞義,推動AI從「識字」邁向「解字」。該研究革新了中文人機交互,推動了漢字文化傳播與傳承,更為AI深度理解漢字智慧開辟了新道路。
獨家消息!
AI頂會ACL 2025評審階段最高分論文出爐!
ACL 2025評審階段得分官方統計
這篇題為「Chinese Inertial GAN for Handwriting Signal Generation and Recognition」的論文,作者是來自哈工大的王一峰博士和趙毅教授。
根據ACL組委官方發布的評分分布,其Average Overall Assessment為目前最高的4.5分。
值得一提的是,這篇論文在Meta Review階段,和的分數一樣,都是4.5(Borderline Award)。
ACL 2025年最佳論文的競爭者再添一名,而且都是中國的,真是可喜可賀!
論文介紹
在人工智能浪潮席卷全球的今天,一項融合中華文化與前沿科技的研究,以其獨特的人機交互探索在國際AI頂會中贏得所有評審的認可,讓民族文化瑰寶閃耀于世界科技舞臺。這背后蘊藏著怎樣的創新價值與文化意義?
在全球范圍內,有超過14億人使用漢字。
這種古老的象形文字不僅承載著數千年的中華文明,還對日語、韓語和越南語等其他亞洲語言文字體系產生了深遠影響。
然而,作為人機交互的傳統工具,基于鍵盤的輸入方式主要是為英文、法文等以字母為基礎的拉丁語言設計的,難以完美適配漢字這種具有豐富筆畫和復雜結構的文字。
象形文字的獨特之處在于,其筆畫與結構本身就蘊含著豐富的語義信息,而這些信息又在書寫過程中自然地融入了手部的運動之中。
為此,來自哈爾濱工業大學的團隊提出了一種全新的、面向象形文字的人機交互方法。
通過廣泛集成在智能手機和可穿戴設備中的微型慣性傳感器,捕捉用戶手部的細微書寫動作,實現漢字的精準識別與高效輸入,從而在人機交互中還原漢字書寫的自然體驗。
更重要的是,漢字的書寫動作乃至最終呈現的書法形態,不僅反映其語義內容,更承載著深厚的文化底蘊和獨特的美學價值。
因此,這項技術不僅為中文用戶提供了一種新穎、高效的人機交互選擇,更有助于漢語學習者深入理解漢字構造,促進中華漢字文化的代際傳承與國際傳播。
然而,漢字博大精深,數量龐多,因此人機交互技術的核心挑戰在于高質量、大規模訓練數據的匱乏。
為此,研究團隊設計了一種「中文慣性生成對抗網絡(CI-GAN)」。
作為驅動人機交互的「生成式數據引擎」,CI-GAN能夠智能地生成無限量、高度逼真的虛擬書寫慣性信號,從而賦能不同的人機交互場景。
中文慣性生成對抗網絡框架圖
實驗結果顯示,在CI-GAN提供的海量數據支持下,不同架構的模式識別方法性能都得到了顯著提升,其中Transformer架構的識別準確率從原來的不足10%暴漲到98%。
CI-GAN的卓越性能源于其內部三個模塊的精妙設計與協同運作,它們相互支撐,構成了一個高效、智能的耦合系統:
中文字形編碼(CGE)
CGE可以看成是生成模型的promote,它通過對漢字進行編碼,從而告訴CI-GAN需要生成哪些漢字。
傳統編碼方式往往只關注漢字的「詞義」,忽略了其作為象形文字最根本的「形態」特征。
CGE模塊則為每個漢字構建了獨特的「字形身份證」,專門表征其筆畫走勢和結構布局。
它通過一種基于信息熵(Rényi entropy)的正則化方法,確保不同漢字的字形編碼既信息豐富又易于區分。
這使得CGE不僅為后續的筆跡生成提供了精確的引導,更讓AI擁有了洞察漢字形態結構的能力。
強制最優傳輸(FOT)
為了確保AI生成的虛擬筆跡信號無限接近真人的書寫習慣,FOT模塊建立了一套嚴格的「三重一致性」約束機制。
它不僅確保了輸入漢字的字形特征、AI生成的筆跡特征以及真實筆跡樣本特征三者之間的高度吻合,還有效避免了傳統生成模型中常見的模式崩潰或模式混疊等問題,從而保證了生成樣本的真實性與多樣性。
語義關聯性對齊(SRA)
漢字體系博大精深,不同漢字結構之間存在著復雜的關聯性。
SRA模塊約束AI在生成信號時準確保持這種漢字間的細微關聯(例如,字形結構相似的漢字,其生成的筆跡信號在動態特征上也應表現出相似性,反之亦然)。
這不僅大幅提升了生成信號的整體協調性和邏輯性,還有效抑制了生成式AI可能出現的幻覺問題。
語義關聯性對齊原理圖
此外,漢字字形編碼(CGE)、強制最優傳輸(FOT)、語義關聯性對齊(SRA)三個模塊相互協同:
CGE不僅為生成器從輸入端提供語義引導,同時也為FOT和SRA的約束機制提供語義依據,并且CGE自身也在此過程中得到監督和訓練;
FOT模塊利用CGE提供的字形編碼,確保生成信號的語義、真實信號的語義以及輸入語義三者一致;
SRA模塊同樣依據CGE提供的字形編碼,校對生成信號之間的語義關聯性,確保其與對應輸入漢字之間的字形關聯性的一致性;
FOT與SRA模塊除了共享CGE提供的字形編碼外,還共享生成信號的特征,從而分別向生成信號施加約束,確保生成信號的真實性、可靠性、多樣性。
CGE-FOT-SRA協同交互示意圖
這項研究的價值不僅在于提供了一種人機交互技術。
更重要的是,其核心組件「中文字形編碼(CGE)」為AI開啟了一扇理解象形文字內在「形態邏輯」的大門。
漢字作為一種源遠流長的表意文字體系,其字形并非隨機符號的堆砌,而是蘊含著豐富的結構信息和語義線索。
與拼音文字不同,漢字的字形與語義之間存在直觀的形態關聯(如「日」象形太陽,「山」酷似山峰剪影,「火」宛若跳動火焰,「網」象征交錯縱橫的網絡),這些字形本身就承載著濃厚的語義信息和文化密碼。
這種表意特性可以為AI提供更密集的信息,使其能夠從字形中直接解碼部分語義。
大量研究指出,中文的平均信息熵遠高于英語等表音文字,意味著用更少的字符就能傳遞同等復雜的信息(不同語言的聯合國文件中,中文版往往是篇幅最短的)。
然而,作為AI理解人類語言的基石,當前的中文向量化方法本質上是將漢字視作隨機符號,忽視了漢字內部的結構信息和字形本身所蘊含的豐富先驗知識。
這項研究用傳感器捕捉漢字書寫,并將這一過程看成是對字形的動態形成過程的記錄,從而設計漢字字形編碼(CGE)在這一過程中學習和表征漢字的形態結構信息。
因此,CGE可以將漢字的結構與筆畫特征引入深度學習架構,讓AI從僅僅「識字」進化到一定程度的「解字」。
當AI能夠理解「氵」多與水有關,「亻」多與人有關,「讠」多與說話有關,「钅」多與金屬相關,「火」多與火焰有關時,它對中文語料的利用就可以更加高效,對整個中文知識體系的理解也更為深刻。
這種基于運動捕捉的漢字字形結構表征可以捕捉細微的結構差異,例如「千-干」、「天-夭」、「田-甲」,使得AI對語言的理解不只是來自于上下文預測這種基于統計學規律的知識表征。
某種程度上,CGE為AI理解人類知識提供了一個獨立于純文本統計之外的強大信息源,揭示了人工智能在理解和利用漢字這一古老而智慧的文字體系時所蘊藏的巨大潛力。
本研究的深層啟示在于:對于具有內部結構和非任意性形態的符號系統(尤其是如漢字這樣的表意文字),對其「形態邏輯」進行建模可能是提升AI認知能力的有效途徑。
CGE作為一種初步的嘗試,驗證了這一思路的可行性,對AI的符號學習和表征學習可能產生深遠影響。
此外,漢字的「形」,作為其「意」的重要載體,理應在未來的AI研究中占據更核心的位置,這可能是推動人工智能向更高層次認知智能邁進的關鍵路徑之一。
作者介紹
王一峰
哈工大博士生,受國家留學基金委資助,赴新加坡國立大學進行博士聯合培養,研究方向包括AI物理感知、可解釋性分析等。
他曾擔任國際生物信息與生物醫學工程會議(BIBE)、計算機技術與信息科學國際會議(CTIS)、機器人自動化與智能控制國際會議(ICRAIC)分會主席,CVPR、ECCV、AAAI、Information Fusion等人工智能頂級會議/期刊審稿人。
趙毅
哈工大教授,應用數學研究中心主任和學科學術帶頭人,英國數學與應用學會會士,廣東省數學會理事,廣東省工業與應用數學學會常務理事。
研究方向包括應用動力系統、非線性時間序列分析、復雜網絡和數據科學理論等。近五年以第一/通信作者發表SCI論文60余篇,其中3篇論文入選ESI高被引論文。
參考資料:
https://drive.google.com/file/d/1IzkWMe0S0pfoBjYC5Z-vxLedOaQZXjgL/view?usp=drive_link
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.