在萬物互聯(lián)的智能時代,具身智能和空間智能需要的不僅是視覺和語言,還需要突破傳統(tǒng)感官限制的能力;無線感知正成為突破這些物理限制的關(guān)鍵技術(shù):通過捕捉無線信號的反射特性,它讓不可見的目標變得可感知,使機器能夠 "看見" 墻壁后的動靜、"感知" 數(shù)米外的動作,甚至捕捉到人類難以察覺的微妙變化。這種全新的感知維度,能對環(huán)境中人機行為實現(xiàn)無感監(jiān)測與精準解析,正在重塑人機交互的邊界。
從感知到?jīng)Q策,離不開具有強大語義理解能力的大模型。但怎樣構(gòu)建一個除了視覺和語言之外,能夠理解物理原理(電磁場、光學、聲學等)、與物理世界交互的大模型?
這一問題并不能復(fù)制語言、視覺大模型的經(jīng)驗,因為大模型可以從人類幾千年的文字資料中學習語言,可以從整個互聯(lián)網(wǎng)的視頻學習視覺;但除此以外,能提供給模型學習的數(shù)據(jù)微乎其微;僅依賴真實世界的數(shù)據(jù)采集,難以支持大模型所需的海量數(shù)據(jù)。
為解決數(shù)據(jù)稀缺這一最大挑戰(zhàn),北京大學的許辰人教授團隊和匹茲堡大學的高偉教授聯(lián)合提出SynCheck,為機器學習提供與真實數(shù)據(jù)質(zhì)量相近的合成數(shù)據(jù)。相關(guān)工作發(fā)表在移動計算領(lǐng)域旗艦會議 MobiSys 2025 上,并獲得會議的最佳論文獎。
- 論文標題:Data Can Speak for Itself: Quality-guided Utilization of Wireless Synthetic Data
- 論文鏈接:https://arxiv.org/abs/2506.23174
- 代碼鏈接:https://github.com/MobiSys25AE/SynCheck
1. 生成模型評估:數(shù)據(jù)導(dǎo)向的效率優(yōu)化
在無線感知領(lǐng)域,生成模型已被廣泛用于產(chǎn)生合成數(shù)據(jù)以補充真實數(shù)據(jù)集。然而,現(xiàn)有研究大多只關(guān)注數(shù)據(jù)量的擴充,而忽視了合成數(shù)據(jù)的質(zhì)量問題。為解決這一問題,研究團隊提出了兩個創(chuàng)新性質(zhì)量指標:
- 親和力(affinity):衡量合成數(shù)據(jù)與真實數(shù)據(jù)的相似度
- 多樣性(diversity):評估合成數(shù)據(jù)覆蓋真實數(shù)據(jù)分布的范圍
圖:兩類質(zhì)量指標的解釋
與以往依賴視覺啟發(fā)或局限于特定數(shù)據(jù)集的質(zhì)量評估方法不同,這項研究通過貝葉斯分析和性能指標建立了具有理論支撐的通用評估框架。研究還引入 "邊際"(margin) 概念作為性能指標,利用訓練集的邊際分布作為自然參考標準,實現(xiàn)了跨數(shù)據(jù)集的公平比較。
圖:基于 margin 的質(zhì)量評估方法
研究團隊通過系統(tǒng)評估發(fā)現(xiàn),現(xiàn)有無線合成數(shù)據(jù)普遍存在 “親和力不足” 的問題,這會導(dǎo)致數(shù)據(jù)標簽錯誤,進而降低任務(wù)性能。
2. 合成數(shù)據(jù)應(yīng)用:質(zhì)量優(yōu)先的性能突破
基于質(zhì)量評估結(jié)果,團隊開發(fā)了 SynCheck 框架,其核心創(chuàng)新在于:
1. 將合成數(shù)據(jù)視為未標記數(shù)據(jù),真實數(shù)據(jù)作為標記數(shù)據(jù)
2. 采用半監(jiān)督學習框架結(jié)合兩種數(shù)據(jù)源,在迭代訓練過程中過濾低親和力合成樣本,為剩余樣本分配偽標簽
這種方法不需要修改生成模型的訓練或推理過程,可以作為通用后處理步驟適配各種生成流程。
圖:基于半監(jiān)督學習的合成數(shù)據(jù)通用后處理使用方法
實驗結(jié)果顯示,SynCheck 在性能上實現(xiàn)了顯著提升:
1. 在質(zhì)量無關(guān)方法導(dǎo)致性能下降 13.4% 的最壞情況下,仍能實現(xiàn) 4.3% 的性能提升
2. 最佳情況下性能提升達 12.9%
3. 過濾后的合成數(shù)據(jù)展現(xiàn)出更好的親和力,同時保持了與原始數(shù)據(jù)相當?shù)亩鄻有?/p>
圖:合成數(shù)據(jù)的不同使用方法的性能對比
在逐步提升合成數(shù)據(jù)占比的過程中,由于合成數(shù)據(jù)與真實數(shù)據(jù)存在分布差異,其他基線方法的任務(wù)性能會隨著合成數(shù)據(jù)比例增加而顯著下降,這種分布偏移現(xiàn)象破壞了任務(wù)性能與訓練數(shù)據(jù)之間的 scaling law 規(guī)律。相比之下,SynCheck 方法通過動態(tài)校正合成數(shù)據(jù)的分布偏差,使得模型性能能夠保持穩(wěn)定提升,最終收斂至最優(yōu)狀態(tài)。
圖:任務(wù)性能隨合成數(shù)據(jù)規(guī)模擴展的變化趨勢
3. 超越數(shù)據(jù)瓶頸:無線大模型的規(guī)模化應(yīng)用前景
當前學術(shù)界對合成數(shù)據(jù)的研究呈現(xiàn)明顯的觀點分野。持審慎態(tài)度的學者從理論推演和實證研究出發(fā),提出了 "模型崩塌"(model collapse)的警示 —— 這類似于生物學上的近親繁殖現(xiàn)象,當模型持續(xù)消化自身生成的數(shù)據(jù)時,其性能將不可避免地出現(xiàn)退化。然而,另一批研究者則持樂觀態(tài)度,他們認為通過引入驗證器(verifier)機制,完全可以規(guī)避模型崩潰的風險。值得注意的是,現(xiàn)有研究多集中于數(shù)學、代碼等具有明確評價標準的領(lǐng)域,而在復(fù)雜度更高的任務(wù)場景中,這一問題的驗證仍面臨挑戰(zhàn)。
北京大學和匹茲堡大學的研究團隊創(chuàng)新性地提出了以目標任務(wù)模型為橋梁的研究范式,成功建立了合成數(shù)據(jù)與真實數(shù)據(jù)條件分布之間的映射關(guān)系。這一突破性進展為無線感知這一真實數(shù)據(jù)匱乏但性能導(dǎo)向的領(lǐng)域,確立了切實可行的數(shù)據(jù)質(zhì)量評估標準與篩選方法。
未來,研究團隊將致力于推動無線大模型的訓練范式革新,通過拓展數(shù)據(jù)源的多樣化泛化路徑,探索更高效的預(yù)訓練任務(wù)架構(gòu),實現(xiàn)合成數(shù)據(jù)與多元數(shù)據(jù)源的有機融合。在此基礎(chǔ)上,團隊將進一步構(gòu)建面向各類無線感知任務(wù)的通用預(yù)訓練框架,積極拓展多樣化的數(shù)據(jù)來源,依托更強大的無線大模型,為具身智能系統(tǒng)提供堅實的感知與決策支撐。這些研究不僅將深化對合成數(shù)據(jù)質(zhì)量標準的理論認知,更將為新一代具身智能系統(tǒng)的創(chuàng)新發(fā)展奠定基礎(chǔ),推動人工智能在物理世界的深度融合與廣泛應(yīng)用。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.