網易首頁 > 網易號 > 正文申請入駐

首個多模態工業信號基座模型FISHER，權重已開源，來自清華&上交

2025-07-24 11:36:25　來源: 機器之心Pro

北京舉報

分享至

近期，來自清華大學、上海交通大學、北京華控智加科技有限公司和華北電力大學的研究者聯合發布首個多模態工業信號基座模型 FISHER，采用搭積木的方法對異質工業信號進行統一建模。目前技術報告和權重均已開源，歡迎使用！

論文鏈接：https://arxiv.org/abs/2507.16696
GitHub 倉庫：https://github.com/jianganbai/FISHER

研究背景

近年來，越來越多的工業設備被安裝上傳感器以監控工作狀態。然而安裝傳感器容易，如何高效分析工業信號卻很難，因為不同傳感器采集的工業信號具有極大的異質性。本文中，我們將其總結為 M5 問題：多模態、多采樣率、多尺度、多任務和少故障。

受到 M5 問題影響，現有方法大多只分析小范圍的工業信號，例如基于振動的軸承故障診斷，所采用的模型也均為在小數據集上訓練的小模型。然而這些模型未能發掘大數據訓練的優勢，也未能利用不同模態之間的互補性。另一方面，對于工業運維的每個子問題，都需要單獨開發和部署專門的模型，大大增加了實際應用的復雜度。

研究動機

盡管工業信號表面上差異大，其內在特征和語義信息卻很相似：

語義信息相同：信號都反映了相同的健康狀態。
產生機理相似：聲音（鼓膜震動）和振動同根同源。
分析手段相似：基本都采用譜分析方法。
故障模式相似：設備由零件組成，不同設備之間有借鑒性。
任務特征共享：一個特征向量可表征多個健康管理任務。

基于此，我們認為是可以使用單一模型對異質工業信號進行統一建模。由于信號內部存在相似性，通過 scaling，可以讓模型逐漸學會這些相似性，進而迸發出更為強大的表征能力，實現里程碑式提升。由此我們開發了 FISHER 模型。

FISHER 模型介紹

FISHER 模型是首個面向多模態工業信號的基座模型。它以子帶為建模單元，通過堆積木的方式表征整段信號，可處理任意采樣率的工業信號。詳細介紹如下：

子帶建模

譜分析是語音和信號分析常用的手段。與語音模型常采用的 Mel 譜不同的是，FISHER 采用短時傅里葉變換（STFT）作為信號輸入特征，這是由于 1）故障分量往往出現在高頻 2）對于旋轉類機械，倍頻關系往往很重要。為保證不同采樣率下時頻分辨率相同，FISHER 中的 STFT 采用固定時長的窗長和幀移。

當數據量增大時，多采樣率是模型必須要應對的問題。之前方法將信號全部重采樣至固定采樣率（例如 16 kHz），從而丟失了關鍵的高頻信息，特別是對于 44.1 kHz 及以上的高帶寬信號。在 FISHER 中，我們不再進行重采樣，而是利用信號在不同采樣率下的特點進行建模。

如下圖所示，對同一信號源使用不同采樣率進行觀測時，共有頻帶基本一致，而高采樣率會有額外的高頻子帶，也就是說高采樣率的增益來源于更多子帶信息。而另一方面，工業信號常見的采樣率有 16 kHz，32 kHz，44.1 kHz 和 48 kHz，這些采樣率近似存在公約數（如 2 kHz 和 4 kHz），故 STFT 譜可視作多個固定寬度子帶的拼接。

因此 FISHER 采用固定寬度的子帶作為建模單元，將子帶信息用搭積木的方式拼接成整段信號的表征。具體而言，STFT 譜被切分為固定寬度的子帶，每個子帶被模型單獨處理。最終的信號表征是每個子帶表征的拼接。

模型架構

FISHER 包括 1 個 ViT Encoder 和 1 個 CNN Decoder，采用「老師 - 學生」自蒸餾預訓練。具體而言，老師 Encoder 是學生 Encoder 的指數滑動平均（EMA），僅學生 Encoder 和學生 Decoder 具有梯度。切分后的子帶的 80% 被 mask，未被 mask 的 20% 送入學生 Encoder，處理后再與被 mask 部分按原位置拼接，送入學生 Decoder。老師 Encoder 則輸入整個子帶，輸出則作為蒸餾的目標。自蒸餾過程分別在 [CLS] 層次和 patch 層次進行監督。預訓練結束后，僅保留學生 Encoder 用于后續評估。

我們目前開源了 FISHER 的 3 個不同尺寸：tiny（5.5M），mini（10M）和 small（22M）。所有模型均在 1.7 萬小時的混合數據集上進行預訓練。

RMIS 基準介紹

為評估模型在各種健康管理任務上的性能，我們提出了 RMIS 基準。RMIS 基準包含 5 個異常檢測數據集和 13 個故障診斷數據集，涵蓋 4 個模態。這里異常檢測為正常 / 異常 2 分類問題，但訓練集不包含異常；故障診斷為多分類問題，訓練集和測試集均包含所有類別。為檢驗模型固有的性能，模型在所有數據集上均使用相同的 KNN 配置進行推斷，不進行微調。

實驗結果

我們先在 RMIS 基準上對常見預訓練模型進行篩選，然后采用 5 個最好的模型作為基線，涵蓋了 5M 到 1.2B 的多個尺寸。由于語音模型的效果普遍偏差，故我們并未對比。

基準得分

在 RMIS 基準上，FISHER 的 3 個版本分別較基線至少提升了 3.91%，4.34% 和 5.03%，展現出強大的泛化能力。按任務分析，在異常檢測任務上，FISHER 僅略低于 BEATs；而在故障診斷任務上，FISHER 大幅超過 BEATs 在內的所有基線，這主要得益于 FISHER 能利用完整的頻帶，而基線模型只能利用到 16 kHz。此外，目前開源的 FISHER 模型最大也只有 22M，遠小于基線常見的 90M。

Scaling 效果

上圖對比了各個模型的 RMIS 得分隨模型大小變化的曲線。可以看到 FISHER 的曲線遠高于基線系統的曲線，即使是最小的 FISHER-tiny 也能超過所有基線系統。這說明 FISHER 的預訓練模式更優越，scaling 更有效。

另一方面，我們觀察到 100M 似乎是 scaling 曲線的分界點。我們猜測這是由于工業信號重復度較高，現有大規模數據集中的工業信號去重后至多支持 100M 模型的訓練。因此訓練信號基座模型時，數據的配比需要增大，數據清洗將是 scaling up 的關鍵。此外，考慮到 FISHER 的成功，Test-Time Scaling 似乎也是可行的方向。

變切分比

對于 12 個不提供官方切分的數據集，我們首先繪制了模型在變切分比場景下的工作曲線，然后估計了曲線下面積。如上表所示，FISHER 具有最大的曲線下面積，說明其在變切分比場景下依舊具有卓越的性能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.