編輯|ScienceAI
自 20 世紀非線性動力學理論發展以來,如何從高維數據中提取可解釋的動態特征并進行刻畫始終是復雜系統研究的核心挑戰。
傳統降維方法(如PCA、t-SNE、UMAP)雖能壓縮數據維度,但在保留時序動態信息方面存在困難,并且對異常值較為敏感,容易受到噪聲的干擾。
深度學習方法雖能捕捉非線性特征,但計算成本高且可解釋性差。例如在 ICU 患者監護、胚胎發育、氣象變化預警等具有狀態臨界轉移的復雜動態場景中,迫切需要一種高效與穩健的方法來捕捉早期預警信號。
近日,華南理工大學數學學院的陳培教授和劉銳教授團隊,以及中國科學院生物化學與細胞生物學研究所 (現在上海交通大學數學科學學院/人工智能學院)的陳洛南教授團隊合作,在《Advanced science》上發表了一項題為「Ultralow-dimensionality reduction for identifying critical transitions by spatial-temporal PCA」的最新研究成果。
團隊開發了一種名為「時空主成分分析(spatial-temporal principal component analysis,stPCA)」的超低維動力學降維方法。該 stPCA 方法能夠通過單一隱變量實現高維時間序列的無損降維與狀態臨界轉變預警,可實現高維數據的動態刻畫和表征。
論文鏈接:https://doi.org/10.1002/advs.202408173
在現實世界中,眾多物理、生物等過程均可被視作高維非線性動態系統,其中狀態的臨界轉變頻繁發生。
然而,由于這些系統復雜度極高,難以用明確的模型進行描述,因此研究者們通常需要借助高維時間序列數據來分析其動態特性,尤其是識別臨界轉變前的征兆。
這一過程往往需要對數據進行降維處理以及線性或非線性表示,這對于動態分析及動力學刻畫、模式識別和可視化至關重要。
針對以上問題,對于現行的 PCA、tSNE、UMAP 方法等,研究者開發的 stPCA 方法基于廣義 Takens 嵌入理論,將高維空間信息轉換為一維時間信息,利用非線性延遲嵌入理論,將高維時間序列數據的動態特性完整地映射到單一隱變量中,實現高維數據的動力學刻畫。
算法的優化目標由兩項組成:第一項最大化投影變量Z的方差,第二項確保投影后的 Hankel 矩陣Z滿足延遲嵌入條件。通過求解特征方程H(X)V=αV,可獲得變換矩陣W和一維投影z,其中H(X)是一個分塊三對角矩陣(圖1)。
這一過程不僅保留了原始高維數據的動力學特征,而且能夠通過解析求解的方式獲得該隱變量,避免了傳統迭代數值優化算法對參數初始值的依賴,從而提高了計算效率和結果的穩定性。
此外,該一維隱變量可被視為臨界點附近表征中心流形的近似量,因此可通過檢測該表征變量的波動性,識別具有余維1的分岔的動力系統中即將發生的狀態臨界轉變。
圖 1:stPCA 算法示意圖。
研究團隊通過一系列實驗驗證了 stPCA 方法的有效性。首先,利用耦合 Lorenz 模型生成的合成時間序列數據集,在不同噪聲條件下進行測試,結果表明 stPCA 能夠在強噪聲干擾下依然保持對動態系統的準確表示,其降維后的單一隱變量與傳統 PCA 方法等的多個主成分投影結果高度相似,且具有更強的抗噪性。
此外,stPCA 還被應用于具有 Fold 和 Hopf 分叉的多節點網絡仿真模型等,成功檢測到了臨界轉變點前的早期預警信號(圖 2)。
圖 2:以具有 Hopf 分岔的 16 維動力系統的 16 節點模型為例。將原始的高維時間序列劃分為滑動窗口,一維潛在變量 z 是通過 stPCA 從每個滑動窗口獲得的。z 的 SD 是在滑動窗口中計算的,因為參數 τ 和 λ 對于 16 節點模型會發生變化。
特別地,在 MIMIC-III 和 MIMIC-IV 數據庫 ICU 患者的真實數據應用中,stPCA 表現出適用性和可靠性。通過對患者高維異質性時間序列數據的降維分析,stPCA 能夠為每位患者提供個性化的臨界狀態預警信號,為 ICU 患者的出院決策提供了量化參考(如圖 3 所示)。
圖 3:以肺炎和充血性心力衰竭患者為例,結合 stPCA 的降維結果和 2-5 個診斷相關指標,可以判斷患者是否應該從 ICU 出院。紅色間期表示患者應繼續接受 ICU 治療或觀察,而藍色間期表示患者病情相對穩定,可以從 ICU 出院。
同時,stPCA 還成功應用于單細胞胚胎發育數據集,識別出細胞命運轉變的關鍵時刻,即分化為確定性內胚層的臨界點(圖 4)。
圖4:檢測胚胎發育過程中的臨界點。(A) 細胞從多能狀態分化到中間內胚層,最后分化到最終內胚層 (DE) 細胞的生物過程。(B) 采用滑動窗口方案的潛變量 z 的 SD 曲線。結果表明,在分化過程中 36 小時突然增加。
總結而言,stPCA 作為一種超低維動力學降維方法,不僅在理論上具有堅實的數學基礎,能夠完整地保留高維數據的動態特性,而且在實際應用中展現出了適用性和穩健性。
相較于傳統的降維方法,stPCA 在處理高維時間序列數據時具有其動力學降維的特殊優勢:它通過解析方式得到的一維隱變量可有效地對復雜系統進行動力學表征和刻畫,這使得在面對噪聲干擾和數據維度較高時,stPCA 能夠快速地識別到狀態臨界轉變點。
這一方法為復雜系統的研究、疾病診斷與治療決策、氣候變化預測等多個領域提供了一種全新的視角和量化分析工具,有望推動相關領域的研究和應用取得更大的突破。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.